漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

做數(shù)據(jù)挖掘也有些年頭了,寫(xiě)這篇文一方面是寫(xiě)篇文,給有個(gè)朋友作為數(shù)據(jù)挖掘方面的參考,另一方面也是有拋磚引玉之意,希望能夠和一些大牛交流,相互促進(jìn),讓大家見(jiàn)笑了。 入門(mén): 數(shù)據(jù)挖掘入門(mén)的書(shū)籍,中文的大體有這些: JiaweiHan的《數(shù)據(jù)挖掘概念與技術(shù)》

做數(shù)據(jù)挖掘也有些年頭了,寫(xiě)這篇文一方面是寫(xiě)篇文,給有個(gè)朋友作為數(shù)據(jù)挖掘方面的參考,另一方面也是有拋磚引玉之意,希望能夠和一些大牛交流,相互促進(jìn),讓大家見(jiàn)笑了。

入門(mén):

?

數(shù)據(jù)挖掘入門(mén)的書(shū)籍,中文的大體有這些:

Jiawei?Han的《數(shù)據(jù)挖掘概念與技術(shù)》

Ian?H.?Witten?/?Eibe?Frank的《數(shù)據(jù)挖掘?實(shí)用機(jī)器學(xué)習(xí)技術(shù)》

Tom?Mitchell的《機(jī)器學(xué)習(xí)》

TOBY?SEGARAN的《集體智慧編程》

Anand?Rajaraman的《大數(shù)據(jù)》

Pang-Ning?Tan的《數(shù)據(jù)挖掘?qū)д摗?/p>

Matthew?A.?Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》

?

很多人的第一本數(shù)據(jù)挖掘書(shū)都是Jiawei?Han的《數(shù)據(jù)挖掘概念與技術(shù)》,這本書(shū)也是我們組老板推薦的入門(mén)書(shū)(我個(gè)人覺(jué)得他之所以推薦是因?yàn)镠an是他的老師)。其實(shí)我個(gè)人來(lái)說(shuō)并不是很推薦把這本書(shū)。這本書(shū)什么都講了,甚至很多書(shū)少有涉及的一些點(diǎn)比如OLAP的方面都有涉獵。但是其實(shí)這本書(shū)對(duì)于初學(xué)者不是那么友好的,給人一種教科書(shū)的感覺(jué),如果你有大毅力讀完這本書(shū),也只能獲得一些零碎的概念的認(rèn)識(shí),很難上手實(shí)際的項(xiàng)目。

?

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

我個(gè)人推薦的入門(mén)書(shū)是這兩本:TOBY?SEGARAN的《集體智慧編程》和Ian?H.?Witten?/?Eibe?Frank的《數(shù)據(jù)挖掘?實(shí)用機(jī)器學(xué)習(xí)技術(shù)》

《集體智慧編程》很適合希望了解數(shù)據(jù)挖掘技術(shù)的程序員,這本書(shū)講述了數(shù)據(jù)挖掘里面的很多實(shí)用的算法,而且最重要的是其講述的方式不是像Han那種大牛掉書(shū)袋的講法,而是從實(shí)際的例子入手,輔以python的代碼,讓你很快的就能理解到這種算法能夠應(yīng)用在哪個(gè)實(shí)際問(wèn)題上,并且還能自己上手寫(xiě)寫(xiě)代碼。唯一的缺點(diǎn)是不夠深入,基本沒(méi)有數(shù)學(xué)推導(dǎo),而且不夠全面,內(nèi)容不夠翔實(shí)。不過(guò)作為一本入門(mén)書(shū)這些缺點(diǎn)反而是幫助理解和入門(mén)的優(yōu)點(diǎn)。

推薦的另一本《數(shù)據(jù)挖掘?實(shí)用機(jī)器學(xué)習(xí)技術(shù)》則相對(duì)上一本書(shū)要稍微難一點(diǎn),不過(guò)在容易理解的程度上依然甩Han老師的書(shū)幾條街,其作者就是著名的Weka的編寫(xiě)者。整本書(shū)的思想脈絡(luò)也是盡可能的由易到難,從簡(jiǎn)單的模型入手?jǐn)U展到現(xiàn)實(shí)生活中實(shí)際的算法問(wèn)題,最難能可貴的是書(shū)的最后還稍微講了下如何使用weka,這樣大家就能在學(xué)習(xí)算法之余能夠用weka做做小的實(shí)驗(yàn),有直觀的認(rèn)識(shí)。?

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

看完上述兩本書(shū)后,我覺(jué)得大體數(shù)據(jù)挖掘就算有個(gè)初步的了解了。往后再怎么繼續(xù)入門(mén),就看個(gè)人需求了。

如果是只是想要稍微了解下相關(guān)的技術(shù),或者作為業(yè)余愛(ài)好,則可隨便再看看Anand?Rajaraman的《大數(shù)據(jù)》以及Matthew?A.?Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》。前者是斯坦福的”Web挖掘”這門(mén)課程的材料基礎(chǔ)上總結(jié)而成。選取了很多數(shù)據(jù)挖掘里的小點(diǎn)作為展開(kāi)的,不夠系統(tǒng),但講的挺好,所以適合有個(gè)初步的了解后再看。后者則亦是如此,要注意的是里面很多api因?yàn)镚FS的緣故不能直接實(shí)驗(yàn),也是個(gè)遺憾

?

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

如果是繼續(xù)相關(guān)的研究學(xué)習(xí),我認(rèn)為則還需要先過(guò)一遍T(mén)om?Mitchell的《機(jī)器學(xué)習(xí)》。這本書(shū)可以看做是對(duì)于十多年前的機(jī)器學(xué)習(xí)的一個(gè)綜述,作者簡(jiǎn)單明了的講述了很多流行的算法(十年前的),并且對(duì)于各個(gè)算法的適用點(diǎn)和特點(diǎn)都有詳細(xì)的解說(shuō),輕快地在一本薄薄的小書(shū)里給了大家一個(gè)機(jī)器學(xué)習(xí)之旅。

?

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

進(jìn)階:

?

進(jìn)階這個(gè)話(huà)題就難說(shuō)了,畢竟大家對(duì)于進(jìn)階的理解各有不同,是個(gè)仁者見(jiàn)仁的問(wèn)題。就我個(gè)人來(lái)說(shuō),則建議如下展開(kāi):

?

視頻學(xué)習(xí)方面:

可以看看斯坦福的《機(jī)器學(xué)習(xí)》這門(mén)課程的視頻,最近聽(tīng)說(shuō)網(wǎng)易公開(kāi)課已經(jīng)全部翻譯了,而且給出了雙語(yǔ)字幕,更加容易學(xué)習(xí)了^_^

?

書(shū)籍學(xué)習(xí)方面:

我個(gè)人推薦的是這樣:可以先看看李航的《統(tǒng)計(jì)學(xué)習(xí)方法》,這本書(shū)著重于數(shù)學(xué)推導(dǎo),網(wǎng)站空間,能讓我們很快的對(duì)于一些算法的理解更加深入。

有了上面這本書(shū)的基礎(chǔ),就可以開(kāi)始啃一些經(jīng)典名著了。這些名著看的順序可以不分先后,也可以同時(shí)學(xué)習(xí):

Richard?O.?Duda的《模式分類(lèi)》這本書(shū)是力薦,很多高校的數(shù)據(jù)挖掘?qū)д撜n程的教科書(shū)便是這本(也是我的數(shù)據(jù)挖掘入門(mén)書(shū),很有感情的)。如果你不通讀這本書(shū),你會(huì)發(fā)現(xiàn)在你研究很多問(wèn)題的時(shí)候,甚至一些相對(duì)簡(jiǎn)單的問(wèn)題(比如貝葉斯在高斯假設(shè)下為什么退化成線(xiàn)性分類(lèi)器)都要再重新回頭讀這本書(shū)。

Christopher?M.?Bishop的《Pattern?Recognition?And?Machine?Learning》這本書(shū)也是經(jīng)典巨著,整本書(shū)寫(xiě)的非常清爽。

漫談數(shù)據(jù)挖掘從入門(mén)到進(jìn)階

《The?Elements?of?Statistical?Learning》這本書(shū)有句很好的吐槽“機(jī)器學(xué)習(xí)?—?從入門(mén)到精通”可以作為這本書(shū)的副標(biāo)題。可以看出這本書(shū)對(duì)于機(jī)器學(xué)習(xí)進(jìn)階的重要性。值得一說(shuō)的是這本書(shū)雖然有中文版,但是翻譯之爛也甚是有名,聽(tīng)說(shuō)是學(xué)體育的翻譯的。

Hoppner,?Frank的《Guide?to?Intelligent?Data?Analysis》這本書(shū)相對(duì)于上面基本經(jīng)典巨著并不出名,但是寫(xiě)的甚好,是knime官網(wǎng)上推薦的,標(biāo)榜的是解決實(shí)際生活中的數(shù)據(jù)挖掘問(wèn)題,講述了CRISP-DM標(biāo)準(zhǔn)化流程,每章后面給出了R和knime的應(yīng)用例子。

以前寫(xiě)過(guò)的讀書(shū)筆記

?

項(xiàng)目方面:

? 版權(quán)聲明
THE END
喜歡就支持一下吧
點(diǎn)贊5 分享