Automated data collection with R
A practical guide to web scraping and text mining
關(guān)于R語言數(shù)據(jù)自動(dòng)化處理,如爬蟲,還有一些網(wǎng)頁相關(guān)基礎(chǔ)。
參考書就是Automated data collection with R
先是介紹一下本書的緒論和資源:
首先,怎么判斷你的需求,是否需要爬蟲來解決問題:
該任務(wù)是否經(jīng)常需要重復(fù)執(zhí)行,比如更新你的數(shù)據(jù)庫?
你是否希望其他人能夠重復(fù)你的數(shù)據(jù)收集過程?
你是否經(jīng)常處理在線數(shù)據(jù)?
這個(gè)任務(wù)在規(guī)模上和復(fù)雜度上如何?
如果這個(gè)任務(wù)可以手動(dòng)做,你是否有足夠的人手資源或時(shí)間
你是否愿意通過編程來自動(dòng)化你的分析
作者介紹了一些R的實(shí)用網(wǎng)站:
新手快速入門之QuickR:https://www.statmethods.net/
R bloggers: 非常有趣的R topics,收集了所有關(guān)于R的博客:http://www.r-bloggers.com/
recent advances in web technologies:關(guān)于R與其網(wǎng)站應(yīng)用的一些更新:https://cran.r-project.org/web/views/WebTechnologies.html
整本書的website在:http://www.r-datacollection.com/ 包含本書配套的教程,代碼,blog等等。blog會(huì)經(jīng)常更新,推送一些實(shí)戰(zhàn)資源。