就目前學(xué)到的這點(diǎn)知識(shí),先做個(gè)總結(jié),飼養(yǎng)蟲子得有四大金鋼:settings.py,items.py,pipelines.py以及spider文件夾里的那些你自己可起起名字的蟲子。settings是配置文件,利用這個(gè)文件,你可以對(duì)蟲子的行動(dòng)進(jìn)行總控。items設(shè)置你是抓的項(xiàng)目,命名一定要簡(jiǎn)潔,這些項(xiàng)目既有網(wǎng)頁(yè)里的項(xiàng)目,你也可以設(shè)定自己的項(xiàng)目,如時(shí)間。而pipelines則是設(shè)置抓取后數(shù)據(jù)的走向,你可以把數(shù)據(jù)寫進(jìn)數(shù)據(jù)庫(kù),也可以寫到j(luò)son,json line等文件里。至于spider文件夾里的蟲子,則是干活的主力,你要根據(jù)任務(wù)需要進(jìn)行設(shè)置。飼養(yǎng)蟲子最費(fèi)工夫的就在這里。
首先你的學(xué)習(xí)如何配置飼料,CSS和XPATH學(xué)一下,谷歌、火狐兩個(gè)瀏覽器下的WEB開發(fā)工具得搞得掂。
其次你得學(xué)習(xí)飼料的預(yù)處理,抓取的元素如果沒有把握,就在SCRAPY SHELL里先試好。
然后,把這些飼料喂給小蟲子,這些蟲子才會(huì)干活。
最后,作為法律人,我兩提醒各位養(yǎng)殖戶,你的蟲子不能到別人家里去啃莊稼,吃點(diǎn)別人地里的草就行了,啃莊稼多了,會(huì)有牢獄之災(zāi)。