爬蟲(chóng) 使用CrawlSpider和selenium爬取安居客網(wǎng)威海二手房信息

? ? ? ?主要是使用CrawlSpider和selenium來(lái)進(jìn)行威海地區(qū)二手房的信息的爬取。主要有小區(qū)名,地理位置,平均價(jià)格。由于房?jī)r(jià)都是通過(guò)AJAX來(lái)進(jìn)行加載的所以通過(guò)普通的爬蟲(chóng)是無(wú)法獲取的,所以通過(guò)selenium來(lái)進(jìn)行動(dòng)態(tài)的爬取。但是由于沒(méi)有多個(gè)ip地址的支持。所以只爬取了200多條信息,還是很遺憾的。


1.首先看一下整體的結(jié)構(gòu)

? ? ? 1.1. fangjia.py用來(lái)解析請(qǐng)求的網(wǎng)頁(yè),并且使用yield返回?cái)?shù)據(jù),進(jìn)行進(jìn)一步的處理。

? ? ? 1.2. items.py用來(lái)設(shè)定參數(shù),xiaoqu_name(小區(qū)名),position(地理位置),price(價(jià)格)

? ? ? 1.3. settings.py用來(lái)設(shè)置一些默認(rèn)請(qǐng)求頭,默認(rèn)中間件,默認(rèn)pipelines和爬取延遲等

? ? ? 1.4. middlewares.py中間件,使用selenium進(jìn)行動(dòng)態(tài)的請(qǐng)求網(wǎng)頁(yè),然后通過(guò)返回Response對(duì)象,傳遞給pipelines進(jìn)行進(jìn)一步的處理。

? ? ? 1.5. pipelines.py處理傳遞過(guò)來(lái)的數(shù)據(jù),并且將數(shù)據(jù)保存在mysql數(shù)據(jù)庫(kù)中。(我這里是將爬取下來(lái)的數(shù)據(jù)保存在數(shù)據(jù)庫(kù)中)

?2.fangjia.py內(nèi)容

3.items.py中的內(nèi)容


4.settings.py中的內(nèi)容


5.middlewares.py中的內(nèi)容


6.pipelines.py中的內(nèi)容


7.爬取下來(lái)的部分?jǐn)?shù)據(jù)


8.通過(guò)sql語(yǔ)句進(jìn)行了按照價(jià)格由高到低排序

SELECT * from fangchan_detial

ORDER BY CONVERT(price,SIGNED) DESC;


就爬取下來(lái)的200多條數(shù)據(jù)來(lái)看威海地區(qū)平均房?jī)r(jià)top5


就爬取下來(lái)的200多條數(shù)據(jù)來(lái)看威海地區(qū)平均房?jī)r(jià)bottom5

9.存在的問(wèn)題

????如果您仔細(xì)的看的話,里面存在不少的問(wèn)題,其中一個(gè)問(wèn)題是網(wǎng)站上通過(guò)AJAX請(qǐng)求下來(lái)的數(shù)據(jù)在我所學(xué)的知識(shí)中,我無(wú)法將其轉(zhuǎn)化為int類(lèi)型。但是我希望通過(guò)轉(zhuǎn)化為int類(lèi)型,直接插入到mysql數(shù)據(jù)庫(kù)中。這樣就不用通過(guò)sql語(yǔ)句進(jìn)行數(shù)字字符串的轉(zhuǎn)化,再進(jìn)行排序。

? ? 我是一個(gè)爬蟲(chóng)的初學(xué)者,希望每天分享快樂(lè)的學(xué)習(xí)經(jīng)歷。并且希望對(duì)于自己的問(wèn)題,能過(guò)得到各位大神的建議和批評(píng)指點(diǎn)。

? ? 對(duì)于以上數(shù)據(jù)如果有侵權(quán)行為,望通知,立刪。以上內(nèi)容僅供學(xué)習(xí)使用。謝謝。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容