地址:https://github.com/derekhe/ProxyPool
介紹
在《爬蟲實(shí)戰(zhàn):從數(shù)據(jù)到產(chǎn)品》一書中,我講到了一個(gè)基于ProxyBroker的代理池。經(jīng)過我的長(zhǎng)時(shí)間的實(shí)踐,這個(gè)代理池用起來(lái)非常的方便和穩(wěn)定。
基于ProxyBroker,增加了中國(guó)區(qū)域的代理資源。并引入了docker-compose,能夠快速的方便的開始代理的抓取。
用法
docker-compose up
然后瀏覽器打開http://localhost:8080/proxy.json 即可得代理列表。每個(gè)代理都經(jīng)過類型的驗(yàn)證,代理資源會(huì)隨著時(shí)間增長(zhǎng)。每個(gè)代理的有效期為一天時(shí)間。大概一天有1萬(wàn)左右的有效代理。
由于很多代理資源在中國(guó)無(wú)法訪問的網(wǎng)站,部署在國(guó)內(nèi)的服務(wù)器上會(huì)影響資源的獲取,所以推薦將服務(wù)器部署到國(guó)外的服務(wù)器。服務(wù)器推薦使用DigitalOcean,我的多個(gè)服務(wù)器都在SFO2區(qū)域,非常的穩(wěn)定。