以前寫過一篇類似的文章: 如何打包自己的項目并且發(fā)布到pypi上,不過由于PyPI進行了一些更新,因此舊方法不大適用了。趁端午有時間,想把hai...
今天刷一道算法題的時候用到了list_a == list_b的判斷,==和is大家都已經(jīng)是耳熟能詳了,前者是判斷值是否相等,后者是判斷引用是否相...
最近由于工作需要,接觸了兩類監(jiān)控類產(chǎn)品,一類是對于系統(tǒng)資源,系統(tǒng)狀態(tài)、應(yīng)用狀態(tài)等信息的監(jiān)控,主要是使用prometheus+grafana,這個...
昨日使用haipproxy作為代理源,對知乎進行了數(shù)據(jù)抓取相關(guān)的性能測試,測試效果還不錯,有興趣的可以點擊項目主頁查看測試結(jié)果。但是它仍有繼續(xù)優(yōu)...
使用過代理IP的同學應(yīng)該都知道,即使是同一個IP,訪問不同網(wǎng)站,可用性和速度都可能大不相同。因此,根據(jù)實際使用情況編寫特定站點的代理校驗器是非常...
目前有這么一個需求:線上有很多個爬蟲程序,它們在數(shù)據(jù)清洗完成后都要做文本情感分析。以往同學的做法是在每個爬蟲中把相同代碼都Copy一份,但是考慮...
持續(xù)集成(CI)對于軟件工程來說非常重要,它的意義在于產(chǎn)品快速迭代的同時,還能夠讓代碼保持高質(zhì)量,所以編寫高質(zhì)量的單元測試代碼也顯得十分重要。T...
本篇文章將是『如何構(gòu)建一個分布式爬蟲』系列文章的最后一篇,擬從實戰(zhàn)角度來介紹如何構(gòu)建一個穩(wěn)健的分布式微博爬蟲。這里我沒敢談高效,抓過微博數(shù)據(jù)的同...
由于分布式微博爬蟲中使用celery作為分布式任務(wù)調(diào)度工具,使用redis作為celery的broker.由于redis是單機,當redis掛掉...