關(guān)鍵詞:linux服務(wù)器? 多線程? 爬蟲技術(shù)
代碼大意:自動獲取某網(wǎng)站的大量信息,包括id,評價,粉絲等數(shù)量的信息。網(wǎng)頁大概有70W個網(wǎng)頁。
問題:每次大概數(shù)據(jù)采集訪問到5000個網(wǎng)頁的時候就出現(xiàn)killed,如何解決?
查了一下網(wǎng)上公開的資料:使用的內(nèi)存過多被OOM了,killed
措施:轉(zhuǎn)移到本地計算機(jī)運行;補充服務(wù)器內(nèi)存;改變存儲方式(以前是寫入exl里面,結(jié)果發(fā)現(xiàn)有內(nèi)存泄露,最終導(dǎo)致killed。解決方案將其儲存在文本文檔中.txt文件,很好的解決了這一問題)