Python 3 爬蟲(chóng)學(xué)習(xí)筆記 6 StringIO, DictReader, PDF,word

此學(xué)習(xí)筆記整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents

CSV file

作者提供了處理網(wǎng)路csvfile的一個(gè)方法,不存儲(chǔ),直接處理。用到了StringIO,然后直接處理。


主要還是兩個(gè)步驟,一個(gè)是把urlopen得到的文件用stringio 來(lái)處理一下。得到一個(gè)stringio文件,然后直接用csv.reader 來(lái)讀取一下。讀取后就可以進(jìn)行操作了,讀取后可以進(jìn)行迭代操作。

也可以將csv數(shù)據(jù)處理成字典

只是將第8句換掉就好了



第八句換成csv.DictReader。第九句只是用來(lái)檢驗(yàn)得到的字段。

二,pdf

說(shuō)實(shí)話(huà),我沒(méi)看懂,也沒(méi)查到中英文的資料。



作者上面的代碼少了一句 from urllib.request import urlopen.不過(guò)書(shū)中的正確代碼都可以在網(wǎng)上找到。

作者說(shuō)這個(gè)代碼對(duì)處理全是text且layout比較可以的pdf效果較好。

三,word

也不懂,就把代碼貼這里吧。



P.S.:沒(méi)能上車(chē)的小伙伴歡迎留言,如果我會(huì)我直接回答你!如果不會(huì),我谷歌后回答你!如果要加我微信,不行。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,635評(píng)論 19 139
  • “要以悲觀的徹悟,樂(lè)觀地去工作去生活”,突然對(duì)這句話(huà)有了感觸。
    汐元下閱讀 230評(píng)論 0 0
  • 題圖來(lái)自:Zoommy. 版權(quán)聲明本文首發(fā)自微信公眾帳號(hào):runner2sun;無(wú)需授權(quán)即可轉(zhuǎn)載,但請(qǐng)自覺(jué)保留以上...
    逐日的我閱讀 615評(píng)論 1 5
  • font-size屬性不被直接繼承:只有計(jì)算值(em或百分比時(shí))被繼承,而不是整個(gè)聲明被繼承。特點(diǎn): 僅被傳遞到子...
    一只好奇的茂閱讀 2,976評(píng)論 0 16
  • 自然語(yǔ)言處理的輸入法作業(yè)成品沒(méi)有做出來(lái),但不想再在蛋疼的Win32上面耗費(fèi)時(shí)間了,整理文檔,記錄一下心得,新手再來(lái)...
    乖乖果效36閱讀 1,903評(píng)論 0 1

友情鏈接更多精彩內(nèi)容