此學(xué)習(xí)筆記整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents
CSV file
作者提供了處理網(wǎng)路csvfile的一個(gè)方法,不存儲(chǔ),直接處理。用到了StringIO,然后直接處理。

主要還是兩個(gè)步驟,一個(gè)是把urlopen得到的文件用stringio 來(lái)處理一下。得到一個(gè)stringio文件,然后直接用csv.reader 來(lái)讀取一下。讀取后就可以進(jìn)行操作了,讀取后可以進(jìn)行迭代操作。
也可以將csv數(shù)據(jù)處理成字典
只是將第8句換掉就好了

第八句換成csv.DictReader。第九句只是用來(lái)檢驗(yàn)得到的字段。
二,pdf
說(shuō)實(shí)話(huà),我沒(méi)看懂,也沒(méi)查到中英文的資料。

作者上面的代碼少了一句 from urllib.request import urlopen.不過(guò)書(shū)中的正確代碼都可以在網(wǎng)上找到。
作者說(shuō)這個(gè)代碼對(duì)處理全是text且layout比較可以的pdf效果較好。
三,word
也不懂,就把代碼貼這里吧。

P.S.:沒(méi)能上車(chē)的小伙伴歡迎留言,如果我會(huì)我直接回答你!如果不會(huì),我谷歌后回答你!如果要加我微信,不行。