通過前面的學(xué)習(xí),你應(yīng)該已經(jīng)知道怎么提取到爬蟲數(shù)據(jù)了。但是提取數(shù)據(jù)之后,我們應(yīng)該講數(shù)據(jù)保存起來,或者進(jìn)一步應(yīng)用起來,爬蟲才有意義。爬蟲最常用的數(shù)據(jù)保存方法有txt文件、Exce...
通過前面的學(xué)習(xí),你應(yīng)該已經(jīng)知道怎么提取到爬蟲數(shù)據(jù)了。但是提取數(shù)據(jù)之后,我們應(yīng)該講數(shù)據(jù)保存起來,或者進(jìn)一步應(yīng)用起來,爬蟲才有意義。爬蟲最常用的數(shù)據(jù)保存方法有txt文件、Exce...
在學(xué)習(xí)本小節(jié)的知識之前,對于Xpath的語法最好有一個(gè)簡單的了解。如果不是很了解的,可以看一下我的另一篇文章Xpath之爬蟲常用方法總結(jié)。 爬蟲數(shù)據(jù)Xpath處理步驟 lxm...
Xpath簡介 XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。XPath基于XML的樹狀結(jié)構(gòu),提供在數(shù)據(jù)結(jié)...
什么是JSON JSON 指的是 JavaScript 對象表示法(JavaScript Object Notation),是輕量級的文本數(shù)據(jù)交換格式,且具有自我描述性,更易...
json.dumps(),用于數(shù)據(jù)類型的轉(zhuǎn)換json.dumps()用于將dict類型的數(shù)據(jù)轉(zhuǎn)成str,因?yàn)槿绻苯訉ict類型的數(shù)據(jù)寫入json文件中會發(fā)生報(bào)錯,因此在將...
之前的文章中講到,有很多網(wǎng)站為了防止爬蟲程序爬網(wǎng)站造成網(wǎng)站癱瘓,所以我們的程序在模擬瀏覽器訪問這些網(wǎng)站時(shí),需要攜帶一些headers頭部信息才能訪問,最常見的有User-Ag...
timeout參數(shù)的使用 在某些網(wǎng)絡(luò)情況不好或者服務(wù)器端異常的情況會出現(xiàn)請求慢或者請求異常的情況,這個(gè)時(shí)候我們需要給請求設(shè)置一個(gè)超時(shí)時(shí)間,而不是讓程序一直在等待結(jié)果。寫一個(gè)簡...
如果你嘗試了我在Python爬蟲(二)Requests庫題中講述的response方式,發(fā)現(xiàn)有可能會獲取不到網(wǎng)頁源碼(登陸知乎一定可以獲取不到)。 如果User-Agent還...
什么是Requests Requests是用python語言基于urllib編寫的,采用的是Apache2 Licensed開源協(xié)議的HTTP庫。與urllib相比,Requ...
HTTP和HTTPS HTTP是互聯(lián)網(wǎng)上應(yīng)用最為廣泛的一種網(wǎng)絡(luò)協(xié)議,是一個(gè)客戶端和服務(wù)器端請求和應(yīng)答的標(biāo)準(zhǔn)(TCP),用于從WWW服務(wù)器傳輸超文本到本地瀏覽器的傳輸協(xié)議,它可...
什么是爬蟲 百度詞條上對于爬蟲的定義是:網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序...
Scrapy是Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。在安裝Scrapy模塊時(shí),pip install S...
去年年底接手的一個(gè)模塊測試任務(wù)中,涉及到了WebService。然而服務(wù)端提供的測試數(shù)據(jù)極其少,所以就利用SoapUI模擬服務(wù)端,來測試客戶端的程序。 SoapUI的安裝 S...
今天在用soapUI模擬服務(wù)端之后,客戶端連接不上,后來分析發(fā)現(xiàn)了是以下原因?qū)е碌?,在這里記錄一下。 啟動的服務(wù)端的path:/port:8080host:127.0.0.1
出現(xiàn)該錯誤是因?yàn)閙ysql數(shù)據(jù)庫中默認(rèn)的字符編碼都為latin1,而我們插入的值是中文,才會出現(xiàn)這種錯誤。解決方法是將對應(yīng)的數(shù)據(jù)庫表中的address列的字符集改為utf-8...
創(chuàng)建第一個(gè)Django項(xiàng)目 常用的幾個(gè)命令及其用處如下: startproject:創(chuàng)建一個(gè)項(xiàng)目 startapp:創(chuàng)建一個(gè)應(yīng)用 makemigrations:檢測模型變化,...
什么是Django Django是一個(gè)開放源代碼的Web應(yīng)用框架,由Python寫成。采用了MVC的框架模式,即模型M,視圖V和控制器C。其框架的核心組件有: 用于創(chuàng)建模型的...