【系列前言】前段時間李響同學(xué)入門了一些Python的基礎(chǔ)知識,覺得一直在IDLE里print一些算法題有一些枯燥,所以決定通過學(xué)習(xí)爬蟲來提高自己的興趣。而且最近確實有一些重復(fù)性勞動,想使用爬蟲簡化工作。遂打算邊自學(xué)邊寫自己自學(xué)的過程,一方面作為小白的我可以和其他Python大神交流,一方面也可以以此監(jiān)督自己。
【本人使用Python版本:2.7.5】
首先按理解一下爬蟲(Spider),如果把一個站點比作一張縱橫交錯的蜘蛛網(wǎng),那么我們爬蟲要做的就是在這張網(wǎng)上爬來爬去,獲得這張網(wǎng)上的信息和資源。而Web上每種資源,比如HTML文檔、圖片、視頻等都由一個URI(Universal Resource Identifier,通用資源標(biāo)志符)進(jìn)行定位。 URL(Uniform Resource Locator,統(tǒng)一資源定位符)是URI的子集。采用URL可以用一種統(tǒng)一的格式來描述各種信息資源,包括文件、服務(wù)器的地址和目錄等。而爬蟲主要的處理對象就是URL。所以務(wù)必要對URL有一定的熟悉。
URI通常由三部分組成:
1.訪問資源的命名機(jī)制;
2.存放資源的主機(jī)名;
3.資源自身 的名稱,由路徑表示。
URL的格式由三部分組成:
1.第一部分是協(xié)議(或稱為服務(wù)方式)。
2.第二部分是存有該資源的主機(jī)IP地址(有時也包括端口號)。
3.第三部分是主機(jī)資源的具體地址,如目錄和文件名等。
知乎:HTTP 協(xié)議中 URI 和 URL 有什么區(qū)別?@西毒 的回答
最近在搞挑戰(zhàn)杯可能會有點忙,但還是希望自己能按照計劃學(xué)習(xí),定期更新此系列。