【壹】Python爬蟲入門——認(rèn)識URL

【系列前言】前段時間李響同學(xué)入門了一些Python的基礎(chǔ)知識,覺得一直在IDLE里print一些算法題有一些枯燥,所以決定通過學(xué)習(xí)爬蟲來提高自己的興趣。而且最近確實有一些重復(fù)性勞動,想使用爬蟲簡化工作。遂打算邊自學(xué)邊寫自己自學(xué)的過程,一方面作為小白的我可以和其他Python大神交流,一方面也可以以此監(jiān)督自己。
【本人使用Python版本:2.7.5】

首先按理解一下爬蟲(Spider),如果把一個站點比作一張縱橫交錯的蜘蛛網(wǎng),那么我們爬蟲要做的就是在這張網(wǎng)上爬來爬去,獲得這張網(wǎng)上的信息和資源。而Web上每種資源,比如HTML文檔、圖片、視頻等都由一個URI(Universal Resource Identifier,通用資源標(biāo)志符)進(jìn)行定位。 URL(Uniform Resource Locator,統(tǒng)一資源定位符)是URI的子集。采用URL可以用一種統(tǒng)一的格式來描述各種信息資源,包括文件、服務(wù)器的地址和目錄等。而爬蟲主要的處理對象就是URL。所以務(wù)必要對URL有一定的熟悉。

URI通常由三部分組成:
1.訪問資源的命名機(jī)制;
2.存放資源的主機(jī)名;
3.資源自身 的名稱,由路徑表示。

URL的格式由三部分組成:
1.第一部分是協(xié)議(或稱為服務(wù)方式)。
2.第二部分是存有該資源的主機(jī)IP地址(有時也包括端口號)。
3.第三部分是主機(jī)資源的具體地址,如目錄和文件名等。
知乎:HTTP 協(xié)議中 URI 和 URL 有什么區(qū)別?@西毒 的回答

最近在搞挑戰(zhàn)杯可能會有點忙,但還是希望自己能按照計劃學(xué)習(xí),定期更新此系列。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,596評論 19 139
  • 一、網(wǎng)絡(luò)爬蟲的定義 網(wǎng)絡(luò)爬蟲,即Web Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spide...
    隨風(fēng)化作雨閱讀 1,279評論 0 0
  • 一說到REST,我想大家的第一反應(yīng)就是“啊,就是那種前后臺通信方式?!钡窃谝笤敿?xì)講述它所提出的各個約束,以及如...
    時待吾閱讀 3,601評論 0 19
  • (原話)談?wù)剬TTP協(xié)議的理解:超文本傳輸協(xié)議,應(yīng)用于OSI網(wǎng)絡(luò)模型中的應(yīng)用層,是用于服務(wù)器傳輸超文本到本地瀏覽...
    24_yu閱讀 999評論 0 1
  • 昨天有個女性朋友對我說 〈我可能要找個對象了?!?我說 〈你想找對象這事,我有點驚訝。不懂該說什么〉 她說 〈怎么...
    皮卡丘的大腿掛件閱讀 175評論 0 0

友情鏈接更多精彩內(nèi)容