robots.txt學(xué)習(xí)筆記----以亞馬遜&Github為例

目錄:
  • robots.txt簡介
  • 亞馬遜--robots.txt分析
  • Github--robots.txt分析
  • 總結(jié)

robots.txt簡介


介紹

robots.txt(統(tǒng)一小寫)文件位于網(wǎng)站的根目錄下,是ASCII編碼的文本文件,用于表明不希望搜索引擎抓取工具訪問的內(nèi)容。

robots.txt基本語法

  • User-agent(用戶代理)是指網(wǎng)頁抓取工具軟件
  • Disallow 是針對用戶代理的命令,指示不要訪問某個特定網(wǎng)址
  • Allow 是允許訪問的特定網(wǎng)址,多用于給已禁止訪問的父級目錄的子目錄設(shè)置允許訪問
  • 用正則表達(dá)式進(jìn)行路由匹配
    Web Robots Database中列出了大多數(shù)用戶代理
  • Sitemap:指示站點地圖位置

robots.txt的限制范圍

  • robots.txt命令僅僅只是指令,不能強(qiáng)制屏蔽抓取
  • robots.txt指令不能阻止其他網(wǎng)站引用網(wǎng)址

原則

1、搜索技術(shù)應(yīng)服務(wù)于人類,同時尊重信息提供者的意愿,并維護(hù)其隱私權(quán);
2、網(wǎng)站有義務(wù)保護(hù)其使用者的個人信息和隱私不被侵犯。

作用

爬蟲通過爬取網(wǎng)站并索引網(wǎng)頁,并隨后通過關(guān)鍵字搜索為網(wǎng)站帶來流量。然而,我們只希望爬蟲抓取的是最有價值的網(wǎng)頁,不希望它們訪問不重要的信息或私密的、不適于公開的信息和數(shù)據(jù)。
robots.txt可用于搜索引擎優(yōu)化。

爬蟲的作用

來源:完全指南:如何寫好WordPress博客的robots.txt文件

亞馬遜--robots.txt分析


User-agent:

美國亞馬遜:www.amazon.com/robots.txt

  • *屏蔽全部爬蟲的指令
  • Googlebot
    • Googlebot 是Google 的網(wǎng)頁抓取漫游器(有時稱為“蜘蛛程序”)。 抓取是指Googlebot 找出要添加到Google 索引中的新網(wǎng)頁和更新過的網(wǎng)頁的過程。 我們使用大量計算機(jī)來提取(或“抓取”)網(wǎng)絡(luò)上的大量網(wǎng)頁。
    • 與*屏蔽內(nèi)容相似
  • EtaoSpider
    • 阿里巴巴旗下一淘網(wǎng)比價網(wǎng)垂直抓取系統(tǒng)
    • 指令屏蔽全部爬蟲

中國亞馬遜:www.amazon.cn/robots.txt
User-agent:*
沒有屏蔽谷歌和一淘爬蟲的指令

disallow內(nèi)容分析(僅摘錄了我能看懂的部分):
登錄頁面
加入購物車
心愿單
評論常見問題
投票
好友
twitter
歷史記錄
圖片
音視頻文件
死鏈接
robots元數(shù)據(jù)
amazon-meta-robots.PNG

NOINDEX指令:定義了此網(wǎng)頁不被搜索引擎索引進(jìn)數(shù)據(jù)庫,但是搜索引擎可以通過此網(wǎng)頁的鏈接繼續(xù)索引其它網(wǎng)頁
NOFOLLOW指令:不索引這個頁面,以及這個頁面的鏈出頁面。只適用于此頁面上的鏈接

小結(jié)

亞馬遜的屏蔽命令主要包括四個部分:客戶個人隱私信息、商業(yè)數(shù)據(jù)、耗費大量帶寬的數(shù)據(jù)和死鏈接。
商家有義務(wù)保護(hù)用戶的個人信息和隱私不被侵犯。商業(yè)數(shù)據(jù)又包括用戶的瀏覽信息、購買信息、反饋信息等可以帶來商業(yè)價值的大數(shù)據(jù)。耗費大量帶寬的數(shù)據(jù)如圖片、音視頻文件等,屏蔽后可以節(jié)省服務(wù)器帶寬。
其中,美國亞馬遜還屏蔽了谷歌爬蟲和一淘網(wǎng)爬蟲的抓取。一淘比價網(wǎng)的抓取可能會影響到亞馬遜的商品銷量。
Allow部分的指令主要是為了方便爬蟲抓取,以便為亞馬遜帶來客戶和流量。

Github--robots.txt分析

www.github.com/robots.txt

User-agent:
CCBot
coccoc---越南的免費網(wǎng)頁瀏覽器
Daumoa---
dotbot
duckduckbot
EtaoSpider
Googlebot---谷歌爬蟲,搜索網(wǎng)站
HTTrack
ia_archiver
IntuitGSACrawler
Mail.RU_Bot---郵件爬蟲
msnbot---msn爬蟲,社交網(wǎng)站
Bingbot---必應(yīng)爬蟲,搜索網(wǎng)站
naverbot
red-app-gsa-p-one
rogerbot
SandDollar
seznambot
Slurp
Swiftbot---Swift爬蟲
Telefonica
teoma
Twitterbot---推特爬蟲,社交網(wǎng)站
Yandex
disallow內(nèi)容分析(僅摘錄了我能看懂的部分):
/*/*/tree/master           //代碼的master主分支
/*/stars                   //獲得的star
/*/download                 //鏈接中需要下載的內(nèi)容
/*/*/commits/*/*           //評論
/*/*/search                  //內(nèi)嵌搜索
/*/cache/                    //緩存
/.git/                           //git倉庫  
/login                         //用戶登錄
小結(jié)

Github屏蔽的用戶代理有很多,主要目的還是以保護(hù)用戶的個人隱私和知識產(chǎn)權(quán)不被侵犯。

總結(jié)

通過對以上兩個網(wǎng)站分析可以看出,robots.txt協(xié)議的主要目的是為了進(jìn)行搜索引擎優(yōu)化。一方面允許爬蟲為網(wǎng)頁帶來流量和客戶,另一方面努力維護(hù)用戶和商家的隱私和利益不受侵犯。
盡管robots.txt并不能完全防止自己的網(wǎng)頁內(nèi)容被爬取,但是,為自己的網(wǎng)站設(shè)置robots.txt依然是很有必要的。

參考鏈接:
Baidu baike: http://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fromtitle=robots.txt&fromid=9518761
Google support:https://support.google.com/webmasters/answer/6062596?hl=zh-Hans&ref_topic=6061961
seobook: http://tools.seobook.com/robots-txt/
完全指南:如何寫好WordPress博客的robots.txt文件

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 網(wǎng)絡(luò)爬蟲的君子協(xié)議 網(wǎng)絡(luò)爬蟲的尺寸 網(wǎng)絡(luò)爬蟲引發(fā)的問題 性能騷擾 法律風(fēng)險 隱私泄露 網(wǎng)絡(luò)爬蟲的"性能騷擾"web...
    若與閱讀 33,897評論 2 43
  • 引言 推薦教材 關(guān)注搜索引擎的原因 互聯(lián)網(wǎng)上最重要的應(yīng)用系統(tǒng) 人類歷史上最大規(guī)模的信息集散平臺 學(xué)術(shù)界重要的研發(fā)平...
    Ycres閱讀 3,632評論 2 10
  • 工作室里安靜又吵鬧,急匆匆的腳步聲,紙張摩擦的聲音,敲打鍵盤的聲音,所有的人有秩序的做著自己的事,沒有人說話。 “...
    靈龜閱讀 245評論 0 2
  • 天堂雪落 (冉冉) 盛夏的雨 在痛快著 飽滿熟透的別離 落葉腐敗分解中死去東風(fēng) 竟還帶著笑意 有些美好只能屬于 過...
    冉冉語文閱讀 233評論 0 4
  • 這部電影講述了男主與巫師之間的戰(zhàn)爭,在男主在打敗大女巫后,被大女巫傳授了永生的能力,讓男主孤獨地活在這個世界上。男...
    砜的金屬閱讀 720評論 0 0

友情鏈接更多精彩內(nèi)容