目錄:
- robots.txt簡介
- 亞馬遜--robots.txt分析
- Github--robots.txt分析
- 總結(jié)
robots.txt簡介
介紹
robots.txt(統(tǒng)一小寫)文件位于網(wǎng)站的根目錄下,是ASCII編碼的文本文件,用于表明不希望搜索引擎抓取工具訪問的內(nèi)容。
robots.txt基本語法
- User-agent(用戶代理)是指網(wǎng)頁抓取工具軟件
- Disallow 是針對用戶代理的命令,指示不要訪問某個特定網(wǎng)址
- Allow 是允許訪問的特定網(wǎng)址,多用于給已禁止訪問的父級目錄的子目錄設(shè)置允許訪問
- 用正則表達(dá)式進(jìn)行路由匹配
Web Robots Database中列出了大多數(shù)用戶代理 - Sitemap:指示站點地圖位置
robots.txt的限制范圍
- robots.txt命令僅僅只是指令,不能強(qiáng)制屏蔽抓取
- robots.txt指令不能阻止其他網(wǎng)站引用網(wǎng)址
原則
1、搜索技術(shù)應(yīng)服務(wù)于人類,同時尊重信息提供者的意愿,并維護(hù)其隱私權(quán);
2、網(wǎng)站有義務(wù)保護(hù)其使用者的個人信息和隱私不被侵犯。
作用
爬蟲通過爬取網(wǎng)站并索引網(wǎng)頁,并隨后通過關(guān)鍵字搜索為網(wǎng)站帶來流量。然而,我們只希望爬蟲抓取的是最有價值的網(wǎng)頁,不希望它們訪問不重要的信息或私密的、不適于公開的信息和數(shù)據(jù)。
robots.txt可用于搜索引擎優(yōu)化。

來源:完全指南:如何寫好WordPress博客的robots.txt文件
亞馬遜--robots.txt分析
User-agent:
美國亞馬遜:www.amazon.com/robots.txt
- *屏蔽全部爬蟲的指令
- Googlebot
- Googlebot 是Google 的網(wǎng)頁抓取漫游器(有時稱為“蜘蛛程序”)。 抓取是指Googlebot 找出要添加到Google 索引中的新網(wǎng)頁和更新過的網(wǎng)頁的過程。 我們使用大量計算機(jī)來提取(或“抓取”)網(wǎng)絡(luò)上的大量網(wǎng)頁。
- 與*屏蔽內(nèi)容相似
- EtaoSpider
- 阿里巴巴旗下一淘網(wǎng)比價網(wǎng)垂直抓取系統(tǒng)
- 指令屏蔽全部爬蟲
中國亞馬遜:www.amazon.cn/robots.txt
User-agent:*
沒有屏蔽谷歌和一淘爬蟲的指令
disallow內(nèi)容分析(僅摘錄了我能看懂的部分):
登錄頁面
加入購物車
心愿單
評論常見問題
投票
好友
twitter
歷史記錄
圖片
音視頻文件
死鏈接
robots元數(shù)據(jù)
NOINDEX指令:定義了此網(wǎng)頁不被搜索引擎索引進(jìn)數(shù)據(jù)庫,但是搜索引擎可以通過此網(wǎng)頁的鏈接繼續(xù)索引其它網(wǎng)頁
NOFOLLOW指令:不索引這個頁面,以及這個頁面的鏈出頁面。只適用于此頁面上的鏈接
小結(jié)
亞馬遜的屏蔽命令主要包括四個部分:客戶個人隱私信息、商業(yè)數(shù)據(jù)、耗費大量帶寬的數(shù)據(jù)和死鏈接。
商家有義務(wù)保護(hù)用戶的個人信息和隱私不被侵犯。商業(yè)數(shù)據(jù)又包括用戶的瀏覽信息、購買信息、反饋信息等可以帶來商業(yè)價值的大數(shù)據(jù)。耗費大量帶寬的數(shù)據(jù)如圖片、音視頻文件等,屏蔽后可以節(jié)省服務(wù)器帶寬。
其中,美國亞馬遜還屏蔽了谷歌爬蟲和一淘網(wǎng)爬蟲的抓取。一淘比價網(wǎng)的抓取可能會影響到亞馬遜的商品銷量。
Allow部分的指令主要是為了方便爬蟲抓取,以便為亞馬遜帶來客戶和流量。
Github--robots.txt分析
User-agent:
CCBot
coccoc---越南的免費網(wǎng)頁瀏覽器
Daumoa---
dotbot
duckduckbot
EtaoSpider
Googlebot---谷歌爬蟲,搜索網(wǎng)站
HTTrack
ia_archiver
IntuitGSACrawler
Mail.RU_Bot---郵件爬蟲
msnbot---msn爬蟲,社交網(wǎng)站
Bingbot---必應(yīng)爬蟲,搜索網(wǎng)站
naverbot
red-app-gsa-p-one
rogerbot
SandDollar
seznambot
Slurp
Swiftbot---Swift爬蟲
Telefonica
teoma
Twitterbot---推特爬蟲,社交網(wǎng)站
Yandex
disallow內(nèi)容分析(僅摘錄了我能看懂的部分):
/*/*/tree/master //代碼的master主分支
/*/stars //獲得的star
/*/download //鏈接中需要下載的內(nèi)容
/*/*/commits/*/* //評論
/*/*/search //內(nèi)嵌搜索
/*/cache/ //緩存
/.git/ //git倉庫
/login //用戶登錄
小結(jié)
Github屏蔽的用戶代理有很多,主要目的還是以保護(hù)用戶的個人隱私和知識產(chǎn)權(quán)不被侵犯。
總結(jié)
通過對以上兩個網(wǎng)站分析可以看出,robots.txt協(xié)議的主要目的是為了進(jìn)行搜索引擎優(yōu)化。一方面允許爬蟲為網(wǎng)頁帶來流量和客戶,另一方面努力維護(hù)用戶和商家的隱私和利益不受侵犯。
盡管robots.txt并不能完全防止自己的網(wǎng)頁內(nèi)容被爬取,但是,為自己的網(wǎng)站設(shè)置robots.txt依然是很有必要的。
參考鏈接:
Baidu baike: http://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fromtitle=robots.txt&fromid=9518761
Google support:https://support.google.com/webmasters/answer/6062596?hl=zh-Hans&ref_topic=6061961
seobook: http://tools.seobook.com/robots-txt/
完全指南:如何寫好WordPress博客的robots.txt文件