中文字幕在线日韩视频,久久久久卡视频

robots.txt簡介

介紹

robots.txt（統(tǒng)一小寫）文件位于網(wǎng)站的根目錄下，是ASCII編碼的文本文件，用于表明不希望搜索引擎抓取工具訪問的內(nèi)容。

robots.txt基本語法

User-agent(用戶代理)是指網(wǎng)頁抓取工具軟件
Disallow 是針對用戶代理的命令，指示不要訪問某個特定網(wǎng)址
Allow 是允許訪問的特定網(wǎng)址，多用于給已禁止訪問的父級目錄的子目錄設(shè)置允許訪問
用正則表達(dá)式進(jìn)行路由匹配
Web Robots Database中列出了大多數(shù)用戶代理
Sitemap：指示站點地圖位置

robots.txt的限制范圍

robots.txt命令僅僅只是指令，不能強(qiáng)制屏蔽抓取
robots.txt指令不能阻止其他網(wǎng)站引用網(wǎng)址

原則

1、搜索技術(shù)應(yīng)服務(wù)于人類，同時尊重信息提供者的意愿，并維護(hù)其隱私權(quán)；
2、網(wǎng)站有義務(wù)保護(hù)其使用者的個人信息和隱私不被侵犯。

作用

爬蟲通過爬取網(wǎng)站并索引網(wǎng)頁，并隨后通過關(guān)鍵字搜索為網(wǎng)站帶來流量。然而，我們只希望爬蟲抓取的是最有價值的網(wǎng)頁，不希望它們訪問不重要的信息或私密的、不適于公開的信息和數(shù)據(jù)。
robots.txt可用于搜索引擎優(yōu)化。

爬蟲的作用

來源：完全指南：如何寫好WordPress博客的robots.txt文件

亞馬遜--robots.txt分析

User-agent:

美國亞馬遜：www.amazon.com/robots.txt

*屏蔽全部爬蟲的指令
Googlebot
- Googlebot 是Google 的網(wǎng)頁抓取漫游器（有時稱為“蜘蛛程序”）。抓取是指Googlebot 找出要添加到Google 索引中的新網(wǎng)頁和更新過的網(wǎng)頁的過程。我們使用大量計算機(jī)來提取（或“抓取”）網(wǎng)絡(luò)上的大量網(wǎng)頁。
- 與*屏蔽內(nèi)容相似
EtaoSpider
- 阿里巴巴旗下一淘網(wǎng)比價網(wǎng)垂直抓取系統(tǒng)
- 指令屏蔽全部爬蟲

中國亞馬遜：www.amazon.cn/robots.txt
User-agent:*
沒有屏蔽谷歌和一淘爬蟲的指令

disallow內(nèi)容分析（僅摘錄了我能看懂的部分）：

登錄頁面
加入購物車
心愿單
評論常見問題
投票
好友
twitter
歷史記錄
圖片
音視頻文件
死鏈接

robots元數(shù)據(jù)

amazon-meta-robots.PNG

NOINDEX指令：定義了此網(wǎng)頁不被搜索引擎索引進(jìn)數(shù)據(jù)庫，但是搜索引擎可以通過此網(wǎng)頁的鏈接繼續(xù)索引其它網(wǎng)頁
NOFOLLOW指令：不索引這個頁面，以及這個頁面的鏈出頁面。只適用于此頁面上的鏈接

小結(jié)

亞馬遜的屏蔽命令主要包括四個部分：客戶個人隱私信息、商業(yè)數(shù)據(jù)、耗費大量帶寬的數(shù)據(jù)和死鏈接。
商家有義務(wù)保護(hù)用戶的個人信息和隱私不被侵犯。商業(yè)數(shù)據(jù)又包括用戶的瀏覽信息、購買信息、反饋信息等可以帶來商業(yè)價值的大數(shù)據(jù)。耗費大量帶寬的數(shù)據(jù)如圖片、音視頻文件等，屏蔽后可以節(jié)省服務(wù)器帶寬。
其中，美國亞馬遜還屏蔽了谷歌爬蟲和一淘網(wǎng)爬蟲的抓取。一淘比價網(wǎng)的抓取可能會影響到亞馬遜的商品銷量。
Allow部分的指令主要是為了方便爬蟲抓取，以便為亞馬遜帶來客戶和流量。

Github--robots.txt分析

www.github.com/robots.txt

User-agent:

CCBot
coccoc---越南的免費網(wǎng)頁瀏覽器
Daumoa---
dotbot
duckduckbot
EtaoSpider
Googlebot---谷歌爬蟲，搜索網(wǎng)站
HTTrack
ia_archiver
IntuitGSACrawler
Mail.RU_Bot---郵件爬蟲
msnbot---msn爬蟲，社交網(wǎng)站
Bingbot---必應(yīng)爬蟲，搜索網(wǎng)站
naverbot
red-app-gsa-p-one
rogerbot
SandDollar
seznambot
Slurp
Swiftbot---Swift爬蟲
Telefonica
teoma
Twitterbot---推特爬蟲，社交網(wǎng)站
Yandex

disallow內(nèi)容分析（僅摘錄了我能看懂的部分）：

/*/*/tree/master           //代碼的master主分支
/*/stars                   //獲得的star
/*/download                 //鏈接中需要下載的內(nèi)容
/*/*/commits/*/*           //評論
/*/*/search                  //內(nèi)嵌搜索
/*/cache/                    //緩存
/.git/                           //git倉庫  
/login                         //用戶登錄

小結(jié)

Github屏蔽的用戶代理有很多，主要目的還是以保護(hù)用戶的個人隱私和知識產(chǎn)權(quán)不被侵犯。

總結(jié)

通過對以上兩個網(wǎng)站分析可以看出，robots.txt協(xié)議的主要目的是為了進(jìn)行搜索引擎優(yōu)化。一方面允許爬蟲為網(wǎng)頁帶來流量和客戶，另一方面努力維護(hù)用戶和商家的隱私和利益不受侵犯。
盡管robots.txt并不能完全防止自己的網(wǎng)頁內(nèi)容被爬取，但是，為自己的網(wǎng)站設(shè)置robots.txt依然是很有必要的。

參考鏈接：
Baidu baike: http://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fromtitle=robots.txt&fromid=9518761
Google support：https://support.google.com/webmasters/answer/6062596?hl=zh-Hans&ref_topic=6061961
seobook: http://tools.seobook.com/robots-txt/
完全指南：如何寫好WordPress博客的robots.txt文件

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

robots.txt學(xué)習(xí)筆記----以亞馬遜&Github為例

robots.txt學(xué)習(xí)筆記----以亞馬遜&Github為例

目錄：

robots.txt簡介

介紹

robots.txt基本語法

robots.txt的限制范圍

原則

作用

亞馬遜--robots.txt分析

User-agent:

disallow內(nèi)容分析（僅摘錄了我能看懂的部分）：

robots元數(shù)據(jù)

小結(jié)

Github--robots.txt分析

User-agent:

disallow內(nèi)容分析（僅摘錄了我能看懂的部分）：

小結(jié)

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

robots.txt學(xué)習(xí)筆記----以亞馬遜&Github為例

目錄：

robots.txt簡介

介紹

robots.txt基本語法

robots.txt的限制范圍

原則

作用

亞馬遜--robots.txt分析

User-agent:

disallow內(nèi)容分析（僅摘錄了我能看懂的部分）：

robots元數(shù)據(jù)

小結(jié)

Github--robots.txt分析

User-agent:

disallow內(nèi)容分析（僅摘錄了我能看懂的部分）：

小結(jié)

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av