Robots協(xié)議(也叫爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面是可以抓取的,哪些頁面是不能抓取的。
搜索引擎爬蟲在訪問網(wǎng)站的時(shí)候,首先會(huì)尋找站點(diǎn)根目錄中有沒有 robots.txt文件,如果有這個(gè)文件就根據(jù)文件的內(nèi)容確定網(wǎng)站收錄的范圍,如果沒有就按默認(rèn)訪問以及收錄所有頁面。另外,當(dāng)爬蟲發(fā)現(xiàn)不存在robots.txt文件時(shí),會(huì)產(chǎn)生一個(gè)404錯(cuò)誤日志在服務(wù)器上,從而增加服務(wù)器的負(fù)擔(dān),因此為站點(diǎn)添加一個(gè)robots.txt文件還是很重要的。

robots文件該怎么寫?
記住寫robots的文件名必須全部用小寫!
User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字,一般后面用*來表示,代表支持全部搜索引擎。
Disallow:該項(xiàng)的值用于描述不希望被訪問的一組URL,
Allow:該項(xiàng)的值用于描述希望被訪問的一組URL
robots.txt文件的寫法 User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁面
Disallow: /jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
robots在SEO中的作用
1.死鏈接提交,如果網(wǎng)站中出現(xiàn)了死鏈接,是對(duì)我們網(wǎng)站的SEO有較大影響的,這時(shí)候可以利用robots文件,禁止抓取這些死鏈接,然后提交到百度站長(zhǎng)的死鏈提交工具,從而解決這個(gè)問題。
2.robots.txt放網(wǎng)站xml地圖:Sitemap:url/sitemap.xml,告訴蜘蛛我們的網(wǎng)站地圖在哪里,提升搜索引擎的抓取效率
3.禁止搜索引擎抓取我們不想被抓取的文件和頁面。