站點(diǎn)的Robots.txt文件協(xié)議該如何書寫?

Robots協(xié)議(也叫爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面是可以抓取的,哪些頁面是不能抓取的。

搜索引擎爬蟲在訪問網(wǎng)站的時(shí)候,首先會(huì)尋找站點(diǎn)根目錄中有沒有 robots.txt文件,如果有這個(gè)文件就根據(jù)文件的內(nèi)容確定網(wǎng)站收錄的范圍,如果沒有就按默認(rèn)訪問以及收錄所有頁面。另外,當(dāng)爬蟲發(fā)現(xiàn)不存在robots.txt文件時(shí),會(huì)產(chǎn)生一個(gè)404錯(cuò)誤日志在服務(wù)器上,從而增加服務(wù)器的負(fù)擔(dān),因此為站點(diǎn)添加一個(gè)robots.txt文件還是很重要的。

tobots.txt

robots文件該怎么寫?

記住寫robots的文件名必須全部用小寫!

User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字,一般后面用*來表示,代表支持全部搜索引擎。

Disallow:該項(xiàng)的值用于描述不希望被訪問的一組URL,

Allow:該項(xiàng)的值用于描述希望被訪問的一組URL

robots.txt文件的寫法 User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁面

Disallow: /jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html文件。

Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄

Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片

robots在SEO中的作用

1.死鏈接提交,如果網(wǎng)站中出現(xiàn)了死鏈接,是對(duì)我們網(wǎng)站的SEO有較大影響的,這時(shí)候可以利用robots文件,禁止抓取這些死鏈接,然后提交到百度站長(zhǎng)的死鏈提交工具,從而解決這個(gè)問題。

2.robots.txt放網(wǎng)站xml地圖:Sitemap:url/sitemap.xml,告訴蜘蛛我們的網(wǎng)站地圖在哪里,提升搜索引擎的抓取效率

3.禁止搜索引擎抓取我們不想被抓取的文件和頁面。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容