SEO優(yōu)化-robots.txt解讀

一、什么是robots.txt

robots.txt 文件由一條或多條規(guī)則組成。每條規(guī)則可禁止(或允許)特定抓取工具抓取相應(yīng)網(wǎng)站中的指定文件路徑。

通俗一點(diǎn)的說(shuō)法就是:告訴爬蟲(chóng),我這個(gè)網(wǎng)站,你哪些能看,哪些不能看的一個(gè)協(xié)議。

二、為什么要使用robots.txt

搜索引擎(爬蟲(chóng)),訪問(wèn)一個(gè)網(wǎng)站,首先要查看當(dāng)前網(wǎng)站根目錄下的robots.txt,然后依據(jù)里面的規(guī)則,進(jìn)行網(wǎng)站頁(yè)面的爬取。
也就是說(shuō),robots.txt起到一個(gè)基調(diào)的作用,也可以說(shuō)是爬蟲(chóng)爬取當(dāng)前網(wǎng)站的一個(gè)行為準(zhǔn)則。

那使用robots.txt的目的,就很明確了。

  • 更好地做定向SEO優(yōu)化,重點(diǎn)曝光有價(jià)值的鏈接給爬蟲(chóng)
  • 將敏感文件保護(hù)起來(lái),避免爬蟲(chóng)爬取收錄

三、robots.txt的示例

栗子如下:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml

解析:

名為“Googlebot”抓取工具的用戶(hù)代理不應(yīng)抓取 http://wangxiaokai.vip/nogooglebot/ 文件夾或任何子目錄。
所有其他用戶(hù)代理均可訪問(wèn)整個(gè)網(wǎng)站。(不指定這條規(guī)則也無(wú)妨,結(jié)果是一樣的,因?yàn)橥耆L問(wèn)權(quán)限是系統(tǒng)默認(rèn)的前提。)
網(wǎng)站的站點(diǎn)地圖文件位于 http://www.wangxiaokai.vip/sitemap.xml

四、文件規(guī)范

1、文件格式和命名

  • 文件格式為標(biāo)準(zhǔn) ASCII 或 UTF-8
  • 文件必須命名為 robots.txt
  • 只能有 1 個(gè) robots.txt 文件

2、文件位置

必須位于它所應(yīng)用到的網(wǎng)站主機(jī)的根目錄下

3、常用的關(guān)鍵字

  • User-agent 網(wǎng)頁(yè)抓取工具的名稱(chēng)
  • Disallow 不應(yīng)抓取的目錄或網(wǎng)頁(yè)
  • Allow 應(yīng)抓取的目錄或網(wǎng)頁(yè)
  • Sitemap 網(wǎng)站的站點(diǎn)地圖的位置

五、百度網(wǎng)盤(pán)的應(yīng)用

百度網(wǎng)盤(pán)的資源,到博文編寫(xiě)時(shí)間為止,已經(jīng)不能用常用的搜索技巧site:pan.baidu.com 搜索關(guān)鍵字的方式,在baidu.com|google.com|biying.com(國(guó)際版還可以勉強(qiáng)搜索到)去搜索對(duì)應(yīng)的資源。
禁止的方式,很大程度上是依靠robots.txt,而不是請(qǐng)去喝茶??。

以下是訪問(wèn) http://pan.baidu.com/robots.txt 得到的規(guī)則:

image

可以看到,百度網(wǎng)盤(pán)封殺了所有資源文件入口。
最狠的是最后一句:

User-agent: *
Disallow: /

我只想說(shuō)有資源真的可以為所欲為??


喜歡我文章的朋友,掃描以下二維碼,關(guān)注我的個(gè)人技術(shù)博客,我的技術(shù)文章會(huì)第一時(shí)間在博客上更新

點(diǎn)擊鏈接wall的個(gè)人博客

wall的個(gè)人博客

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 網(wǎng)絡(luò)爬蟲(chóng)的君子協(xié)議 網(wǎng)絡(luò)爬蟲(chóng)的尺寸 網(wǎng)絡(luò)爬蟲(chóng)引發(fā)的問(wèn)題 性能騷擾 法律風(fēng)險(xiǎn) 隱私泄露 網(wǎng)絡(luò)爬蟲(chóng)的"性能騷擾"web...
    若與閱讀 33,920評(píng)論 2 43
  • 網(wǎng)站 robots.txt 文件編寫(xiě) Intro robots.txt 是網(wǎng)站根目錄下的一個(gè)純文本文件,在這個(gè)...
    天天向上卡索閱讀 1,316評(píng)論 0 2
  • 1、津膜科技擬逾14億元收購(gòu)膜材料與水處理公司 津膜科技公告,公司擬以15.22元/股發(fā)行7283.89萬(wàn)股并支付...
    智尊寳閱讀 164評(píng)論 0 0
  • 目前對(duì)我來(lái)說(shuō),關(guān)于成長(zhǎng)的趨勢(shì)在于一個(gè)詞 獨(dú)立。民主意識(shí)越來(lái)卻強(qiáng)烈,特別是對(duì)于女性來(lái)說(shuō)。這絕對(duì)是一個(gè)以前 現(xiàn)在 還有...
    桂蒲閱讀 891評(píng)論 0 0
  • 愛(ài)上一段文字,愛(ài)上淺呤低唱,在文字的脈路中尋找份摯著真誠(chéng)的愛(ài)戀,沒(méi)有虛假的應(yīng)承,沒(méi)有心不在焉的答復(fù),也沒(méi)有無(wú)休無(wú)止...
    滄海一粟貝閱讀 444評(píng)論 0 2

友情鏈接更多精彩內(nèi)容