一、什么是robots.txt
robots.txt 文件由一條或多條規(guī)則組成。每條規(guī)則可禁止(或允許)特定抓取工具抓取相應(yīng)網(wǎng)站中的指定文件路徑。
通俗一點(diǎn)的說(shuō)法就是:告訴爬蟲(chóng),我這個(gè)網(wǎng)站,你哪些能看,哪些不能看的一個(gè)協(xié)議。
二、為什么要使用robots.txt
搜索引擎(爬蟲(chóng)),訪問(wèn)一個(gè)網(wǎng)站,首先要查看當(dāng)前網(wǎng)站根目錄下的robots.txt,然后依據(jù)里面的規(guī)則,進(jìn)行網(wǎng)站頁(yè)面的爬取。
也就是說(shuō),robots.txt起到一個(gè)基調(diào)的作用,也可以說(shuō)是爬蟲(chóng)爬取當(dāng)前網(wǎng)站的一個(gè)行為準(zhǔn)則。
那使用robots.txt的目的,就很明確了。
- 更好地做定向SEO優(yōu)化,重點(diǎn)曝光有價(jià)值的鏈接給爬蟲(chóng)
- 將敏感文件保護(hù)起來(lái),避免爬蟲(chóng)爬取收錄
三、robots.txt的示例
栗子如下:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.wangxiaokai.vip/sitemap.xml
解析:
名為“Googlebot”抓取工具的用戶(hù)代理不應(yīng)抓取 http://wangxiaokai.vip/nogooglebot/ 文件夾或任何子目錄。
所有其他用戶(hù)代理均可訪問(wèn)整個(gè)網(wǎng)站。(不指定這條規(guī)則也無(wú)妨,結(jié)果是一樣的,因?yàn)橥耆L問(wèn)權(quán)限是系統(tǒng)默認(rèn)的前提。)
網(wǎng)站的站點(diǎn)地圖文件位于 http://www.wangxiaokai.vip/sitemap.xml
四、文件規(guī)范
1、文件格式和命名
- 文件格式為標(biāo)準(zhǔn) ASCII 或 UTF-8
- 文件必須命名為 robots.txt
- 只能有 1 個(gè) robots.txt 文件
2、文件位置
必須位于它所應(yīng)用到的網(wǎng)站主機(jī)的根目錄下
3、常用的關(guān)鍵字
- User-agent
網(wǎng)頁(yè)抓取工具的名稱(chēng) - Disallow
不應(yīng)抓取的目錄或網(wǎng)頁(yè) - Allow
應(yīng)抓取的目錄或網(wǎng)頁(yè) - Sitemap
網(wǎng)站的站點(diǎn)地圖的位置
五、百度網(wǎng)盤(pán)的應(yīng)用
百度網(wǎng)盤(pán)的資源,到博文編寫(xiě)時(shí)間為止,已經(jīng)不能用常用的搜索技巧site:pan.baidu.com 搜索關(guān)鍵字的方式,在baidu.com|google.com|biying.com(國(guó)際版還可以勉強(qiáng)搜索到)去搜索對(duì)應(yīng)的資源。
禁止的方式,很大程度上是依靠robots.txt,而不是請(qǐng)去喝茶??。
以下是訪問(wèn) http://pan.baidu.com/robots.txt 得到的規(guī)則:

可以看到,百度網(wǎng)盤(pán)封殺了所有資源文件入口。
最狠的是最后一句:
User-agent: *
Disallow: /
我只想說(shuō)有資源真的可以為所欲為??
喜歡我文章的朋友,掃描以下二維碼,關(guān)注我的個(gè)人技術(shù)博客,我的技術(shù)文章會(huì)第一時(shí)間在博客上更新
點(diǎn)擊鏈接wall的個(gè)人博客
