抓取建庫##
spider抓取系統(tǒng)的基本框架圖###

有向圖的遍歷

spider抓取系統(tǒng)的基本框架圖

百度也支持Canonical標(biāo)簽,在效果上可以認(rèn)為也是一種間接的重定向。

robots.txt是搜索引擎訪問一個(gè)網(wǎng)站時(shí)要訪問的第一個(gè)文件

[Baiduspider抓取頻次原則](http://zhanzhang.baidu.com/college/courseinfo?id=144#h2_article_title3)

鏈接在抓取的時(shí)候就進(jìn)行了初步的內(nèi)容分析與鏈接分析

建庫的原則

無法入庫的頁面