搜索引擎的原理知識解析

(Search Engine)搜索引擎的工作原理主要分為以下三部分:

1.信息收集模塊

    信息收集模塊包括“蜘蛛控制”和“網(wǎng)絡(luò)蜘蛛”兩部分,“蜘蛛”這個稱呼形象的描述出了信息收集模塊在網(wǎng)絡(luò)數(shù)據(jù)形成的“Web”上進(jìn)行信息獲取的功能??傮w 而言,網(wǎng)絡(luò)蜘蛛從種子網(wǎng)頁出發(fā),通過反復(fù)下載網(wǎng)頁并從文檔中尋找未曾見過的URL,達(dá)到訪問其他網(wǎng)頁得以遍歷Web的目的。而其工作策略一般則可以分為累 積式抓取(cumulative crawling)和增量式抓取(incremental crawling)兩種。 累積式抓取是指從某一個時間點開始,通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下,經(jīng)過足夠的運(yùn)行時間,累積式抓取的策略 可以保證抓取到相當(dāng)規(guī)模的網(wǎng)頁集合。但由于Web數(shù)據(jù)的動態(tài)特性,集合中網(wǎng)頁的被抓取時間點是不同的,頁面被更新的情況也不同,因此累積式抓取到的網(wǎng)頁集 合事實上并無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。


與累積式抓取不同,增量式抓取是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過時網(wǎng)頁進(jìn)行抓取,以保證所抓取到的數(shù)據(jù) 與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式抓取的前提是,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁面,并具有這些頁面被抓取的時間信息。 面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中,通常既包括累積式抓取,也包括增量式抓取的策略。累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式抓取則主要針對數(shù)據(jù)集合的日常維護(hù)與即時更新。

在確定了抓取策略之后,如何從充分利用網(wǎng)絡(luò)帶寬,合理確定網(wǎng)頁數(shù)據(jù)更新的時間點就成了網(wǎng)絡(luò)蜘蛛運(yùn)行策略中的核心問題。
總體而言,在合理利用軟硬件資源進(jìn)行針對網(wǎng)絡(luò)數(shù)據(jù)的即時抓取方面,已經(jīng)形成了相對比較成熟的技術(shù)和實用性解決方案,這方面目前所需解決的主要問題,是如 何更好的處理動態(tài)網(wǎng)絡(luò)數(shù)據(jù)問題(如數(shù)量越來越龐大的Web2.0數(shù)據(jù)等),以及更好的根據(jù)網(wǎng)頁質(zhì)量修正抓取策略的問題。

2.查詢服務(wù)模塊

查詢服務(wù)模塊是指網(wǎng)絡(luò)信息檢索系統(tǒng)中,直接與用戶查詢需求交互的組成部分。從功能上講,這個模塊主要完成兩方面的任務(wù):首先是用戶交互,即收集用戶查詢并 用符合用戶行為習(xí)慣的方式對查詢結(jié)果進(jìn)行反饋;其次是信息查詢和檢索,使用收集到的用戶查詢在由信息收集模塊抓取,并由信息處理模塊建立索引的網(wǎng)絡(luò)數(shù)據(jù)上 進(jìn)行檢索。這其中涉及到的核心技術(shù)包括:檢索系統(tǒng)網(wǎng)絡(luò)服務(wù)的建立和維護(hù)、面向網(wǎng)絡(luò)信息的檢索模型建立等。

網(wǎng)絡(luò)信息檢索系統(tǒng)嚴(yán)格意義上說也在提供一種網(wǎng)絡(luò)服務(wù)(Web Service),因此它的建立和運(yùn)行、維護(hù)機(jī)制符合網(wǎng)絡(luò)服務(wù)系統(tǒng)的一般規(guī)律。但由于網(wǎng)絡(luò)信息檢索用戶行為習(xí)慣存在宏觀上的統(tǒng)計特性,系統(tǒng)的網(wǎng)絡(luò)服務(wù)也應(yīng) 進(jìn)行優(yōu)化以更好的適應(yīng)這種行為習(xí)慣。針對搜索引擎日志分析的工作說明,盡管網(wǎng)絡(luò)信息檢索用戶所提出的查詢數(shù)目異常繁雜(根據(jù)[Sullivan 2006],Google每天需要處理超過1億次的用戶需求),但搜索需求中的大多數(shù)是重復(fù)的,重復(fù)的比例超過用戶所提交查詢需求的70%以上乃至更多。 因此在檢索系統(tǒng)的網(wǎng)絡(luò)服務(wù)部分加入某種類型的緩存機(jī)制就是非常必要的,對檢索結(jié)果序列或檢索結(jié)果頁面本身的緩存都有助于大大減輕網(wǎng)絡(luò)數(shù)據(jù)檢索的負(fù)擔(dān)。

面向網(wǎng)絡(luò)信息的檢索模型研究一直是網(wǎng)絡(luò)信息相關(guān)研究的重點,研究的主要方法一般集中在以下兩點:改進(jìn)傳統(tǒng)文本信息檢索技術(shù)以適應(yīng)網(wǎng)絡(luò)信息需求;不對 傳統(tǒng)檢索技術(shù)進(jìn)行改動,而嘗試對傳統(tǒng)檢索結(jié)果與網(wǎng)絡(luò)信息質(zhì)量評估結(jié)果進(jìn)行融合。前者主要的研究工作包括對網(wǎng)絡(luò)半結(jié)構(gòu)化文本檢索方式的研究和對鏈接文本檢索 方式的研究等;而后一方面主要的研究工作則集中在將網(wǎng)絡(luò)鏈接關(guān)系分析算法(如PageRank)的結(jié)果融合到傳統(tǒng)文本檢索結(jié)果模型的嘗試。而這方面最重要 的研究平臺之一是TREC的網(wǎng)絡(luò)信息檢索(Web Track)和超大規(guī)模文本檢索(Terabyte Track)論壇。上述不少研究所基于的實驗數(shù)據(jù)都來自于這兩個論壇從2001年以來的積累,我們研究中涉及到的一部分實驗結(jié)果也是基于這個研究領(lǐng)域比較 公認(rèn)的平臺得出的。

總體而言,面向用戶的查詢服務(wù)技術(shù)是網(wǎng)絡(luò)信息檢索技術(shù)研究的熱點之一,而主要的研究方向,則是基于傳統(tǒng)文本信息檢索技術(shù),融入網(wǎng)絡(luò)信息檢索的應(yīng)用需求元 素,借以建立新的檢索模型或?qū)υ心P瓦M(jìn)行改進(jìn)。當(dāng)前,這方面研究集中在對用戶信息需求的挖掘與發(fā)現(xiàn)、改進(jìn)網(wǎng)絡(luò)信息檢索系統(tǒng)的用戶交互方式等方面上。

3.信息處理模塊

除去上兩個模塊之外的部分都可以歸入信息處理模塊的范疇,將紛繁復(fù)雜的網(wǎng)頁數(shù)據(jù)整理成可以被檢索系統(tǒng)高效、可靠、方便使用的格式是這一模塊 的工作。具體來講,信息處理包括對傳統(tǒng)內(nèi)容信息的處理和對非內(nèi)容信息(主要是鏈接結(jié)構(gòu)信息和文本結(jié)構(gòu)信息等)進(jìn)行處理兩個方面的內(nèi)容。

對文本內(nèi)容信息的處理與傳統(tǒng)文本信息檢索系統(tǒng)的信息處理模塊功能類似,最主要的目的是建立以詞項(term)為中心的文本倒排索引,以便檢索系統(tǒng)中檢索功 能模塊進(jìn)行內(nèi)容相似度計算使用,提高系統(tǒng)檢索效率。這方面的主要研究工作集中在對倒排索引結(jié)構(gòu)合理設(shè)計上,如是否記錄文字位置信息以及記錄的形式等。對中 文信息檢索系統(tǒng)而言,在這一部分還研究其特殊的預(yù)處理過程,即分詞并建立詞項的過程。由于這方面的研究較多涉及到實際工程層面的實現(xiàn)原理與技術(shù)細(xì)節(jié),因此 相關(guān)研究工作的介紹并不多,僅有部分工程技術(shù)報告涉及,如863信息檢索評測的相關(guān)工作等。

與純文本數(shù)據(jù)相比,網(wǎng)絡(luò)數(shù)據(jù)不僅包括非結(jié)構(gòu)化的內(nèi)容信息,也包括一定程度的結(jié)構(gòu)化信息,這些結(jié)構(gòu)化信息在網(wǎng)絡(luò)信息檢索工具評價數(shù)據(jù)質(zhì)量、挖掘數(shù)據(jù)相關(guān)性等方面發(fā)揮著十分重要的作用。

因此,網(wǎng)絡(luò)信息檢索中對非內(nèi)容信息的處理是其與傳統(tǒng)文本信息檢索系統(tǒng)最大的區(qū)別所在,而其中應(yīng)用最廣泛的是利用超鏈接結(jié)構(gòu)分析方法的網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量評價技術(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容