花了很長(zhǎng)的時(shí)間看這本書,這本書也比較的難。從一開始老師推薦的時(shí)候就去圖書館借到了這本書,然后就開始看這本書了,只是當(dāng)時(shí)確實(shí)看不太懂很多的章節(jié),老師也說(shuō)只是叫我瀏覽一下,就現(xiàn)在的我來(lái)說(shuō)也是有很多的章節(jié)看不懂,不是說(shuō)看不懂,里面涉及到的很多很細(xì)節(jié)的問(wèn)題我就不知道了。所以有的直接跳過(guò)去的,有些在論文的幫助下勉強(qiáng)還能看懂一部分,說(shuō)實(shí)話,論文給我的幫助很大,本科時(shí)為了最后的畢業(yè)設(shè)計(jì),我看了大概幾十篇碩博論文,自己看的最后還是對(duì)自己有好處的,自己理解了才是最好的,論文給我一個(gè)很大的好處在于論文都是有結(jié)構(gòu)的,全文組織的很有條理,看著就很舒服。我這個(gè)人看書還是看論文,就是說(shuō)在學(xué)習(xí)一個(gè)新的知識(shí)點(diǎn)的時(shí)候,都會(huì)先建立一個(gè)相對(duì)大的模型,就像數(shù)據(jù)結(jié)構(gòu)里面的樹形結(jié)構(gòu)一樣,先建立起大的樹枝,至于其余的樹葉什么的,在后期的進(jìn)一步學(xué)習(xí)中會(huì)獲取的。
今天是第二次寫總結(jié),也是相當(dāng)于文獻(xiàn)的二次綜述,這本書看過(guò)了好幾遍,現(xiàn)在能通過(guò)大概前面8章左右,到后面有點(diǎn)不太熟悉了。還需要花點(diǎn)時(shí)間來(lái)進(jìn)行好好的認(rèn)真的學(xué)習(xí),這次的六級(jí)考試過(guò)了,現(xiàn)在在英語(yǔ)方面感覺自己還行,不管是閱讀還是聽力,至于聽力要花一段時(shí)間在上面就不會(huì)落下了。現(xiàn)在每?jī)蓚€(gè)星期把雅思或者說(shuō)是托福的詞匯背一遍,現(xiàn)在的詞匯量好像到達(dá)一個(gè)臨界點(diǎn)了。不過(guò)相信還是早晚會(huì)突破的,加油!
近期又看了幾篇碩士論文,里面的文字寫的確實(shí)不錯(cuò),有思路,有框架,每個(gè)章節(jié)的連接也是很有道理的。就我平時(shí)比如現(xiàn)在寫的總結(jié),雖然是按照我們的書本進(jìn)行總結(jié)的,但是確實(shí)有很多地方達(dá)不到要求的,理由很簡(jiǎn)單,很多的知識(shí)點(diǎn)不是很清楚,所以組織起來(lái)也就不是那么的順利。往往是想到哪里就寫到哪里的。但是我相信通過(guò)平時(shí)的慢慢練習(xí),相信會(huì)有達(dá)到標(biāo)準(zhǔn)的那一天。言歸正傳,開始第一章節(jié)的總結(jié)與個(gè)人的理解或是自己的一些想法。和一般書本上描述的那樣,第一章講述的是信息檢索的基本概念和處理的對(duì)象。其中還有信息檢索的基本流程,我現(xiàn)在知道了信息檢索的對(duì)象是網(wǎng)頁(yè)上的非結(jié)構(gòu)化的數(shù)據(jù),一般現(xiàn)實(shí)生活中的數(shù)據(jù)要么是結(jié)構(gòu)化的就像數(shù)據(jù)庫(kù)里面存儲(chǔ)的數(shù)據(jù)就是結(jié)構(gòu)化的數(shù)據(jù),而我們大多數(shù)其他數(shù)據(jù)確實(shí)非結(jié)構(gòu)化的數(shù)據(jù)。信息檢索里面還包括很多東西要自己理解的,比如信息采集,信息加工、處理。下面講一下概念,信息檢索(Information Retrieval)是指信息按一定的方式組織起來(lái),并根據(jù)信息用戶的需要找出有關(guān)的信息的過(guò)程和技術(shù)。狹義的信息檢索就是信息檢索過(guò)程的后半部分,即從信息集合中找出所需要的信息的過(guò)程,也就是我們常說(shuō)的信息查尋(Information Search?或Information Seek)。
近期我還看過(guò)一些和書相關(guān)的視頻,講的是信息檢索方面的知識(shí)。主要是SEO方面的知識(shí)點(diǎn),對(duì)我的視野開闊還是蠻有幫助的。但是沒有專門講述信息檢索的資料,這個(gè)還是有點(diǎn)可惜的。此外第一章節(jié)還介紹與信息檢索相關(guān)的課程,比如自然語(yǔ)言處理、分布式計(jì)算、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、情報(bào)學(xué)、社會(huì)學(xué)、統(tǒng)計(jì)學(xué)等等。首先第一個(gè)自然語(yǔ)言處理也是很熱門的研究方向,我上網(wǎng)查了一下百度百科了解到一些概念性的知識(shí)。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。語(yǔ)言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中,只有人類才具有語(yǔ)言能力。人類的多種智能都與語(yǔ)言有著密切的關(guān)系。人類的邏輯思維以語(yǔ)言為形式,人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來(lái)的。因而,它也是人工智能的一個(gè)重要,甚至核心部分。用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,這是人們長(zhǎng)期以來(lái)所追求的。因?yàn)樗扔忻黠@的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī),而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言;人們也可通過(guò)它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。
實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解,后者稱為自然語(yǔ)言生成。因此,自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。歷史上對(duì)自然語(yǔ)言理解研究得較多,而對(duì)自然語(yǔ)言生成研究得較少。但這種狀況近年來(lái)已有所改變。
無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解,還是自然語(yǔ)言生成,都遠(yuǎn)不如人們?cè)瓉?lái)想象的那么簡(jiǎn)單,而是十分困難的。從目前的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo),但是針對(duì)一定應(yīng)用,具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開始產(chǎn)業(yè)化。典型的例子有:多語(yǔ)種數(shù)據(jù)庫(kù)和專家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。
自然語(yǔ)言處理,即實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,或?qū)崿F(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的。造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。
一個(gè)中文文本從形式上看是由漢字(包括標(biāo)點(diǎn)符號(hào)等)組成的一個(gè)字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在上述的各種層次:字(符)、詞、詞組、句子、段,……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場(chǎng)景或不同的語(yǔ)境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。也就是說(shuō),從總體上說(shuō),并不存在歧義。這也就是我們平時(shí)并不感到自然語(yǔ)言歧義,和能用自然語(yǔ)言進(jìn)行正確交流的原因。但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識(shí)和進(jìn)行推理的。如何將這些知識(shí)較完整地加以收集和整理出來(lái);又如何找到合適的形式,將它們存入計(jì)算機(jī)系統(tǒng)中去;以及如何有效地利用它們來(lái)消除歧義,都是工作量極大且十分困難的工作。這不是少數(shù)人短時(shí)期內(nèi)可以完成的,還有待長(zhǎng)期的、系統(tǒng)的工作。
以上說(shuō)的是,一個(gè)中文文本或一個(gè)漢字(含標(biāo)點(diǎn)符號(hào)等)串可能有多個(gè)含義。它是自然語(yǔ)言理解中的主要困難和障礙。反過(guò)來(lái),一個(gè)相同或相近的意義同樣可以用多個(gè)中文文本或多個(gè)漢字串來(lái)表示。
因此,自然語(yǔ)言的形式(字符串)與其意義之間是一種多對(duì)多的關(guān)系。其實(shí)這也正是自然語(yǔ)言的魅力所在。但從計(jì)算機(jī)處理的角度看,我們必須消除歧義,而且有人認(rèn)為它正是自然語(yǔ)言理解中的中心問(wèn)題,即要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示。
歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識(shí)和推理,這就給基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法帶來(lái)了巨大的困難,因而以這些方法為主流的自然語(yǔ)言處理研究幾十年來(lái)一方面在理論和方法方面取得了很多成就,但在能處理大規(guī)模真實(shí)文本的系統(tǒng)研制方面,成績(jī)并不顯著。研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。
這個(gè)研究方向涉及到的學(xué)科門類還是很多的,要我去學(xué)習(xí)的知識(shí)還有很多很多。信息檢索要解決的問(wèn)題或是它本身研究的內(nèi)容有:處理海量的數(shù)據(jù)、評(píng)價(jià)檢索、處理多源信息。另外信息檢索的關(guān)鍵技術(shù)有:信息抽取、文本分類與聚類、自動(dòng)文摘、鏈接分析、web信息檢索。信息檢索領(lǐng)域還有很多的應(yīng)用研究,有話題檢測(cè)與跟蹤、信息過(guò)濾、垃圾信息過(guò)濾、對(duì)抗式信息檢索、企業(yè)檢索、數(shù)字圖書館、跨語(yǔ)言檢索、基于內(nèi)容的多媒體檢索、基因信息檢索。信息檢索的歷史、現(xiàn)狀和未來(lái),在本章中也有體現(xiàn)。我個(gè)人比較感興趣的有信息融合,問(wèn)答系統(tǒng)、數(shù)據(jù)挖掘等等,這些都是比較難的或是很難的領(lǐng)域問(wèn)題,但是還是比較有趣的。有了興趣后很多的事情做起來(lái)就比較有動(dòng)力了。
下面講一下第二章的內(nèi)容,第二章對(duì)信息檢索的模型進(jìn)行了介紹。首先介紹了三個(gè)經(jīng)典的模型:布爾模型、向量空間模型、概率模型。接著由于這三個(gè)模型的前兩個(gè)模型有各自的缺點(diǎn)和優(yōu)點(diǎn),所以這一章對(duì)其進(jìn)行了結(jié)合,把布爾模型和向量空間模型結(jié)合起來(lái)形成擴(kuò)展布爾模型。在很多實(shí)際應(yīng)用中也是多個(gè)模型一起使用的,這樣能取得很好的使用效果,比單一的使用某個(gè)模型來(lái)得好,據(jù)此本章對(duì)此進(jìn)行了詳細(xì)的介紹,然后還對(duì)預(yù)計(jì)與語(yǔ)言模型的信息檢索加以重點(diǎn)介紹,這部分我沒怎么看明白。在本章節(jié)的最后比較熱門的隱性語(yǔ)義索引模型與基于本體論的信息檢索模型,將語(yǔ)義的知識(shí)運(yùn)用與信息檢索是未來(lái)的發(fā)展趨勢(shì)。雖然這部分只是很難,或是很難被我們一般人所理解,但是確實(shí)是我們未來(lái)信息檢索取得突破的關(guān)鍵或是重要方向。至于具體的介紹還要再看幾遍這個(gè)章節(jié)??磿闹貜?fù)是很有必要的,第一次看書也許只是看懂一部分,然后接下來(lái)的幾遍就是更好的理解與消化自己所懂的知識(shí)點(diǎn)。
下面是第三章信息檢索系統(tǒng)的評(píng)價(jià),信息檢索評(píng)價(jià)對(duì)信息檢索研究來(lái)說(shuō)具體非常重要的作用,本章主要介紹了在信息檢索領(lǐng)域中的各種評(píng)價(jià)方法以及比較有影響力的評(píng)測(cè)會(huì)議。這章還介紹在國(guó)際信息檢索領(lǐng)域方面,介紹了好幾種方法,感覺像是規(guī)定一樣。評(píng)價(jià)一般是評(píng)價(jià)某個(gè)系統(tǒng)或是某個(gè)產(chǎn)品的性能或是質(zhì)量什么的好壞。對(duì)于我們的信息檢索系統(tǒng)來(lái)說(shuō),除了系統(tǒng)的處理時(shí)間和空間因素,還要求各種排序算法或是相關(guān)度的計(jì)算盡量的好,盡量的能及時(shí)滿足用戶的檢索需要。一般的性能評(píng)價(jià)指標(biāo)有準(zhǔn)確率和召回率,本章中也給出了相應(yīng)的計(jì)算公式,當(dāng)然還有其他很多種的評(píng)價(jià)方法。包括國(guó)內(nèi)的和國(guó)外的評(píng)價(jià)方法。我感覺這一部分還有好多的地方可以研究創(chuàng)新一下,然后發(fā)表論文,就是計(jì)算準(zhǔn)確率的方法上應(yīng)該可能改進(jìn)一下,什么召回率還有涉及到相關(guān)度的計(jì)算方法也是可能改進(jìn)的,國(guó)內(nèi)也已經(jīng)有很多的研究者們已經(jīng)基于相關(guān)的方法進(jìn)行了改進(jìn)。在這一部分我也會(huì)花一定的時(shí)間在上面,多看一些文獻(xiàn),總結(jié)一下自己的想法,多看看其他人的改進(jìn)方法,以便以后自己設(shè)計(jì)一套方法出來(lái),在信息檢索評(píng)價(jià)方法有自己的獨(dú)特的一套方法,不管是國(guó)際上的還是國(guó)內(nèi)現(xiàn)有的方法中,有很多的前輩已經(jīng)給我們打好路子,讓我們?cè)谒麄兊幕A(chǔ)之上進(jìn)一步的改進(jìn)以便使得我們的信息評(píng)價(jià)算法更加的完善。今后研究發(fā)展的趨勢(shì)和問(wèn)題有很多,網(wǎng)絡(luò)上的信息越來(lái)越多,各種評(píng)測(cè)方法也是越來(lái)越多,人工的相關(guān)判斷已經(jīng)是不能滿足日益增加的信息要求,越來(lái)越不能很好的滿足用戶的檢索需求。
其實(shí)評(píng)測(cè)很大一部分是基于返回的網(wǎng)頁(yè)的內(nèi)容是否和用戶所需求的一樣或是相似的,這里就又涉及到網(wǎng)頁(yè)內(nèi)容上的抽取、整理、加工與處理。在和用戶的相關(guān)反饋進(jìn)行交流以后就能更好的滿足需求。聽?zhēng)煾缯f(shuō)他就是搞信息評(píng)價(jià)這一塊內(nèi)容的,他好像也做過(guò)相關(guān)的實(shí)驗(yàn),這一部分只有在試驗(yàn)中才能知道什么評(píng)測(cè)方法是好的,在什么領(lǐng)域內(nèi)是好的。里面可能深入很多,以后還有很多的東西要學(xué),說(shuō)實(shí)話,就我現(xiàn)在的總結(jié)來(lái)說(shuō),其實(shí)只是我的自己的想法或是看完書后的表面一層最基本的總結(jié),遠(yuǎn)遠(yuǎn)沒有一般論文的結(jié)構(gòu)或是構(gòu)思,當(dāng)然這方面我也會(huì)注意的,盡量寫出來(lái)的是有自己的一個(gè)順序或是思路在上面,按照每章每節(jié)的內(nèi)容詳細(xì)的總結(jié)出來(lái)?,F(xiàn)在的一點(diǎn)點(diǎn)積累為了以后寫大論文打下堅(jiān)實(shí)的基礎(chǔ)。一開始進(jìn)入研究生階段的我可能是浮躁的,靜不下心來(lái)寫點(diǎn)東西,寫出來(lái)的也是一些只是一些初次看過(guò)什么資料后的不再那么深入思考的話語(yǔ)。當(dāng)然不是說(shuō)現(xiàn)在的總結(jié)多么的好還是怎么的。每個(gè)人經(jīng)歷過(guò)一點(diǎn)的事情或是經(jīng)過(guò)一段時(shí)間后總會(huì)思考點(diǎn)什么,想到或是想通點(diǎn)什么。
第四章介紹的是一些文本處理的技術(shù)??梢哉f(shuō)這一部分是自然語(yǔ)言處理這一塊比較難的地方,也是個(gè)重點(diǎn)。目前的方法不多,基于詞典或是統(tǒng)計(jì)學(xué)的方法是我看得到比較多的。除此之外當(dāng)然還有其他比較好的方法。下面來(lái)詳細(xì)的介紹一下,中文不像英語(yǔ)有那么明顯的斷詞的地方或是標(biāo)記。中文需要進(jìn)行切分,現(xiàn)在就是關(guān)于切分就有很多的難點(diǎn),怎么個(gè)切法才能更好地體現(xiàn)出用戶的想要查詢的意思。當(dāng)然首先要做的還是網(wǎng)頁(yè)內(nèi)容的抽取,將網(wǎng)頁(yè)上的內(nèi)容抽取整理出來(lái)。抽取的方法還是有很多的,就光是信息的抽取,里面涉及到的知識(shí)點(diǎn)就非常的多。
第四章具體的后期可以再總結(jié)一下,現(xiàn)在的感悟不是很多,也有許多不懂的地方,今天在開始看lucene的源代碼,其實(shí)是我在圖書館借的一本關(guān)于搜索引擎開源代碼的講解類似的書籍,一共借了兩本,感覺代碼好多,這是第一感覺,我會(huì)耐下性子看下去,相信自己會(huì)有所收獲的。下面就這本書的第五章開始總結(jié)一下自己的觀點(diǎn)和想法,第五章講的是文本索引和搜索,索引是搜索引擎重要的一環(huán)。文本索引一般有三種方法:倒排索引、后綴數(shù)組、簽名文檔。這三種類型我在很多的參考書中見到過(guò)。對(duì)于第一種倒排索引理解的差不多,當(dāng)然也有很的變種版本,后兩個(gè)接觸的比較少,只是聽說(shuō)過(guò)而已。我先描述一下什么是后綴數(shù)組,在后綴數(shù)組中可以將文本看作是一個(gè)很長(zhǎng)的字符串,文本中的每一個(gè)位置都被看做是文本的一個(gè)后綴,所以索引的位置可以是每個(gè)字符的位置、或是每個(gè)單詞的位置。后綴數(shù)組就是對(duì)文本的所有后綴按照字典序存放每個(gè)后綴對(duì)應(yīng)的起始位置的一個(gè)列表。在使用后綴數(shù)組前先構(gòu)造后綴數(shù)組,構(gòu)建結(jié)束后使用與分析,其實(shí)后綴數(shù)組對(duì)于大量數(shù)據(jù)的檢索是有一定的局限性的,因?yàn)闃?gòu)造出來(lái)的后綴數(shù)組需要大量的存儲(chǔ)空間,通常是原文本的1.7倍,所以說(shuō)當(dāng)文本比較大的時(shí)候我們通常使用倒排索引來(lái)存儲(chǔ)我們的數(shù)據(jù)。接下來(lái)是簽名文件的使用,簽名文件是基于散列技術(shù)的面向單詞的索引結(jié)構(gòu),索引占用的空間大約是原始文檔的30%--40%。但是因?yàn)椴捎眠@個(gè)技術(shù)需要順序比較,時(shí)間復(fù)雜度為線性,所以這種技術(shù)只適合于小規(guī)模的文本,在大多數(shù)應(yīng)用中其性能不如倒排索引文件。
在文本的索引技術(shù)中我介紹三種比較常見的匹配技術(shù)算法:BF、KMP、BM
其中BF算法最為簡(jiǎn)單,就是一個(gè)字一個(gè)字的比較,下面的KMP算法我們?cè)跀?shù)據(jù)結(jié)構(gòu)中學(xué)到過(guò),還是一種不錯(cuò)的查找匹配算法,可以說(shuō)是BF的改進(jìn)版本。BM算法確是和KMP截然不同的算法。BM算法在實(shí)際匹配中跳過(guò)了很多無(wú)用的字符,這些是在前面兩個(gè)算法中無(wú)法實(shí)現(xiàn)的關(guān)鍵之處。當(dāng)然書中介紹的這些算法之所以提出來(lái)肯定有他們各種使用的場(chǎng)合,一般情況下,如果規(guī)模很小可以使用BF算法,因?yàn)槠湎喈?dāng)?shù)暮?jiǎn)單,實(shí)現(xiàn)起來(lái)也不會(huì)很麻煩,而且不需要額外構(gòu)造跳轉(zhuǎn)表,如果字母表很大可以選擇KMP算法因?yàn)槟J街泻械闹貜?fù)的情況較少,對(duì)于長(zhǎng)文本來(lái)說(shuō),BM算法是最佳的選擇。這些都是研究者們?cè)趯?shí)踐生活中總結(jié)出來(lái)的方法,我們后續(xù)的學(xué)習(xí)者可以借鑒使用,達(dá)到高效率的辦公、學(xué)習(xí)、科研。這些算法我感覺還得自己使用下,在實(shí)踐中才能獲取更多的感悟,實(shí)踐出真知還是有一定的道理的。每一次一本書的總結(jié)總是感覺蠻不錯(cuò),起碼完本后有一種成就感,雖然現(xiàn)在總結(jié)或是每周匯報(bào)的內(nèi)容,都只是理論的內(nèi)容,在下面的學(xué)習(xí)中內(nèi)容是基礎(chǔ),不會(huì)放下了,在這基礎(chǔ)之上,學(xué)習(xí)實(shí)際的代碼部分,開始找個(gè)開源的搜索引擎,開始看看,最后改一下源代碼實(shí)現(xiàn)自己的搜索引擎。然后開始寫小論文,發(fā)表,繼而大論文的材料也就有了。聽?zhēng)煾鐜熃銈冋f(shuō)發(fā)表一篇論文不是件容易的事情,這是個(gè)日積月累的過(guò)程,也是量變達(dá)到質(zhì)變的過(guò)程,需要我們有耐心的年復(fù)一年,日復(fù)一日的學(xué)習(xí)與總結(jié),不斷的完善自己的學(xué)習(xí)方法,改進(jìn)自己的學(xué)習(xí)方法,不斷的提高自己的科研水平與自己讀研的動(dòng)力。
第六章講的是查詢處理技術(shù),用戶查詢時(shí)可以自己選擇查詢?cè)~,不同的查詢?cè)~所搜索到的結(jié)果是不一樣的,所以選擇適合的關(guān)鍵詞才能查詢到我們用戶想要的信息。下面說(shuō)一下我所理解到的查詢構(gòu)造方法,通常有單一詞查詢,顧名思義,就是由單一的一個(gè)單詞或是詞語(yǔ)組成的查詢?cè)~,這個(gè)根據(jù)生活中或是網(wǎng)頁(yè)上詞的頻率來(lái)搜索關(guān)鍵詞的。還有一組詞的查詢,我在其他書中見到過(guò)一般的通用的比較好的方法是布爾模型和向量空間模型里面的查詢,上下文查詢,類似于我們?nèi)祟惖乃枷雭?lái)查找自己所需要的信息。里面還涉及到很多的公式,比如布爾模型最為簡(jiǎn)單,但是也是最為重要的模型之一。很多的查詢都是基于布爾模型的,一般的搜索引擎利用的查詢系統(tǒng)就是幾個(gè)比較好的模型聯(lián)合在一起進(jìn)行查詢,這樣的查詢才是高效的,能最好最接近的反應(yīng)用戶的需求。、
我在一般的搜索引擎,比如百度上進(jìn)行信息的檢索時(shí),或有一個(gè)很好的方法,有時(shí)自己想要查詢一個(gè)東西,但是又不太好表達(dá)自己的查詢,于是輸入一個(gè)相關(guān)的查詢?cè)~進(jìn)行信息的查詢。然后在搜索引擎返回到搜索結(jié)果中在最下面的導(dǎo)航欄里或是不是導(dǎo)航欄,會(huì)出現(xiàn)一個(gè)類似用戶的相關(guān)性反饋的界面,里面還有很多的關(guān)鍵詞和自己想查詢的相類似。真的這個(gè)方法就是不錯(cuò),我們?cè)诓恢涝趺幢磉_(dá)自己尋找的那個(gè)關(guān)鍵詞的時(shí)候,給與我們幾個(gè)相類似的關(guān)鍵詞。我們可以從中選擇自己表到類似的。這種相關(guān)性的反饋,也有評(píng)價(jià)機(jī)制,有些相關(guān)性反饋是很好的,當(dāng)然也有很多的是不怎么樣的。在這里就和信息的評(píng)價(jià)差不多,利用或是根據(jù)準(zhǔn)確率、召回率、或是文檔的相關(guān)度來(lái)進(jìn)行評(píng)價(jià)。
還有一種和相關(guān)性反饋差不多的叫做自動(dòng)搜索擴(kuò)展技術(shù),也是在同一個(gè)地方根據(jù)用戶的關(guān)鍵詞,聯(lián)想到想要表達(dá)什么意思,根據(jù)意思產(chǎn)生相同的擴(kuò)展來(lái)達(dá)到用戶查詢的目的。這一章的知識(shí)點(diǎn)不是很多,但是也是后續(xù)章節(jié)的基礎(chǔ),里面利用到很多的方法,也是前面提到過(guò)的,像什么布爾模型、向量空間模型,這些經(jīng)典的模型,在搜索引擎或是信息檢索領(lǐng)域沒都是非常出名的。也是很關(guān)鍵的技術(shù)之一。關(guān)于查詢,合適搜索引擎唯一一個(gè)在線處理的模塊,其余大多數(shù)時(shí)間都是在離線計(jì)算網(wǎng)頁(yè)上的信息,各種抽取信息,然后建立索引什么的,為的就是后續(xù)的用戶的查詢,能滿足用戶的查詢需求就是最好的搜索引擎,也是最好的查詢搜索算法所實(shí)現(xiàn)的目標(biāo)。離這一步還很遠(yuǎn)。在搜索引擎這個(gè)領(lǐng)域內(nèi),很多的研究者們花費(fèi)很長(zhǎng)的時(shí)間來(lái)優(yōu)化我們的搜索引擎,從一開始網(wǎng)絡(luò)爬蟲,怎么樣來(lái)從互聯(lián)網(wǎng)上進(jìn)行網(wǎng)頁(yè)的爬取,怎么樣高效的利用相關(guān)的算法進(jìn)行網(wǎng)頁(yè)信息的爬取,爬取下來(lái)后怎么樣高效的存儲(chǔ)又變成一個(gè)至關(guān)重要的問(wèn)題,其中當(dāng)然也有很多的牛人提出很多的算法,來(lái)進(jìn)行存儲(chǔ),利用緩存,當(dāng)然這個(gè)是為了用戶查詢時(shí),能夠在更短的時(shí)間內(nèi)把用戶所需要的信息反饋給他,所有才采用這樣的減少時(shí)間的技術(shù),在建立索引的時(shí)候就有很多的方法來(lái)進(jìn)行時(shí)間和空間上的,或是硬件上的改進(jìn)來(lái)滿足用戶的需求,不僅是算法的改良就可以的,大多數(shù)情況下的確是這樣的。
搜索引擎的各個(gè)構(gòu)件上的的每一個(gè)都是高效的話,那么到最后的查詢階段也就是非常高效的。這個(gè)是理想的情況下的說(shuō)法。
第七章講的是WEB檢索技術(shù)。介紹了基本的概念以及一些相關(guān)的算法,web檢索技術(shù)與一般的檢索技術(shù)不一樣的地方是,web檢索技術(shù)是針對(duì)互聯(lián)網(wǎng)上的文本數(shù)據(jù)的檢索技術(shù),一開始早期的搜索引擎有一種是目錄式搜索引擎,為的就是滿足用戶的文本搜索需求。下面簡(jiǎn)單的講一下web搜索或是叫做web檢索的工作流程和系統(tǒng)結(jié)構(gòu),首先是web數(shù)據(jù)的采集,從互聯(lián)網(wǎng)上面采集信息下來(lái),然后對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,建立網(wǎng)頁(yè)正文的數(shù)據(jù)庫(kù),通過(guò)建立索引然后方便以后用戶的查詢,在建立索引的時(shí)候還涉及到相關(guān)性排序的問(wèn)題,這個(gè)是由相關(guān)性排序系統(tǒng)完成的。前面幾個(gè)部分和一般的搜索引擎的原理一樣,也是離線部分完成的,接一下的是和用戶的互動(dòng)環(huán)節(jié),也叫做在線查詢部分,這一模塊比較重要,也是最關(guān)鍵的部分。
除此之外有一個(gè)專門處理用戶的行為的分析器,分析出用戶對(duì)那些信息比較感興趣,用戶在網(wǎng)上進(jìn)行信息的檢索的時(shí)候通過(guò)用戶的行為也可以適當(dāng)?shù)姆治龀鲇脩舻男枨螅?dāng)然可能只是一部分的需求,整個(gè)系統(tǒng)結(jié)構(gòu)的架構(gòu)是采用分布式的搜索引擎結(jié)構(gòu),和它極其類似。用戶的數(shù)量非常的多,實(shí)際的生活中的用戶在同一時(shí)間內(nèi)或是同一時(shí)刻的查詢就非常的多,所以一般來(lái)說(shuō)搜索引擎也好,web檢索技術(shù)也罷,由前面的講述可知,搜索引擎是個(gè)大的內(nèi)容,web檢索只是其中的一小部分,也是信息檢索領(lǐng)域內(nèi)的一部分。但是我感覺搜索引擎的原理好像和web檢索技術(shù)的原理差不多,我在之前的搜一些與信息檢索的論文的時(shí)候當(dāng)時(shí)只是覺得很奇怪,檢索技術(shù)和web檢索技術(shù)有區(qū)別嗎,還是有其他的檢索技術(shù)。這個(gè)問(wèn)題一直高不太清楚,看過(guò)一些論文上也是講了一些和搜索引擎技術(shù)上差不多的東西。
在本章中我還了解到web上的數(shù)據(jù)采集就分為很多的種類,就像之前講述的網(wǎng)絡(luò)爬蟲怎么獲取互聯(lián)網(wǎng)上的信息資源差不多,有很多的方法,最為常見的方法是基于整個(gè)網(wǎng)絡(luò)的數(shù)據(jù)采集、增量式數(shù)據(jù)采集、還有的就是基于主題的數(shù)據(jù)采集、遷移的數(shù)據(jù)采集?;谠阉饕娴臄?shù)據(jù)采集。和網(wǎng)絡(luò)爬蟲相當(dāng)?shù)念愃?。寫到這里我好像有點(diǎn)迷糊了,第七章本來(lái)就是信息檢索系統(tǒng)的一部分,當(dāng)然會(huì)和搜索引擎的架構(gòu)和原理差不多,搜索引擎中利用到的原理技術(shù)都是web技術(shù)的體現(xiàn),網(wǎng)頁(yè)排序算法的研究在本章中也寫了出來(lái),很常見的排序算法比如pagerank、hits、多數(shù)據(jù)融合算法的研究。
下面想自己研究一下每個(gè)排序算法的過(guò)程。
結(jié)合搜索引擎實(shí)踐這本書來(lái)總結(jié)在一起,說(shuō)實(shí)話,這本書看了好幾遍都是看不懂的,雖然說(shuō)這本書是搜索引擎方面的入門書籍,我還是感覺這本書講得比較詳細(xì),里面涉及到的知識(shí)點(diǎn)太多了,短期內(nèi)很難吃透,所以一般平時(shí)我都是看這本書的,當(dāng)然也攻克了許多難點(diǎn),從梁斌的那本走進(jìn)搜索引擎書中學(xué)到的比較簡(jiǎn)單的東西或是方法,然后運(yùn)用到這本書上時(shí)感覺頓時(shí)明白了許多。下面就一點(diǎn)一點(diǎn)的總結(jié)一下自己看過(guò)的內(nèi)容,或是看了過(guò)后有些感觸的知識(shí)點(diǎn)。全書共分為11章,不算多,大部分內(nèi)容一般的信息檢索書中也有講到,搜索引擎的參考書中也會(huì)介紹部分。這本書叫做實(shí)踐,說(shuō)明要求我們參與實(shí)踐的環(huán)節(jié),書中介紹了一種開源的搜索引擎,我也上網(wǎng)找過(guò)一些,看了相關(guān)的代碼,不是看的很懂,或是看不懂。從我目前的研究方向來(lái)看,主要是在看懂搜索引擎的源代碼后進(jìn)行自己的改裝,以至于滿足實(shí)際的生活中用戶檢索的需求,我最近在看lucene和nutch搜索引擎,總的來(lái)說(shuō),lucene不能算作是搜索引擎,最多只是個(gè)全文檢索系統(tǒng)的軟件壓縮包,或是api。
我研究了兩天左右,lucene的索引建立和檢索自己差不多懂了,那個(gè)網(wǎng)絡(luò)爬蟲不是lucnene中的一部分,需要自己通過(guò)heritrix爬蟲去互聯(lián)網(wǎng)上自己去爬取網(wǎng)頁(yè),然后建立索引庫(kù),以便于后期的用戶的檢索?,F(xiàn)在簡(jiǎn)要地講述一下本書的主要內(nèi)容,以及自己感興趣的方向,這當(dāng)然是自己的小方向,本書從信息檢索的起源開始講起的,一開始的還是概念性的東西。信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)問(wèn)世,計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來(lái);脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)?相繼研制成功并商業(yè)化,早期的信息檢索是圖書領(lǐng)域的相關(guān)術(shù)語(yǔ),和計(jì)算機(jī)不是很有關(guān)系。到20世紀(jì)60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)的推動(dòng)下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)是這一時(shí)期的信息檢索領(lǐng)域的代表,至今仍是世界上最著名的系統(tǒng)之一。?在第二章的搜索引擎的架構(gòu)中,對(duì)于其主要的體系結(jié)構(gòu)已經(jīng)基本上懂了大概,在具體的應(yīng)用中能體會(huì)出來(lái),幾個(gè)主要的步驟:文本的采集,建立索引數(shù)據(jù)庫(kù),在這兩個(gè)之間還有很多的工作需要完成。文本的轉(zhuǎn)換,文本內(nèi)容的抽取,涉及到的算法也是比較多的,國(guó)外大部分的算法研究的比較的成熟,但是在中文分詞這塊,在國(guó)內(nèi)還是比較成熟的,里面涉及到很多關(guān)鍵的技術(shù)還是需要時(shí)間才能完成攻克。就目前的水平來(lái)說(shuō)是一件很不容易的事情。
從圖書館的情報(bào)學(xué)專業(yè)來(lái)看,和我們計(jì)算機(jī)專業(yè)在信息檢索的方向上有很多相似的地方。下面從定義來(lái)講一下,信息檢索有一些類別。信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲(chǔ)與檢索”,是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶的需要找出有關(guān)信息的過(guò)程。狹義的信息檢索為“信息存儲(chǔ)與檢索”的后半部分,通常稱為“信息查找”或“信息搜索”,是指從信息集合中找出用戶所需要的有關(guān)信息的過(guò)程。狹義的信息檢索包括3個(gè)方面的含義:了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。由信息檢索原理可知,信息的存儲(chǔ)是實(shí)現(xiàn)信息檢索的基礎(chǔ)。這里要存儲(chǔ)的信息不僅包括原始文檔數(shù)據(jù),還包括圖片、視頻和音頻等,首先要將這些原始信息進(jìn)行計(jì)算機(jī)語(yǔ)言的轉(zhuǎn)換,并將其存儲(chǔ)在數(shù)據(jù)庫(kù)中,否則無(wú)法進(jìn)行機(jī)器識(shí)別。待用戶根據(jù)意圖輸入查詢請(qǐng)求后,檢索系統(tǒng)根據(jù)用戶的查詢請(qǐng)求在數(shù)據(jù)庫(kù)中搜索與查詢相關(guān)的信息,通過(guò)一定的匹配機(jī)制計(jì)算出信息的相似度大小,并按從大到小的順序?qū)⑿畔⑥D(zhuǎn)換輸出。
(一)按存儲(chǔ)與檢索對(duì)象劃分,信息檢索可以分為:
文獻(xiàn)檢索
數(shù)據(jù)檢索
事實(shí)檢索
以上三種信息檢索類型的主要區(qū)別在于:數(shù)據(jù)檢索和事實(shí)檢索是要檢索出包含在文獻(xiàn)中的信息本身,而文獻(xiàn)檢索則檢索出包含所需要信息的文獻(xiàn)即可。(二)按存儲(chǔ)的載體和實(shí)現(xiàn)查找的技術(shù)手段為標(biāo)準(zhǔn)劃分:
手工檢索
機(jī)械檢索
計(jì)算機(jī)檢索
其中現(xiàn)在發(fā)展比較迅速的計(jì)算機(jī)檢索是“網(wǎng)絡(luò)信息檢索”,
計(jì)算機(jī)信息檢索概述
也即網(wǎng)絡(luò)信息搜索,是指互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)終端,通過(guò)特定的網(wǎng)絡(luò)搜索工具或是通過(guò)瀏覽的方式,查找并獲取信息的行為。
(三)按檢索途徑劃分:
直接檢索
間接檢索?
信息內(nèi)容分析與編碼,產(chǎn)生信息記錄及檢索標(biāo)識(shí)。組織存貯,將全部記錄按文件、數(shù)據(jù)庫(kù)等形式組成有序的信息集合。用戶提問(wèn)處理和檢索輸出。關(guān)鍵部分是信息提問(wèn)與信息集合的匹配和選擇,即對(duì)給定提問(wèn)與集合中的記錄進(jìn)行相似性比較,根據(jù)一定的匹配標(biāo)準(zhǔn)選出有關(guān)信息。它按對(duì)象分為文獻(xiàn)檢索、數(shù)據(jù)檢索和事實(shí)檢索;按設(shè)備分為手工檢索、機(jī)械檢索和計(jì)算機(jī)檢索。由一定的設(shè)備和信息集合構(gòu)成的服務(wù)設(shè)施稱為信息檢索系統(tǒng),如穿孔卡片系統(tǒng)、聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、多媒體檢索系統(tǒng)等。信息檢索最初應(yīng)用于圖書館和科技信息機(jī)構(gòu),后來(lái)逐漸擴(kuò)大到其他領(lǐng)域,并與各種管理信息系統(tǒng)結(jié)合在一起。與信息檢索有關(guān)的理論、技術(shù)和服務(wù)構(gòu)成了一個(gè)相對(duì)獨(dú)立的知識(shí)領(lǐng)域,是信息學(xué)的一個(gè)重要分支,并與計(jì)算機(jī)應(yīng)用技術(shù)相互交叉。?這些內(nèi)容來(lái)自于網(wǎng)上的百科知識(shí),和書本上的有所區(qū)別,更多的講的是來(lái)源之類的信息,沒有涉及到原理那一塊。并不是說(shuō)這一部分內(nèi)容沒什么作用,對(duì)這一方向的了解就是來(lái)自于網(wǎng)絡(luò)或是圖書情報(bào)學(xué)的理解。
智能檢索或知識(shí)檢索
傳統(tǒng)的全文檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來(lái);進(jìn)一步還可在知識(shí)層面或者說(shuō)概念層面上輔助查詢,通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典,形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶智能知識(shí)提示,最終幫助用戶獲得最佳的檢索
虛擬圖書館與網(wǎng)上信息檢索
效果,比如用戶可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國(guó)”的區(qū)分,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。
知識(shí)挖掘
主要指文本挖掘技術(shù)的發(fā)展,目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。知識(shí)挖掘包括摘要、分類(聚類)和相似性檢索等方面。
自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索中,自動(dòng)摘要有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度,在信息服務(wù)中,自動(dòng)摘要有助于多種形式的內(nèi)容分發(fā),如發(fā)往PDA、手機(jī)等。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶個(gè)性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。自動(dòng)分類可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過(guò)機(jī)器學(xué)習(xí)形成預(yù)定義分類樹,再根據(jù)文檔的內(nèi)容特征將其歸類;自動(dòng)聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。自動(dòng)分類(聚類)在信息組織、導(dǎo)航方面非常有用。
異構(gòu)信息整合檢索和全息檢索
在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,信息檢索系統(tǒng)的開放性和集成性要求越來(lái)越高,需要能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語(yǔ)種信息的檢索;支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理;和關(guān)系數(shù)據(jù)庫(kù)檢索的無(wú)縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從實(shí)踐來(lái)講,發(fā)展到異構(gòu)信息整合檢索的層面,基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待取得進(jìn)一步突破。
另外,從工程實(shí)踐角度,綜合采用內(nèi)存和外部存儲(chǔ)的多級(jí)緩存、分布式群集和負(fù)載均衡技術(shù)也是信息檢索技術(shù)發(fā)展的重要方面。
隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,企業(yè)和個(gè)人可獲取、需處理的信息量呈爆發(fā)式增長(zhǎng),而且其中絕大部分都是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。內(nèi)容管理的重要性日益凸現(xiàn),而信息檢索作為內(nèi)容管理的核心支撐技術(shù),隨著內(nèi)容管理的發(fā)展和普及,亦將應(yīng)用到各個(gè)領(lǐng)域,成為人們?nèi)粘9ぷ魃畹拿芮谢锇椤?/p>
檢索原因
1.信息檢索是獲取知識(shí)的捷徑
美國(guó)普林斯頓大學(xué)物理系一個(gè)年輕大學(xué)生名叫約瀚·菲利普,在圖書館里借閱有關(guān)公開資料,僅用四個(gè)月時(shí)間,就畫出一張制造原子彈的設(shè)計(jì)圖。他設(shè)計(jì)的原子彈,體積小(棒球大小)、重量輕(7.5公斤)、威力大(相當(dāng)廣島原子彈3/4的威力),造價(jià)低(當(dāng)時(shí)僅需兩千美元),致使一些國(guó)家(法國(guó)、巴基斯坦等)紛紛致函美國(guó)大使館,爭(zhēng)相購(gòu)買他的設(shè)計(jì)拷貝。
二十世紀(jì)七十年代,美國(guó)核專家泰勒收到一份題為《制造核彈的方法》的報(bào)告,他被報(bào)告精湛的技術(shù)設(shè)計(jì)所吸引,驚嘆地說(shuō):“至今我看到的報(bào)告中,它是最詳細(xì)、最全面的一份。
信息檢索系統(tǒng)的體系結(jié)構(gòu)
告的全部信息來(lái)源又都是從圖書館那些極為平常的、完全公開的圖書資料中所獲得的。
2 .信息檢索是科學(xué)研究的向?qū)?/p>
美國(guó)在實(shí)施“阿波羅登月計(jì)劃”中,對(duì)阿波羅飛船的燃料箱進(jìn)行壓力實(shí)驗(yàn)時(shí),發(fā)現(xiàn)甲醇會(huì)引起鈦應(yīng)力腐蝕,為此付出了數(shù)百萬(wàn)美元來(lái)研究解決這一問(wèn)題,事后查明,早在十多年前,就有人研究出來(lái)了,方法非常簡(jiǎn)單,只需在甲醇中加入2%的水即可,檢索這篇文獻(xiàn)的時(shí)間是10多分鐘。在科研開發(fā)領(lǐng)域里,重復(fù)勞動(dòng)在世界各國(guó)都不同程度地存在。據(jù)統(tǒng)計(jì),美國(guó)每年由于重復(fù)研究所造成的損失,約占全年研究經(jīng)費(fèi)的38%,達(dá)20億美元之巨。日本有關(guān)化學(xué)化工方面的研究課題與國(guó)外重復(fù)的,大學(xué)占40%、民間占47%、國(guó)家研究機(jī)構(gòu)占40%,平均重復(fù)率在40%以上;中國(guó)的重復(fù)率則更高。專業(yè)研究的程序
3.信息檢索是終身教育的基礎(chǔ)
學(xué)校培養(yǎng)學(xué)生的目標(biāo)是學(xué)生的智能:包括自學(xué)能力、研究能力、思維能力、表達(dá)能力和組織管理能力。
UNESCO提出,教育已擴(kuò)大到一個(gè)人的整個(gè)一生,認(rèn)為唯有全面的終身教育才能夠培養(yǎng)完善的人,可以防止知識(shí)老化,不斷更新知識(shí),適應(yīng)當(dāng)代信息社會(huì)發(fā)展的需求。
四個(gè)要素
1?信息檢索的前提----信息意識(shí)
所謂信息意識(shí),是人們利用信息系統(tǒng)獲取所需信息的內(nèi)在動(dòng)因,具體表現(xiàn)為對(duì)信息的敏感性、選擇能力和消化吸收能力,從而判斷該信息是否能為自己或某一團(tuán)體所利用,是否能解決現(xiàn)實(shí)生活實(shí)踐中某一特定問(wèn)題等一系列的思維過(guò)程。信息意識(shí)含有信息認(rèn)知、信息情感和信息行為傾向三個(gè)層面。
信息素養(yǎng)(素質(zhì))(Information Literacy)一詞最早是由美國(guó)信息產(chǎn)業(yè)協(xié)會(huì)主席Paul Zurkowski在1974年給美國(guó)政府的報(bào)告中提出來(lái)的。他認(rèn)為:信息素質(zhì)是人們?cè)诠ぷ髦羞\(yùn)用信息、學(xué)習(xí)信息技術(shù)、利用信息解決問(wèn)題的能力。
2.信息檢索的基礎(chǔ)----信息源
信息源的構(gòu)成
按文獻(xiàn)載體分----印刷型、縮微型、機(jī)讀型、聲像型
按文獻(xiàn)內(nèi)容和加工程度分--一次信息、二次信息、三次信息
按出版形式分----圖書、報(bào)刊、研究報(bào)告、會(huì)議信息、專利信?息、統(tǒng)計(jì)數(shù)據(jù)、政府出版物、檔案、學(xué)位論文、標(biāo)準(zhǔn)信息(它們被認(rèn)為是十大信息源,其中后8種被稱為特種文獻(xiàn)。教育信息資源主要分布在教育類圖書、專業(yè)期刊、學(xué)位論文等不同類型的出版物中)
3.信息檢索的核心----信息獲取能力
1.了解各種信息來(lái)源
2.掌握檢索語(yǔ)言
3.?熟練使用檢索工具
4.能對(duì)檢索效果進(jìn)行判斷和評(píng)價(jià)
判斷檢索效果的兩個(gè)指標(biāo):
查全率=被檢出相關(guān)信息量/相關(guān)信息總量(%)
查準(zhǔn)率=被檢出相關(guān)信息量/被檢出信息總量(%)
4.信息檢索的關(guān)鍵:信息利用
社會(huì)進(jìn)步的過(guò)程就是一個(gè)知識(shí)不斷的生產(chǎn)—流通—再生產(chǎn)的過(guò)程。
為了全面、有效地利用現(xiàn)有知識(shí)和信息,在學(xué)習(xí)、科學(xué)研究和生
簡(jiǎn)單的信息檢索搜索
活過(guò)程中,信息檢索的時(shí)間比例逐漸增高。
獲取學(xué)術(shù)信息的最終目的是通過(guò)對(duì)所得信息的整理、分析、歸納和總結(jié),根據(jù)自己學(xué)習(xí)、研究過(guò)程中的思考和思路,將各種信息進(jìn)行重組,船造出新的知識(shí)和信息,從而達(dá)到信息激活和增值的目的。
檢索方法
信息檢索方法包括:普通法、追溯法和分段法。1.普通法是利用書目、文摘、索引等檢索工具進(jìn)行文獻(xiàn)資料查找的方法。運(yùn)用這種方法的關(guān)鍵在于熟悉各種檢索工具的性質(zhì)、特點(diǎn)和查找過(guò)程,從不同角度查找。普通法又可分為順檢法和倒檢法。順檢法是從過(guò)去到現(xiàn)在按時(shí)間順序檢索,費(fèi)用多、效率低;倒檢法是逆時(shí)間順序從近期向遠(yuǎn)期檢索,它強(qiáng)調(diào)近期資料,重視當(dāng)前的信息,主動(dòng)性
相關(guān)書籍
強(qiáng),效果較好。
2.追溯法是利用已有文獻(xiàn)所附的參考文獻(xiàn)不斷追蹤查找的方法,在沒有檢索工具或檢索工具不全時(shí),此法可獲得針對(duì)性很強(qiáng)的資料,查準(zhǔn)率較高,查全率較差。
3.分段法是追溯法和普通法的綜合,它將兩種方法分期、分段交替使用,直至查到所需資料為止。
最后的總結(jié)有點(diǎn)亂,來(lái)自于網(wǎng)上的資料摘抄的,自己讀過(guò)幾篇,也同時(shí)修改了一下,對(duì)于簡(jiǎn)單的介紹,沒什么實(shí)質(zhì)性的內(nèi)容,也就看看,一開始寫的不錯(cuò)的,可以體會(huì)到很深的東西,沒幾年的功底是寫不出來(lái)滴。