色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<center id="kklqu"><b id="kklqu"><em id="kklqu"></em></b></center>

<form id="kklqu"><optgroup id="kklqu"><small id="kklqu"></small></optgroup></form>

<menuitem id="kklqu"></menuitem>

登錄注冊(cè)寫文章

淺談---劉挺老師的信息檢索系統(tǒng)導(dǎo)論

會(huì)旋轉(zhuǎn)的史迪仔

淺談---劉挺老師的信息檢索系統(tǒng)導(dǎo)論

花了很長(zhǎng)的時(shí)間看這本書，這本書也比較的難。從一開始老師推薦的時(shí)候就去圖書館借到了這本書，然后就開始看這本書了，只是當(dāng)時(shí)確實(shí)看不太懂很多的章節(jié)，老師也說(shuō)只是叫我瀏覽一下，就現(xiàn)在的我來(lái)說(shuō)也是有很多的章節(jié)看不懂，不是說(shuō)看不懂，里面涉及到的很多很細(xì)節(jié)的問(wèn)題我就不知道了。所以有的直接跳過(guò)去的，有些在論文的幫助下勉強(qiáng)還能看懂一部分，說(shuō)實(shí)話，論文給我的幫助很大，本科時(shí)為了最后的畢業(yè)設(shè)計(jì)，我看了大概幾十篇碩博論文，自己看的最后還是對(duì)自己有好處的，自己理解了才是最好的，論文給我一個(gè)很大的好處在于論文都是有結(jié)構(gòu)的，全文組織的很有條理，看著就很舒服。我這個(gè)人看書還是看論文，就是說(shuō)在學(xué)習(xí)一個(gè)新的知識(shí)點(diǎn)的時(shí)候，都會(huì)先建立一個(gè)相對(duì)大的模型，就像數(shù)據(jù)結(jié)構(gòu)里面的樹形結(jié)構(gòu)一樣，先建立起大的樹枝，至于其余的樹葉什么的，在后期的進(jìn)一步學(xué)習(xí)中會(huì)獲取的。

今天是第二次寫總結(jié)，也是相當(dāng)于文獻(xiàn)的二次綜述，這本書看過(guò)了好幾遍，現(xiàn)在能通過(guò)大概前面8章左右，到后面有點(diǎn)不太熟悉了。還需要花點(diǎn)時(shí)間來(lái)進(jìn)行好好的認(rèn)真的學(xué)習(xí)，這次的六級(jí)考試過(guò)了，現(xiàn)在在英語(yǔ)方面感覺自己還行，不管是閱讀還是聽力，至于聽力要花一段時(shí)間在上面就不會(huì)落下了。現(xiàn)在每?jī)蓚€(gè)星期把雅思或者說(shuō)是托福的詞匯背一遍，現(xiàn)在的詞匯量好像到達(dá)一個(gè)臨界點(diǎn)了。不過(guò)相信還是早晚會(huì)突破的，加油！

近期又看了幾篇碩士論文，里面的文字寫的確實(shí)不錯(cuò)，有思路，有框架，每個(gè)章節(jié)的連接也是很有道理的。就我平時(shí)比如現(xiàn)在寫的總結(jié)，雖然是按照我們的書本進(jìn)行總結(jié)的，但是確實(shí)有很多地方達(dá)不到要求的，理由很簡(jiǎn)單，很多的知識(shí)點(diǎn)不是很清楚，所以組織起來(lái)也就不是那么的順利。往往是想到哪里就寫到哪里的。但是我相信通過(guò)平時(shí)的慢慢練習(xí)，相信會(huì)有達(dá)到標(biāo)準(zhǔn)的那一天。言歸正傳，開始第一章節(jié)的總結(jié)與個(gè)人的理解或是自己的一些想法。和一般書本上描述的那樣，第一章講述的是信息檢索的基本概念和處理的對(duì)象。其中還有信息檢索的基本流程，我現(xiàn)在知道了信息檢索的對(duì)象是網(wǎng)頁(yè)上的非結(jié)構(gòu)化的數(shù)據(jù)，一般現(xiàn)實(shí)生活中的數(shù)據(jù)要么是結(jié)構(gòu)化的就像數(shù)據(jù)庫(kù)里面存儲(chǔ)的數(shù)據(jù)就是結(jié)構(gòu)化的數(shù)據(jù)，而我們大多數(shù)其他數(shù)據(jù)確實(shí)非結(jié)構(gòu)化的數(shù)據(jù)。信息檢索里面還包括很多東西要自己理解的，比如信息采集，信息加工、處理。下面講一下概念，信息檢索（Information Retrieval）是指信息按一定的方式組織起來(lái)，并根據(jù)信息用戶的需要找出有關(guān)的信息的過(guò)程和技術(shù)。狹義的信息檢索就是信息檢索過(guò)程的后半部分，即從信息集合中找出所需要的信息的過(guò)程，也就是我們常說(shuō)的信息查尋（Information Search?或Information Seek）。

近期我還看過(guò)一些和書相關(guān)的視頻，講的是信息檢索方面的知識(shí)。主要是SEO方面的知識(shí)點(diǎn)，對(duì)我的視野開闊還是蠻有幫助的。但是沒有專門講述信息檢索的資料，這個(gè)還是有點(diǎn)可惜的。此外第一章節(jié)還介紹與信息檢索相關(guān)的課程，比如自然語(yǔ)言處理、分布式計(jì)算、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、情報(bào)學(xué)、社會(huì)學(xué)、統(tǒng)計(jì)學(xué)等等。首先第一個(gè)自然語(yǔ)言處理也是很熱門的研究方向，我上網(wǎng)查了一下百度百科了解到一些概念性的知識(shí)。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，這一領(lǐng)域的研究將涉及自然語(yǔ)言，即人們?nèi)粘Ｊ褂玫恼Z(yǔ)言，所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系，但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言，而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng)，特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。語(yǔ)言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中，只有人類才具有語(yǔ)言能力。人類的多種智能都與語(yǔ)言有著密切的關(guān)系。人類的邏輯思維以語(yǔ)言為形式，人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來(lái)的。因而，它也是人工智能的一個(gè)重要，甚至核心部分。用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信，這是人們長(zhǎng)期以來(lái)所追求的。因?yàn)樗扔忻黠@的實(shí)際意義，同時(shí)也有重要的理論意義：人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī)，而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言；人們也可通過(guò)它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。

實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義，也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解，后者稱為自然語(yǔ)言生成。因此，自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。歷史上對(duì)自然語(yǔ)言理解研究得較多，而對(duì)自然語(yǔ)言生成研究得較少。但這種狀況近年來(lái)已有所改變。

無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解，還是自然語(yǔ)言生成，都遠(yuǎn)不如人們?cè)瓉?lái)想象的那么簡(jiǎn)單，而是十分困難的。從目前的理論和技術(shù)現(xiàn)狀看，通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng)，仍然是較長(zhǎng)期的努力目標(biāo)，但是針對(duì)一定應(yīng)用，具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn)，有些已商品化，甚至開始產(chǎn)業(yè)化。典型的例子有：多語(yǔ)種數(shù)據(jù)庫(kù)和專家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。

自然語(yǔ)言處理，即實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信，或?qū)崿F(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的。造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性（ambiguity）。

一個(gè)中文文本從形式上看是由漢字（包括標(biāo)點(diǎn)符號(hào)等）組成的一個(gè)字符串。由字可組成詞，由詞可組成詞組，由詞組可組成句子，進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在上述的各種層次：字（符）、詞、詞組、句子、段，……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象，即形式上一樣的一段字符串，在不同的場(chǎng)景或不同的語(yǔ)境下，可以理解成不同的詞串、詞組串等，并有不同的意義。一般情況下，它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。也就是說(shuō)，從總體上說(shuō)，并不存在歧義。這也就是我們平時(shí)并不感到自然語(yǔ)言歧義，和能用自然語(yǔ)言進(jìn)行正確交流的原因。但是一方面，我們也看到，為了消解歧義，是需要極其大量的知識(shí)和進(jìn)行推理的。如何將這些知識(shí)較完整地加以收集和整理出來(lái)；又如何找到合適的形式，將它們存入計(jì)算機(jī)系統(tǒng)中去；以及如何有效地利用它們來(lái)消除歧義，都是工作量極大且十分困難的工作。這不是少數(shù)人短時(shí)期內(nèi)可以完成的，還有待長(zhǎng)期的、系統(tǒng)的工作。

以上說(shuō)的是，一個(gè)中文文本或一個(gè)漢字（含標(biāo)點(diǎn)符號(hào)等）串可能有多個(gè)含義。它是自然語(yǔ)言理解中的主要困難和障礙。反過(guò)來(lái)，一個(gè)相同或相近的意義同樣可以用多個(gè)中文文本或多個(gè)漢字串來(lái)表示。

因此，自然語(yǔ)言的形式（字符串）與其意義之間是一種多對(duì)多的關(guān)系。其實(shí)這也正是自然語(yǔ)言的魅力所在。但從計(jì)算機(jī)處理的角度看，我們必須消除歧義，而且有人認(rèn)為它正是自然語(yǔ)言理解中的中心問(wèn)題，即要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示。

歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識(shí)和推理，這就給基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法帶來(lái)了巨大的困難，因而以這些方法為主流的自然語(yǔ)言處理研究幾十年來(lái)一方面在理論和方法方面取得了很多成就，但在能處理大規(guī)模真實(shí)文本的系統(tǒng)研制方面，成績(jī)并不顯著。研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。

這個(gè)研究方向涉及到的學(xué)科門類還是很多的，要我去學(xué)習(xí)的知識(shí)還有很多很多。信息檢索要解決的問(wèn)題或是它本身研究的內(nèi)容有：處理海量的數(shù)據(jù)、評(píng)價(jià)檢索、處理多源信息。另外信息檢索的關(guān)鍵技術(shù)有：信息抽取、文本分類與聚類、自動(dòng)文摘、鏈接分析、web信息檢索。信息檢索領(lǐng)域還有很多的應(yīng)用研究，有話題檢測(cè)與跟蹤、信息過(guò)濾、垃圾信息過(guò)濾、對(duì)抗式信息檢索、企業(yè)檢索、數(shù)字圖書館、跨語(yǔ)言檢索、基于內(nèi)容的多媒體檢索、基因信息檢索。信息檢索的歷史、現(xiàn)狀和未來(lái)，在本章中也有體現(xiàn)。我個(gè)人比較感興趣的有信息融合，問(wèn)答系統(tǒng)、數(shù)據(jù)挖掘等等，這些都是比較難的或是很難的領(lǐng)域問(wèn)題，但是還是比較有趣的。有了興趣后很多的事情做起來(lái)就比較有動(dòng)力了。

下面講一下第二章的內(nèi)容，第二章對(duì)信息檢索的模型進(jìn)行了介紹。首先介紹了三個(gè)經(jīng)典的模型：布爾模型、向量空間模型、概率模型。接著由于這三個(gè)模型的前兩個(gè)模型有各自的缺點(diǎn)和優(yōu)點(diǎn)，所以這一章對(duì)其進(jìn)行了結(jié)合，把布爾模型和向量空間模型結(jié)合起來(lái)形成擴(kuò)展布爾模型。在很多實(shí)際應(yīng)用中也是多個(gè)模型一起使用的，這樣能取得很好的使用效果，比單一的使用某個(gè)模型來(lái)得好，據(jù)此本章對(duì)此進(jìn)行了詳細(xì)的介紹，然后還對(duì)預(yù)計(jì)與語(yǔ)言模型的信息檢索加以重點(diǎn)介紹，這部分我沒怎么看明白。在本章節(jié)的最后比較熱門的隱性語(yǔ)義索引模型與基于本體論的信息檢索模型，將語(yǔ)義的知識(shí)運(yùn)用與信息檢索是未來(lái)的發(fā)展趨勢(shì)。雖然這部分只是很難，或是很難被我們一般人所理解，但是確實(shí)是我們未來(lái)信息檢索取得突破的關(guān)鍵或是重要方向。至于具體的介紹還要再看幾遍這個(gè)章節(jié)?？磿闹貜?fù)是很有必要的，第一次看書也許只是看懂一部分，然后接下來(lái)的幾遍就是更好的理解與消化自己所懂的知識(shí)點(diǎn)。

下面是第三章信息檢索系統(tǒng)的評(píng)價(jià)，信息檢索評(píng)價(jià)對(duì)信息檢索研究來(lái)說(shuō)具體非常重要的作用，本章主要介紹了在信息檢索領(lǐng)域中的各種評(píng)價(jià)方法以及比較有影響力的評(píng)測(cè)會(huì)議。這章還介紹在國(guó)際信息檢索領(lǐng)域方面，介紹了好幾種方法，感覺像是規(guī)定一樣。評(píng)價(jià)一般是評(píng)價(jià)某個(gè)系統(tǒng)或是某個(gè)產(chǎn)品的性能或是質(zhì)量什么的好壞。對(duì)于我們的信息檢索系統(tǒng)來(lái)說(shuō)，除了系統(tǒng)的處理時(shí)間和空間因素，還要求各種排序算法或是相關(guān)度的計(jì)算盡量的好，盡量的能及時(shí)滿足用戶的檢索需要。一般的性能評(píng)價(jià)指標(biāo)有準(zhǔn)確率和召回率，本章中也給出了相應(yīng)的計(jì)算公式，當(dāng)然還有其他很多種的評(píng)價(jià)方法。包括國(guó)內(nèi)的和國(guó)外的評(píng)價(jià)方法。我感覺這一部分還有好多的地方可以研究創(chuàng)新一下，然后發(fā)表論文，就是計(jì)算準(zhǔn)確率的方法上應(yīng)該可能改進(jìn)一下，什么召回率還有涉及到相關(guān)度的計(jì)算方法也是可能改進(jìn)的，國(guó)內(nèi)也已經(jīng)有很多的研究者們已經(jīng)基于相關(guān)的方法進(jìn)行了改進(jìn)。在這一部分我也會(huì)花一定的時(shí)間在上面，多看一些文獻(xiàn)，總結(jié)一下自己的想法，多看看其他人的改進(jìn)方法，以便以后自己設(shè)計(jì)一套方法出來(lái)，在信息檢索評(píng)價(jià)方法有自己的獨(dú)特的一套方法，不管是國(guó)際上的還是國(guó)內(nèi)現(xiàn)有的方法中，有很多的前輩已經(jīng)給我們打好路子，讓我們?cè)谒麄兊幕A(chǔ)之上進(jìn)一步的改進(jìn)以便使得我們的信息評(píng)價(jià)算法更加的完善。今后研究發(fā)展的趨勢(shì)和問(wèn)題有很多，網(wǎng)絡(luò)上的信息越來(lái)越多，各種評(píng)測(cè)方法也是越來(lái)越多，人工的相關(guān)判斷已經(jīng)是不能滿足日益增加的信息要求，越來(lái)越不能很好的滿足用戶的檢索需求。

其實(shí)評(píng)測(cè)很大一部分是基于返回的網(wǎng)頁(yè)的內(nèi)容是否和用戶所需求的一樣或是相似的，這里就又涉及到網(wǎng)頁(yè)內(nèi)容上的抽取、整理、加工與處理。在和用戶的相關(guān)反饋進(jìn)行交流以后就能更好的滿足需求。聽?zhēng)煾缯f(shuō)他就是搞信息評(píng)價(jià)這一塊內(nèi)容的，他好像也做過(guò)相關(guān)的實(shí)驗(yàn)，這一部分只有在試驗(yàn)中才能知道什么評(píng)測(cè)方法是好的，在什么領(lǐng)域內(nèi)是好的。里面可能深入很多，以后還有很多的東西要學(xué)，說(shuō)實(shí)話，就我現(xiàn)在的總結(jié)來(lái)說(shuō)，其實(shí)只是我的自己的想法或是看完書后的表面一層最基本的總結(jié)，遠(yuǎn)遠(yuǎn)沒有一般論文的結(jié)構(gòu)或是構(gòu)思，當(dāng)然這方面我也會(huì)注意的，盡量寫出來(lái)的是有自己的一個(gè)順序或是思路在上面，按照每章每節(jié)的內(nèi)容詳細(xì)的總結(jié)出來(lái)?，F(xiàn)在的一點(diǎn)點(diǎn)積累為了以后寫大論文打下堅(jiān)實(shí)的基礎(chǔ)。一開始進(jìn)入研究生階段的我可能是浮躁的，靜不下心來(lái)寫點(diǎn)東西，寫出來(lái)的也是一些只是一些初次看過(guò)什么資料后的不再那么深入思考的話語(yǔ)。當(dāng)然不是說(shuō)現(xiàn)在的總結(jié)多么的好還是怎么的。每個(gè)人經(jīng)歷過(guò)一點(diǎn)的事情或是經(jīng)過(guò)一段時(shí)間后總會(huì)思考點(diǎn)什么，想到或是想通點(diǎn)什么。

第四章介紹的是一些文本處理的技術(shù)?？梢哉f(shuō)這一部分是自然語(yǔ)言處理這一塊比較難的地方，也是個(gè)重點(diǎn)。目前的方法不多，基于詞典或是統(tǒng)計(jì)學(xué)的方法是我看得到比較多的。除此之外當(dāng)然還有其他比較好的方法。下面來(lái)詳細(xì)的介紹一下，中文不像英語(yǔ)有那么明顯的斷詞的地方或是標(biāo)記。中文需要進(jìn)行切分，現(xiàn)在就是關(guān)于切分就有很多的難點(diǎn)，怎么個(gè)切法才能更好地體現(xiàn)出用戶的想要查詢的意思。當(dāng)然首先要做的還是網(wǎng)頁(yè)內(nèi)容的抽取，將網(wǎng)頁(yè)上的內(nèi)容抽取整理出來(lái)。抽取的方法還是有很多的，就光是信息的抽取，里面涉及到的知識(shí)點(diǎn)就非常的多。

第四章具體的后期可以再總結(jié)一下，現(xiàn)在的感悟不是很多，也有許多不懂的地方，今天在開始看lucene的源代碼，其實(shí)是我在圖書館借的一本關(guān)于搜索引擎開源代碼的講解類似的書籍，一共借了兩本，感覺代碼好多，這是第一感覺，我會(huì)耐下性子看下去，相信自己會(huì)有所收獲的。下面就這本書的第五章開始總結(jié)一下自己的觀點(diǎn)和想法，第五章講的是文本索引和搜索，索引是搜索引擎重要的一環(huán)。文本索引一般有三種方法：倒排索引、后綴數(shù)組、簽名文檔。這三種類型我在很多的參考書中見到過(guò)。對(duì)于第一種倒排索引理解的差不多，當(dāng)然也有很的變種版本，后兩個(gè)接觸的比較少，只是聽說(shuō)過(guò)而已。我先描述一下什么是后綴數(shù)組，在后綴數(shù)組中可以將文本看作是一個(gè)很長(zhǎng)的字符串，文本中的每一個(gè)位置都被看做是文本的一個(gè)后綴，所以索引的位置可以是每個(gè)字符的位置、或是每個(gè)單詞的位置。后綴數(shù)組就是對(duì)文本的所有后綴按照字典序存放每個(gè)后綴對(duì)應(yīng)的起始位置的一個(gè)列表。在使用后綴數(shù)組前先構(gòu)造后綴數(shù)組，構(gòu)建結(jié)束后使用與分析，其實(shí)后綴數(shù)組對(duì)于大量數(shù)據(jù)的檢索是有一定的局限性的，因?yàn)闃?gòu)造出來(lái)的后綴數(shù)組需要大量的存儲(chǔ)空間，通常是原文本的1.7倍，所以說(shuō)當(dāng)文本比較大的時(shí)候我們通常使用倒排索引來(lái)存儲(chǔ)我們的數(shù)據(jù)。接下來(lái)是簽名文件的使用，簽名文件是基于散列技術(shù)的面向單詞的索引結(jié)構(gòu)，索引占用的空間大約是原始文檔的30%--40%。但是因?yàn)椴捎眠@個(gè)技術(shù)需要順序比較，時(shí)間復(fù)雜度為線性，所以這種技術(shù)只適合于小規(guī)模的文本，在大多數(shù)應(yīng)用中其性能不如倒排索引文件。

在文本的索引技術(shù)中我介紹三種比較常見的匹配技術(shù)算法：BF、KMP、BM

其中BF算法最為簡(jiǎn)單，就是一個(gè)字一個(gè)字的比較，下面的KMP算法我們?cè)跀?shù)據(jù)結(jié)構(gòu)中學(xué)到過(guò)，還是一種不錯(cuò)的查找匹配算法，可以說(shuō)是BF的改進(jìn)版本。BM算法確是和KMP截然不同的算法。BM算法在實(shí)際匹配中跳過(guò)了很多無(wú)用的字符，這些是在前面兩個(gè)算法中無(wú)法實(shí)現(xiàn)的關(guān)鍵之處。當(dāng)然書中介紹的這些算法之所以提出來(lái)肯定有他們各種使用的場(chǎng)合，一般情況下，如果規(guī)模很小可以使用BF算法，因?yàn)槠湎喈?dāng)?shù)暮?jiǎn)單，實(shí)現(xiàn)起來(lái)也不會(huì)很麻煩，而且不需要額外構(gòu)造跳轉(zhuǎn)表，如果字母表很大可以選擇KMP算法因?yàn)槟Ｊ街泻械闹貜?fù)的情況較少，對(duì)于長(zhǎng)文本來(lái)說(shuō)，BM算法是最佳的選擇。這些都是研究者們?cè)趯?shí)踐生活中總結(jié)出來(lái)的方法，我們后續(xù)的學(xué)習(xí)者可以借鑒使用，達(dá)到高效率的辦公、學(xué)習(xí)、科研。這些算法我感覺還得自己使用下，在實(shí)踐中才能獲取更多的感悟，實(shí)踐出真知還是有一定的道理的。每一次一本書的總結(jié)總是感覺蠻不錯(cuò)，起碼完本后有一種成就感，雖然現(xiàn)在總結(jié)或是每周匯報(bào)的內(nèi)容，都只是理論的內(nèi)容，在下面的學(xué)習(xí)中內(nèi)容是基礎(chǔ)，不會(huì)放下了，在這基礎(chǔ)之上，學(xué)習(xí)實(shí)際的代碼部分，開始找個(gè)開源的搜索引擎，開始看看，最后改一下源代碼實(shí)現(xiàn)自己的搜索引擎。然后開始寫小論文，發(fā)表，繼而大論文的材料也就有了。聽?zhēng)煾鐜熃銈冋f(shuō)發(fā)表一篇論文不是件容易的事情，這是個(gè)日積月累的過(guò)程，也是量變達(dá)到質(zhì)變的過(guò)程，需要我們有耐心的年復(fù)一年，日復(fù)一日的學(xué)習(xí)與總結(jié)，不斷的完善自己的學(xué)習(xí)方法，改進(jìn)自己的學(xué)習(xí)方法，不斷的提高自己的科研水平與自己讀研的動(dòng)力。

第六章講的是查詢處理技術(shù)，用戶查詢時(shí)可以自己選擇查詢?cè)~，不同的查詢?cè)~所搜索到的結(jié)果是不一樣的，所以選擇適合的關(guān)鍵詞才能查詢到我們用戶想要的信息。下面說(shuō)一下我所理解到的查詢構(gòu)造方法，通常有單一詞查詢，顧名思義，就是由單一的一個(gè)單詞或是詞語(yǔ)組成的查詢?cè)~，這個(gè)根據(jù)生活中或是網(wǎng)頁(yè)上詞的頻率來(lái)搜索關(guān)鍵詞的。還有一組詞的查詢，我在其他書中見到過(guò)一般的通用的比較好的方法是布爾模型和向量空間模型里面的查詢，上下文查詢，類似于我們?nèi)祟惖乃枷雭?lái)查找自己所需要的信息。里面還涉及到很多的公式，比如布爾模型最為簡(jiǎn)單，但是也是最為重要的模型之一。很多的查詢都是基于布爾模型的，一般的搜索引擎利用的查詢系統(tǒng)就是幾個(gè)比較好的模型聯(lián)合在一起進(jìn)行查詢，這樣的查詢才是高效的，能最好最接近的反應(yīng)用戶的需求。、

我在一般的搜索引擎，比如百度上進(jìn)行信息的檢索時(shí)，或有一個(gè)很好的方法，有時(shí)自己想要查詢一個(gè)東西，但是又不太好表達(dá)自己的查詢，于是輸入一個(gè)相關(guān)的查詢?cè)~進(jìn)行信息的查詢。然后在搜索引擎返回到搜索結(jié)果中在最下面的導(dǎo)航欄里或是不是導(dǎo)航欄，會(huì)出現(xiàn)一個(gè)類似用戶的相關(guān)性反饋的界面，里面還有很多的關(guān)鍵詞和自己想查詢的相類似。真的這個(gè)方法就是不錯(cuò)，我們?cè)诓恢涝趺幢磉_(dá)自己尋找的那個(gè)關(guān)鍵詞的時(shí)候，給與我們幾個(gè)相類似的關(guān)鍵詞。我們可以從中選擇自己表到類似的。這種相關(guān)性的反饋，也有評(píng)價(jià)機(jī)制，有些相關(guān)性反饋是很好的，當(dāng)然也有很多的是不怎么樣的。在這里就和信息的評(píng)價(jià)差不多，利用或是根據(jù)準(zhǔn)確率、召回率、或是文檔的相關(guān)度來(lái)進(jìn)行評(píng)價(jià)。

還有一種和相關(guān)性反饋差不多的叫做自動(dòng)搜索擴(kuò)展技術(shù)，也是在同一個(gè)地方根據(jù)用戶的關(guān)鍵詞，聯(lián)想到想要表達(dá)什么意思，根據(jù)意思產(chǎn)生相同的擴(kuò)展來(lái)達(dá)到用戶查詢的目的。這一章的知識(shí)點(diǎn)不是很多，但是也是后續(xù)章節(jié)的基礎(chǔ)，里面利用到很多的方法，也是前面提到過(guò)的，像什么布爾模型、向量空間模型，這些經(jīng)典的模型，在搜索引擎或是信息檢索領(lǐng)域沒都是非常出名的。也是很關(guān)鍵的技術(shù)之一。關(guān)于查詢，合適搜索引擎唯一一個(gè)在線處理的模塊，其余大多數(shù)時(shí)間都是在離線計(jì)算網(wǎng)頁(yè)上的信息，各種抽取信息，然后建立索引什么的，為的就是后續(xù)的用戶的查詢，能滿足用戶的查詢需求就是最好的搜索引擎，也是最好的查詢搜索算法所實(shí)現(xiàn)的目標(biāo)。離這一步還很遠(yuǎn)。在搜索引擎這個(gè)領(lǐng)域內(nèi)，很多的研究者們花費(fèi)很長(zhǎng)的時(shí)間來(lái)優(yōu)化我們的搜索引擎，從一開始網(wǎng)絡(luò)爬蟲，怎么樣來(lái)從互聯(lián)網(wǎng)上進(jìn)行網(wǎng)頁(yè)的爬取，怎么樣高效的利用相關(guān)的算法進(jìn)行網(wǎng)頁(yè)信息的爬取，爬取下來(lái)后怎么樣高效的存儲(chǔ)又變成一個(gè)至關(guān)重要的問(wèn)題，其中當(dāng)然也有很多的牛人提出很多的算法，來(lái)進(jìn)行存儲(chǔ)，利用緩存，當(dāng)然這個(gè)是為了用戶查詢時(shí)，能夠在更短的時(shí)間內(nèi)把用戶所需要的信息反饋給他，所有才采用這樣的減少時(shí)間的技術(shù)，在建立索引的時(shí)候就有很多的方法來(lái)進(jìn)行時(shí)間和空間上的，或是硬件上的改進(jìn)來(lái)滿足用戶的需求，不僅是算法的改良就可以的，大多數(shù)情況下的確是這樣的。

搜索引擎的各個(gè)構(gòu)件上的的每一個(gè)都是高效的話，那么到最后的查詢階段也就是非常高效的。這個(gè)是理想的情況下的說(shuō)法。

第七章講的是WEB檢索技術(shù)。介紹了基本的概念以及一些相關(guān)的算法，web檢索技術(shù)與一般的檢索技術(shù)不一樣的地方是，web檢索技術(shù)是針對(duì)互聯(lián)網(wǎng)上的文本數(shù)據(jù)的檢索技術(shù)，一開始早期的搜索引擎有一種是目錄式搜索引擎，為的就是滿足用戶的文本搜索需求。下面簡(jiǎn)單的講一下web搜索或是叫做web檢索的工作流程和系統(tǒng)結(jié)構(gòu)，首先是web數(shù)據(jù)的采集，從互聯(lián)網(wǎng)上面采集信息下來(lái)，然后對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理，建立網(wǎng)頁(yè)正文的數(shù)據(jù)庫(kù)，通過(guò)建立索引然后方便以后用戶的查詢，在建立索引的時(shí)候還涉及到相關(guān)性排序的問(wèn)題，這個(gè)是由相關(guān)性排序系統(tǒng)完成的。前面幾個(gè)部分和一般的搜索引擎的原理一樣，也是離線部分完成的，接一下的是和用戶的互動(dòng)環(huán)節(jié)，也叫做在線查詢部分，這一模塊比較重要，也是最關(guān)鍵的部分。

除此之外有一個(gè)專門處理用戶的行為的分析器，分析出用戶對(duì)那些信息比較感興趣，用戶在網(wǎng)上進(jìn)行信息的檢索的時(shí)候通過(guò)用戶的行為也可以適當(dāng)?shù)姆治龀鲇脩舻男枨螅?dāng)然可能只是一部分的需求，整個(gè)系統(tǒng)結(jié)構(gòu)的架構(gòu)是采用分布式的搜索引擎結(jié)構(gòu)，和它極其類似。用戶的數(shù)量非常的多，實(shí)際的生活中的用戶在同一時(shí)間內(nèi)或是同一時(shí)刻的查詢就非常的多，所以一般來(lái)說(shuō)搜索引擎也好，web檢索技術(shù)也罷，由前面的講述可知，搜索引擎是個(gè)大的內(nèi)容，web檢索只是其中的一小部分，也是信息檢索領(lǐng)域內(nèi)的一部分。但是我感覺搜索引擎的原理好像和web檢索技術(shù)的原理差不多，我在之前的搜一些與信息檢索的論文的時(shí)候當(dāng)時(shí)只是覺得很奇怪，檢索技術(shù)和web檢索技術(shù)有區(qū)別嗎，還是有其他的檢索技術(shù)。這個(gè)問(wèn)題一直高不太清楚，看過(guò)一些論文上也是講了一些和搜索引擎技術(shù)上差不多的東西。

在本章中我還了解到web上的數(shù)據(jù)采集就分為很多的種類，就像之前講述的網(wǎng)絡(luò)爬蟲怎么獲取互聯(lián)網(wǎng)上的信息資源差不多，有很多的方法，最為常見的方法是基于整個(gè)網(wǎng)絡(luò)的數(shù)據(jù)采集、增量式數(shù)據(jù)采集、還有的就是基于主題的數(shù)據(jù)采集、遷移的數(shù)據(jù)采集?；谠阉饕娴臄?shù)據(jù)采集。和網(wǎng)絡(luò)爬蟲相當(dāng)?shù)念愃?。寫到這里我好像有點(diǎn)迷糊了，第七章本來(lái)就是信息檢索系統(tǒng)的一部分，當(dāng)然會(huì)和搜索引擎的架構(gòu)和原理差不多，搜索引擎中利用到的原理技術(shù)都是web技術(shù)的體現(xiàn)，網(wǎng)頁(yè)排序算法的研究在本章中也寫了出來(lái)，很常見的排序算法比如pagerank、hits、多數(shù)據(jù)融合算法的研究。

下面想自己研究一下每個(gè)排序算法的過(guò)程。

結(jié)合搜索引擎實(shí)踐這本書來(lái)總結(jié)在一起，說(shuō)實(shí)話，這本書看了好幾遍都是看不懂的，雖然說(shuō)這本書是搜索引擎方面的入門書籍，我還是感覺這本書講得比較詳細(xì)，里面涉及到的知識(shí)點(diǎn)太多了，短期內(nèi)很難吃透，所以一般平時(shí)我都是看這本書的，當(dāng)然也攻克了許多難點(diǎn)，從梁斌的那本走進(jìn)搜索引擎書中學(xué)到的比較簡(jiǎn)單的東西或是方法，然后運(yùn)用到這本書上時(shí)感覺頓時(shí)明白了許多。下面就一點(diǎn)一點(diǎn)的總結(jié)一下自己看過(guò)的內(nèi)容，或是看了過(guò)后有些感觸的知識(shí)點(diǎn)。全書共分為11章，不算多，大部分內(nèi)容一般的信息檢索書中也有講到，搜索引擎的參考書中也會(huì)介紹部分。這本書叫做實(shí)踐，說(shuō)明要求我們參與實(shí)踐的環(huán)節(jié)，書中介紹了一種開源的搜索引擎，我也上網(wǎng)找過(guò)一些，看了相關(guān)的代碼，不是看的很懂，或是看不懂。從我目前的研究方向來(lái)看，主要是在看懂搜索引擎的源代碼后進(jìn)行自己的改裝，以至于滿足實(shí)際的生活中用戶檢索的需求，我最近在看lucene和nutch搜索引擎，總的來(lái)說(shuō)，lucene不能算作是搜索引擎，最多只是個(gè)全文檢索系統(tǒng)的軟件壓縮包，或是api。

我研究了兩天左右，lucene的索引建立和檢索自己差不多懂了，那個(gè)網(wǎng)絡(luò)爬蟲不是lucnene中的一部分，需要自己通過(guò)heritrix爬蟲去互聯(lián)網(wǎng)上自己去爬取網(wǎng)頁(yè)，然后建立索引庫(kù)，以便于后期的用戶的檢索?，F(xiàn)在簡(jiǎn)要地講述一下本書的主要內(nèi)容，以及自己感興趣的方向，這當(dāng)然是自己的小方向，本書從信息檢索的起源開始講起的，一開始的還是概念性的東西。信息檢索起源于圖書館的參考咨詢和文摘索引工作，從19世紀(jì)下半葉首先開始發(fā)展，至20世紀(jì)40年代，索引和檢索成已為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)問(wèn)世，計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域，并與信息檢索理論緊密結(jié)合起來(lái)；脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)?相繼研制成功并商業(yè)化，早期的信息檢索是圖書領(lǐng)域的相關(guān)術(shù)語(yǔ)，和計(jì)算機(jī)不是很有關(guān)系。到20世紀(jì)60年代到80年代，在信息處理技術(shù)、通訊技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)的推動(dòng)下，信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展，得到了廣泛的應(yīng)用。Dialog國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)是這一時(shí)期的信息檢索領(lǐng)域的代表，至今仍是世界上最著名的系統(tǒng)之一。?在第二章的搜索引擎的架構(gòu)中，對(duì)于其主要的體系結(jié)構(gòu)已經(jīng)基本上懂了大概，在具體的應(yīng)用中能體會(huì)出來(lái)，幾個(gè)主要的步驟：文本的采集，建立索引數(shù)據(jù)庫(kù)，在這兩個(gè)之間還有很多的工作需要完成。文本的轉(zhuǎn)換，文本內(nèi)容的抽取，涉及到的算法也是比較多的，國(guó)外大部分的算法研究的比較的成熟，但是在中文分詞這塊，在國(guó)內(nèi)還是比較成熟的，里面涉及到很多關(guān)鍵的技術(shù)還是需要時(shí)間才能完成攻克。就目前的水平來(lái)說(shuō)是一件很不容易的事情。

從圖書館的情報(bào)學(xué)專業(yè)來(lái)看，和我們計(jì)算機(jī)專業(yè)在信息檢索的方向上有很多相似的地方。下面從定義來(lái)講一下，信息檢索有一些類別。信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲(chǔ)與檢索”，是指將信息按一定的方式組織和存儲(chǔ)起來(lái)，并根據(jù)用戶的需要找出有關(guān)信息的過(guò)程。狹義的信息檢索為“信息存儲(chǔ)與檢索”的后半部分，通常稱為“信息查找”或“信息搜索”，是指從信息集合中找出用戶所需要的有關(guān)信息的過(guò)程。狹義的信息檢索包括3個(gè)方面的含義：了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。由信息檢索原理可知，信息的存儲(chǔ)是實(shí)現(xiàn)信息檢索的基礎(chǔ)。這里要存儲(chǔ)的信息不僅包括原始文檔數(shù)據(jù)，還包括圖片、視頻和音頻等，首先要將這些原始信息進(jìn)行計(jì)算機(jī)語(yǔ)言的轉(zhuǎn)換，并將其存儲(chǔ)在數(shù)據(jù)庫(kù)中，否則無(wú)法進(jìn)行機(jī)器識(shí)別。待用戶根據(jù)意圖輸入查詢請(qǐng)求后，檢索系統(tǒng)根據(jù)用戶的查詢請(qǐng)求在數(shù)據(jù)庫(kù)中搜索與查詢相關(guān)的信息，通過(guò)一定的匹配機(jī)制計(jì)算出信息的相似度大小，并按從大到小的順序?qū)⑿畔⑥D(zhuǎn)換輸出。

（一）按存儲(chǔ)與檢索對(duì)象劃分，信息檢索可以分為：

　　文獻(xiàn)檢索

　　數(shù)據(jù)檢索

　　事實(shí)檢索

　　以上三種信息檢索類型的主要區(qū)別在于：數(shù)據(jù)檢索和事實(shí)檢索是要檢索出包含在文獻(xiàn)中的信息本身，而文獻(xiàn)檢索則檢索出包含所需要信息的文獻(xiàn)即可。（二）按存儲(chǔ)的載體和實(shí)現(xiàn)查找的技術(shù)手段為標(biāo)準(zhǔn)劃分：

　　手工檢索

　　機(jī)械檢索

　　計(jì)算機(jī)檢索

　　其中現(xiàn)在發(fā)展比較迅速的計(jì)算機(jī)檢索是“網(wǎng)絡(luò)信息檢索”，

計(jì)算機(jī)信息檢索概述

也即網(wǎng)絡(luò)信息搜索，是指互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)終端，通過(guò)特定的網(wǎng)絡(luò)搜索工具或是通過(guò)瀏覽的方式，查找并獲取信息的行為。

（三）按檢索途徑劃分：

　　直接檢索

　　間接檢索?

信息內(nèi)容分析與編碼，產(chǎn)生信息記錄及檢索標(biāo)識(shí)。組織存貯，將全部記錄按文件、數(shù)據(jù)庫(kù)等形式組成有序的信息集合。用戶提問(wèn)處理和檢索輸出。關(guān)鍵部分是信息提問(wèn)與信息集合的匹配和選擇，即對(duì)給定提問(wèn)與集合中的記錄進(jìn)行相似性比較，根據(jù)一定的匹配標(biāo)準(zhǔn)選出有關(guān)信息。它按對(duì)象分為文獻(xiàn)檢索、數(shù)據(jù)檢索和事實(shí)檢索；按設(shè)備分為手工檢索、機(jī)械檢索和計(jì)算機(jī)檢索。由一定的設(shè)備和信息集合構(gòu)成的服務(wù)設(shè)施稱為信息檢索系統(tǒng)，如穿孔卡片系統(tǒng)、聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、多媒體檢索系統(tǒng)等。信息檢索最初應(yīng)用于圖書館和科技信息機(jī)構(gòu)，后來(lái)逐漸擴(kuò)大到其他領(lǐng)域，并與各種管理信息系統(tǒng)結(jié)合在一起。與信息檢索有關(guān)的理論、技術(shù)和服務(wù)構(gòu)成了一個(gè)相對(duì)獨(dú)立的知識(shí)領(lǐng)域，是信息學(xué)的一個(gè)重要分支，并與計(jì)算機(jī)應(yīng)用技術(shù)相互交叉。?這些內(nèi)容來(lái)自于網(wǎng)上的百科知識(shí)，和書本上的有所區(qū)別，更多的講的是來(lái)源之類的信息，沒有涉及到原理那一塊。并不是說(shuō)這一部分內(nèi)容沒什么作用，對(duì)這一方向的了解就是來(lái)自于網(wǎng)絡(luò)或是圖書情報(bào)學(xué)的理解。

智能檢索或知識(shí)檢索

　　傳統(tǒng)的全文檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索，往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象，特別是在網(wǎng)絡(luò)信息時(shí)代，利用關(guān)鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典，同音詞典改善檢索效果，比如用戶查詢“計(jì)算機(jī)”，與“電腦”相關(guān)的信息也能檢索出來(lái)；進(jìn)一步還可在知識(shí)層面或者說(shuō)概念層面上輔助查詢，通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典，形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò)，給予用戶智能知識(shí)提示，最終幫助用戶獲得最佳的檢索

虛擬圖書館與網(wǎng)上信息檢索

效果，比如用戶可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇。另外，智能檢索還包括歧義信息和檢索處理，如“蘋果”，究竟是指水果還是電腦品牌，“華人”與“中華人民共和國(guó)”的區(qū)分，將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理，高效、準(zhǔn)確地反饋給用戶最需要的信息。

知識(shí)挖掘

　　主要指文本挖掘技術(shù)的發(fā)展，目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息，提取知識(shí)，滿足信息檢索的高層次需要。知識(shí)挖掘包括摘要、分類（聚類）和相似性檢索等方面。

　　自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索中，自動(dòng)摘要有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度，在信息服務(wù)中，自動(dòng)摘要有助于多種形式的內(nèi)容分發(fā)，如發(fā)往PDA、手機(jī)等。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔，是實(shí)現(xiàn)用戶個(gè)性化相關(guān)反饋的基礎(chǔ)，也可用于去重分析。自動(dòng)分類可基于統(tǒng)計(jì)或規(guī)則，經(jīng)過(guò)機(jī)器學(xué)習(xí)形成預(yù)定義分類樹，再根據(jù)文檔的內(nèi)容特征將其歸類；自動(dòng)聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。自動(dòng)分類（聚類）在信息組織、導(dǎo)航方面非常有用。

異構(gòu)信息整合檢索和全息檢索

　　在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下，信息檢索系統(tǒng)的開放性和集成性要求越來(lái)越高，需要能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息，這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn)，包括支持各種格式化文件，如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索；支持多語(yǔ)種信息的檢索；支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理；和關(guān)系數(shù)據(jù)庫(kù)檢索的無(wú)縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索，從實(shí)踐來(lái)講，發(fā)展到異構(gòu)信息整合檢索的層面，基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待取得進(jìn)一步突破。

　　另外，從工程實(shí)踐角度，綜合采用內(nèi)存和外部存儲(chǔ)的多級(jí)緩存、分布式群集和負(fù)載均衡技術(shù)也是信息檢索技術(shù)發(fā)展的重要方面。

　　隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展，企業(yè)和個(gè)人可獲取、需處理的信息量呈爆發(fā)式增長(zhǎng)，而且其中絕大部分都是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。內(nèi)容管理的重要性日益凸現(xiàn)，而信息檢索作為內(nèi)容管理的核心支撐技術(shù)，隨著內(nèi)容管理的發(fā)展和普及，亦將應(yīng)用到各個(gè)領(lǐng)域，成為人們?nèi)粘９ぷ魃畹拿芮谢锇椤?/p>

檢索原因

　　1.信息檢索是獲取知識(shí)的捷徑

　　美國(guó)普林斯頓大學(xué)物理系一個(gè)年輕大學(xué)生名叫約瀚·菲利普，在圖書館里借閱有關(guān)公開資料，僅用四個(gè)月時(shí)間，就畫出一張制造原子彈的設(shè)計(jì)圖。他設(shè)計(jì)的原子彈，體積小(棒球大小)、重量輕(7.5公斤)、威力大(相當(dāng)廣島原子彈3/4的威力)，造價(jià)低(當(dāng)時(shí)僅需兩千美元)，致使一些國(guó)家（法國(guó)、巴基斯坦等）紛紛致函美國(guó)大使館，爭(zhēng)相購(gòu)買他的設(shè)計(jì)拷貝。

　　二十世紀(jì)七十年代，美國(guó)核專家泰勒收到一份題為《制造核彈的方法》的報(bào)告，他被報(bào)告精湛的技術(shù)設(shè)計(jì)所吸引，驚嘆地說(shuō)：“至今我看到的報(bào)告中，它是最詳細(xì)、最全面的一份。

信息檢索系統(tǒng)的體系結(jié)構(gòu)

告的全部信息來(lái)源又都是從圖書館那些極為平常的、完全公開的圖書資料中所獲得的。

　　2 .信息檢索是科學(xué)研究的向?qū)?/p>

　　美國(guó)在實(shí)施“阿波羅登月計(jì)劃”中，對(duì)阿波羅飛船的燃料箱進(jìn)行壓力實(shí)驗(yàn)時(shí)，發(fā)現(xiàn)甲醇會(huì)引起鈦應(yīng)力腐蝕，為此付出了數(shù)百萬(wàn)美元來(lái)研究解決這一問(wèn)題，事后查明，早在十多年前，就有人研究出來(lái)了，方法非常簡(jiǎn)單，只需在甲醇中加入2%的水即可，檢索這篇文獻(xiàn)的時(shí)間是10多分鐘。在科研開發(fā)領(lǐng)域里，重復(fù)勞動(dòng)在世界各國(guó)都不同程度地存在。據(jù)統(tǒng)計(jì)，美國(guó)每年由于重復(fù)研究所造成的損失，約占全年研究經(jīng)費(fèi)的38%，達(dá)20億美元之巨。日本有關(guān)化學(xué)化工方面的研究課題與國(guó)外重復(fù)的，大學(xué)占40%、民間占47%、國(guó)家研究機(jī)構(gòu)占40%，平均重復(fù)率在40%以上；中國(guó)的重復(fù)率則更高。專業(yè)研究的程序

　　3.信息檢索是終身教育的基礎(chǔ)

　　學(xué)校培養(yǎng)學(xué)生的目標(biāo)是學(xué)生的智能：包括自學(xué)能力、研究能力、思維能力、表達(dá)能力和組織管理能力。

　　UNESCO提出，教育已擴(kuò)大到一個(gè)人的整個(gè)一生，認(rèn)為唯有全面的終身教育才能夠培養(yǎng)完善的人，可以防止知識(shí)老化，不斷更新知識(shí)，適應(yīng)當(dāng)代信息社會(huì)發(fā)展的需求。

四個(gè)要素

　　1?信息檢索的前提----信息意識(shí)

　　所謂信息意識(shí)，是人們利用信息系統(tǒng)獲取所需信息的內(nèi)在動(dòng)因，具體表現(xiàn)為對(duì)信息的敏感性、選擇能力和消化吸收能力，從而判斷該信息是否能為自己或某一團(tuán)體所利用，是否能解決現(xiàn)實(shí)生活實(shí)踐中某一特定問(wèn)題等一系列的思維過(guò)程。信息意識(shí)含有信息認(rèn)知、信息情感和信息行為傾向三個(gè)層面。

　　信息素養(yǎng)（素質(zhì)）（Information Literacy）一詞最早是由美國(guó)信息產(chǎn)業(yè)協(xié)會(huì)主席Paul Zurkowski在1974年給美國(guó)政府的報(bào)告中提出來(lái)的。他認(rèn)為：信息素質(zhì)是人們?cè)诠ぷ髦羞\(yùn)用信息、學(xué)習(xí)信息技術(shù)、利用信息解決問(wèn)題的能力。

　　2.信息檢索的基礎(chǔ)----信息源

　　信息源的構(gòu)成

　　按文獻(xiàn)載體分----印刷型、縮微型、機(jī)讀型、聲像型

　　按文獻(xiàn)內(nèi)容和加工程度分--一次信息、二次信息、三次信息

　　按出版形式分----圖書、報(bào)刊、研究報(bào)告、會(huì)議信息、專利信?息、統(tǒng)計(jì)數(shù)據(jù)、政府出版物、檔案、學(xué)位論文、標(biāo)準(zhǔn)信息（它們被認(rèn)為是十大信息源，其中后8種被稱為特種文獻(xiàn)。教育信息資源主要分布在教育類圖書、專業(yè)期刊、學(xué)位論文等不同類型的出版物中）

　　3.信息檢索的核心----信息獲取能力

　　1．了解各種信息來(lái)源

　　2．掌握檢索語(yǔ)言

　　3．?熟練使用檢索工具

　　4．能對(duì)檢索效果進(jìn)行判斷和評(píng)價(jià)

　　判斷檢索效果的兩個(gè)指標(biāo)：

　　查全率=被檢出相關(guān)信息量/相關(guān)信息總量（%）

　　查準(zhǔn)率=被檢出相關(guān)信息量/被檢出信息總量（%）

　　4.信息檢索的關(guān)鍵：信息利用

　　社會(huì)進(jìn)步的過(guò)程就是一個(gè)知識(shí)不斷的生產(chǎn)—流通—再生產(chǎn)的過(guò)程。

　　為了全面、有效地利用現(xiàn)有知識(shí)和信息，在學(xué)習(xí)、科學(xué)研究和生

簡(jiǎn)單的信息檢索搜索

活過(guò)程中，信息檢索的時(shí)間比例逐漸增高。

　　獲取學(xué)術(shù)信息的最終目的是通過(guò)對(duì)所得信息的整理、分析、歸納和總結(jié)，根據(jù)自己學(xué)習(xí)、研究過(guò)程中的思考和思路，將各種信息進(jìn)行重組，船造出新的知識(shí)和信息，從而達(dá)到信息激活和增值的目的。

檢索方法

　　信息檢索方法包括：普通法、追溯法和分段法。1.普通法是利用書目、文摘、索引等檢索工具進(jìn)行文獻(xiàn)資料查找的方法。運(yùn)用這種方法的關(guān)鍵在于熟悉各種檢索工具的性質(zhì)、特點(diǎn)和查找過(guò)程，從不同角度查找。普通法又可分為順檢法和倒檢法。順檢法是從過(guò)去到現(xiàn)在按時(shí)間順序檢索，費(fèi)用多、效率低；倒檢法是逆時(shí)間順序從近期向遠(yuǎn)期檢索，它強(qiáng)調(diào)近期資料，重視當(dāng)前的信息，主動(dòng)性

相關(guān)書籍

強(qiáng)，效果較好。

　　2.追溯法是利用已有文獻(xiàn)所附的參考文獻(xiàn)不斷追蹤查找的方法，在沒有檢索工具或檢索工具不全時(shí)，此法可獲得針對(duì)性很強(qiáng)的資料，查準(zhǔn)率較高，查全率較差。

　　3．分段法是追溯法和普通法的綜合，它將兩種方法分期、分段交替使用，直至查到所需資料為止。

最后的總結(jié)有點(diǎn)亂，來(lái)自于網(wǎng)上的資料摘抄的，自己讀過(guò)幾篇，也同時(shí)修改了一下，對(duì)于簡(jiǎn)單的介紹，沒什么實(shí)質(zhì)性的內(nèi)容，也就看看，一開始寫的不錯(cuò)的，可以體會(huì)到很深的東西，沒幾年的功底是寫不出來(lái)滴。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

阳春市| 姜堰市| 天台县| 沧源| 长治县| 叶城县| 永新县| 南乐县| 建瓯市| 方山县| 疏勒县| 栖霞市| 阳山县| 乡宁县| 普安县| 嘉定区| 龙江县| 尚义县| 四会市| 吉安市| 越西县| 孟村| 新巴尔虎左旗| 竹山县| 阿拉善左旗| 乌鲁木齐县| 海丰县| 北海市| 临西县| 广平县| 时尚| 肃南| 通渭县| 公主岭市| 宝山区| 新宾| 南通市| 南川市| 通榆县| 阳东县| 宣化县|