(一) 國(guó)家語委
1國(guó)家語委現(xiàn)代漢語語料庫http://www.cncorpus.org/
現(xiàn)代漢語通用平衡語料庫現(xiàn)在重新開放網(wǎng)絡(luò)查詢了。重開后的在線檢索速度更快,功能更強(qiáng),同時(shí)提供檢索結(jié)果下載?,F(xiàn)代漢語語料庫在線提供免費(fèi)檢索的語料約2000萬字,為分詞和詞性標(biāo)注語料。
2古代漢語語料庫http://www.cncorpus.org/login.aspx
網(wǎng)站現(xiàn)在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同時(shí),還提供了分詞、詞性標(biāo)注軟件、詞頻統(tǒng)計(jì)、字頻統(tǒng)計(jì)軟件,基于國(guó)家語委語料庫的字頻詞頻統(tǒng)計(jì)結(jié)果和發(fā)布的詞表等,以供學(xué)習(xí)研究語言文字的老師同學(xué)使用。
(二) 北京大學(xué)計(jì)算語言學(xué)研究所
1《人民日?qǐng)?bào)》標(biāo)注語料庫http://www.icl.pku.edu.cn/icl_res/
《人民日?qǐng)?bào)》標(biāo)注語料庫中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日?qǐng)?bào)》新聞信息中心公開提供許可使用權(quán)。其中一個(gè)月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。
(三) 北京語言大學(xué)
漢語國(guó)際教育技術(shù)研發(fā)中心:HSK動(dòng)態(tài)作文語料庫http://202.112.195.192:8060/hsk/login.asp
語言研究所:北京口語語料查詢系統(tǒng)(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)臺(tái)灣中央研究院
中研院語料庫WWW版所有功能均開放使用,但為防主機(jī)資源耗用過劇及顧及數(shù)據(jù)傳輸之實(shí)際限制,暫以檢索結(jié)果為限制的條件:院內(nèi)檢索限兩萬行數(shù)據(jù),院外檢索限兩千行數(shù)據(jù)。
1現(xiàn)代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/
專門針對(duì)語言分析而設(shè)計(jì)的,每個(gè)文句都依詞斷開,并標(biāo)示詞類。語料的搜集也盡量做到現(xiàn)代漢語分配在不同的主題和語式上,是現(xiàn)代漢語無窮多的語句中一個(gè)代表性的樣本?,F(xiàn)有語料庫主要針對(duì)語言分析而設(shè)計(jì),由中央研究院信息所、語言所詞庫小組完成,內(nèi)含有簡(jiǎn)介、使用說明,現(xiàn)行的語料庫是4.0的版本。
2古漢語語料庫http://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語語料庫包含以下五個(gè)語料庫: 上古漢語、中古漢語(含大藏經(jīng))、近代漢語、其他、出土文獻(xiàn)。部分?jǐn)?shù)據(jù)取自史語所漢籍全文數(shù)據(jù)庫,故兩者間略有重迭。此語料庫之出土文獻(xiàn)語料庫,全部取自史語所漢簡(jiǎn)小組所制作的數(shù)據(jù)庫。
3近代漢語標(biāo)記語料庫http://www.sinica.edu.tw/Early_Mandarin/
為應(yīng)漢語史研究需求而建構(gòu)的語料庫。目前素語料庫所搜集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)大部分的重要語料,并己陸續(xù)開放使用;在標(biāo)記語料庫方面,上古漢語及近代漢語都已有部分語料完成標(biāo)注的工作,并視結(jié)果逐步提供上線檢索。
4樹圖數(shù)據(jù)庫http://treebank.sinica.edu.tw/
「中文句結(jié)構(gòu)樹資料庫」(Sinica Treebank Version 3.0) 包含了6個(gè)檔案,61,087個(gè)中文樹圖,361,834個(gè)詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經(jīng)由電腦剖析成結(jié)構(gòu)樹,並加以人工修正、檢驗(yàn)後所得的成果。在中文句結(jié)構(gòu)樹中,我們標(biāo)示了中文句語意和語法的訊息。此一「中文句結(jié)構(gòu)樹資料庫」目前開放網(wǎng)上檢索及資料移轉(zhuǎn),以供學(xué)者專家在中文句法、語意關(guān)係研究參考之用。另有1000個(gè)句結(jié)構(gòu)樹開放下載。
5中英雙語知識(shí)本體詞網(wǎng)http://bow.sinica.edu.tw/
結(jié)合詞網(wǎng),知識(shí)本體,與領(lǐng)域標(biāo)記的詞匯知識(shí)庫。
6搜文解字http://words.sinica.edu.tw/
包含「搜詞尋字」、「文學(xué)之美」、「游戲解惑」、「古文字的世界」四個(gè)單元,可由部件、部首、字、音、詞互查,并可查詢?cè)谒臅?、老、莊、唐詩中的出處,及直接連結(jié)到出處,閱讀原文。
7文國(guó)尋寶記http://www.sinica.edu.tw/wen/
在搜文解字的基礎(chǔ)之上,以華語文學(xué)習(xí)者為對(duì)象,進(jìn)一步將字、詞、音的檢索功能與國(guó)編、華康、南一等三種版本的國(guó)小國(guó)語課本結(jié)合,與唐詩三百首、宋詞三百首、紅樓夢(mèng)、水滸傳等文學(xué)典籍結(jié)合,提供網(wǎng)絡(luò)上國(guó)語文學(xué)習(xí)的素材。
8唐詩三百首http://cls.admin.yzu.edu.tw/300/
以國(guó)中、小學(xué)學(xué)生為主要使用對(duì)象,提供吟唱、繪畫、書法等多媒體數(shù)據(jù),文字?jǐn)?shù)據(jù)報(bào)含作者生平、讀音標(biāo)注、翻譯、批注、評(píng)注、典故出處等資料;檢索點(diǎn)包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結(jié)果可以列出全文,并選擇標(biāo)示相關(guān)之文字及多媒體數(shù)據(jù)。并提供了一套可以自動(dòng)檢查格律、韻腳、批改的「依韻入詩格律自動(dòng)檢測(cè)索引教學(xué)系統(tǒng)」,協(xié)助孩子們依韻作詩,協(xié)助教師批改習(xí)作。
9漢籍電子文獻(xiàn)http://www.sinica.edu.tw/~tdbproj/handy1/
包含整部25史 整部阮刻13經(jīng)、超過2000萬字的臺(tái)灣史料、1000萬字的大正藏以及其他典籍。
10紅樓夢(mèng)網(wǎng)絡(luò)教學(xué)研究數(shù)據(jù)中心http://cls.hs.yzu.edu.tw/HLM/home.htm
元智大學(xué)中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)研究室所開發(fā)的「網(wǎng)絡(luò)展書讀—中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)」,為研究中心負(fù)責(zé)人羅鳳珠老師主持,紅樓夢(mèng)是其中一個(gè)子系統(tǒng),其他還包括善本書、詩經(jīng)、唐宋詩詞、作詩填詞等子系統(tǒng)。此網(wǎng)站為國(guó)內(nèi)Internet最大中國(guó)文學(xué)研究數(shù)據(jù)庫,提供用戶最完整的中國(guó)文學(xué)研究數(shù)據(jù)。
(五)中國(guó)傳媒大學(xué)
1中國(guó)傳媒大學(xué)文本語料庫檢索系統(tǒng)
http://ling.cuc.edu.cn/RawPub/
2在線分詞標(biāo)注系統(tǒng)
http://ling.cuc.edu.cn/cucseg/
3新詞語研究資源庫
http://ling.cuc.edu.cn/newword/web/index.asp
4音視頻語料檢索系統(tǒng)
http://ling.cuc.edu.cn/mmcpub(目前系統(tǒng)正在升級(jí)改造中)
(六)哈爾濱工業(yè)大學(xué)
1哈工大信息檢索研究室對(duì)外共享語料庫資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語料庫為漢英雙語語料庫,10萬對(duì)齊雙語句對(duì),文本文件格式,同義詞詞林?jǐn)U展版,77,343條詞語,秉承《同義詞詞林》的編撰風(fēng)格,同時(shí)采用五級(jí)編碼體系,多文檔自動(dòng)文摘語料庫,40個(gè)主題,文本文件格式,同一主題下是同一事件的不同報(bào)道,漢語依存樹庫,不帶關(guān)系5萬句,帶關(guān)系1萬句,LTML化,分詞、詞性、句法部分人工標(biāo)注,可以圖形化查看,問答系統(tǒng)問題集,6264句,已標(biāo)注問題類型,LTML化,分詞、詞性、句法、詞義、淺層語義等程序處理得到,單文檔自動(dòng)文摘語料庫,211篇,分不同體裁,LTML化,文摘句標(biāo)注,分詞、詞性、句法、詞義、淺層語義、文本分類、指代消解等程序處理得到。
(七)清華大學(xué)
漢語均衡語料庫TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
(八)香港教育學(xué)院
語言資訊科學(xué)中心及其語料庫實(shí)驗(yàn)室http://www.livac.org/index.php?lang=sc
自1995年開始,以「共時(shí)」方式處理了超常的大量漢語語料,通過精密的技術(shù),累積眾多精確的統(tǒng)計(jì)數(shù)據(jù),建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時(shí)語料庫。本語料庫最大特點(diǎn)是采用「共時(shí)性」視窗模式,嚴(yán)謹(jǐn)?shù)囟〞r(shí)分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關(guān)的信息科技發(fā)展與應(yīng)用。此外,語料庫又兼顧了「歷時(shí)性」,方便各方人士客觀地觀察與研究視窗內(nèi)的有代表性的語言發(fā)展全面動(dòng)態(tài)。
(九)中國(guó)科學(xué)院計(jì)算技術(shù)研究所
跨語言語料庫http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級(jí))
目前的雙語句對(duì)數(shù)據(jù)庫中有約180,000對(duì)已對(duì)齊的中英文句子。 本數(shù)據(jù)庫支持簡(jiǎn)單的中英文查詢服務(wù)。 查詢結(jié)果包括句對(duì)編號(hào)、中文句子、英文句子、句對(duì)來源。
(十)中文語言資源聯(lián)盟
中文語言資源聯(lián)盟http://www.chineseldc.org/
(Chinese Linguistic Data Consortium,簡(jiǎn)稱ChineseLDC)的建立。ChineseLDC是吸收國(guó)內(nèi)高等院校,科研機(jī)構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當(dāng)今中文信息處理水平的,通用的中文語言信息知識(shí)庫。ChineseLDC 將建設(shè)和收集中文信息處理所需要的各種語言資源,包括詞典,語料庫,數(shù)據(jù),工具等。在建立和收集語言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶,并且針對(duì)中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評(píng)測(cè)機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。(之所以排名這么后,是因?yàn)槭菄?guó)家出錢的項(xiàng)目,卻沒有什么免費(fèi)資源。)
國(guó)外語料庫資源(鏈接皆可用,內(nèi)有語料庫簡(jiǎn)介,會(huì)持續(xù)更新,最新更新日期11-05-10)
1. 楊百翰大學(xué)
楊百翰大學(xué)語料庫http://view.byu.edu/楊百翰大學(xué)的Mark Davies教授開發(fā)的語料庫統(tǒng)一檢索平臺(tái),整合了美國(guó)當(dāng)代英語語料庫、美國(guó)歷史英語語料庫、美國(guó)時(shí)代雜志語料庫、BNC、西班牙語料庫、葡萄牙語料庫等6個(gè)語料庫的資源。該網(wǎng)站每月有60,000人的使用量,也許是目前最廣泛使用的網(wǎng)絡(luò)語料庫。
2. 聯(lián)合國(guó)官方資料庫
聯(lián)合國(guó)文件數(shù)據(jù)庫(提供80萬份六種語言平行文檔)http://documents.un.org/simple.asp
本文件系統(tǒng)包括了1993年以來聯(lián)合國(guó)印發(fā)的所有正式文件。不過,聯(lián)合國(guó)的早期文件也逐日添加到本系統(tǒng)。本文件系統(tǒng)也提供從1946年以來聯(lián)合國(guó)大會(huì)、安全理事會(huì)、經(jīng)濟(jì)及社會(huì)理事會(huì)和托管理事會(huì)通過的所有決議。本系統(tǒng)不提供新聞稿、聯(lián)合國(guó)出版物、聯(lián)合國(guó)條約匯編或新聞部印發(fā)的新聞材料。由日本捐贈(zèng)的3萬多份數(shù)字化文件已被增添進(jìn)正式文件系統(tǒng)。
3. 蘭開斯特大學(xué)
蘭開斯特漢語語料庫 (LCMC) http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
應(yīng)學(xué)術(shù)界對(duì)免費(fèi)對(duì)公眾開放的平衡的現(xiàn)代漢語語料庫的需求的情況下籌建的。 LCMC 語料庫是由蘭開斯特大學(xué)語言學(xué)系承擔(dān)的并得到英國(guó)經(jīng)社研究委員會(huì)資助(項(xiàng)目代號(hào):RES-000-220135)的研究項(xiàng)目。 LCMC語料庫是與 Freiburg-LOB Corpus of British English (即FLOB)平行對(duì)應(yīng)的漢語語料庫,它有助于我們從事漢語的單語和英漢雙語的對(duì)比研究。通過該網(wǎng)址可以免費(fèi)索取LCMC預(yù)料用于研究之用。http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
4. 語言開放典藏社群(OLAC)
OLAC(Open Language Archives Community)http://search.language-archives.org/index.html語言開放典藏社群是由個(gè)人或組織所組成的國(guó)際性合作協(xié)會(huì)。許多種類的協(xié)會(huì)需要語言資源,如:語言學(xué)家、工程師、教師、演說家,也有許多機(jī)構(gòu)提供片段性的架構(gòu),如:文件管理器、軟件開發(fā)者和出版者。理論上,用戶希望透過單一接口便可以取得任何需要的資源,其中資源種類涵蓋:①資料(Data):任何描述語言的相關(guān)信息;②工具(Tool):有助于創(chuàng)造、瀏覽、查詢或使用語言數(shù)據(jù)的計(jì)算器資源;③建議(Advice):譬如,告知使用者什么資源具有高可靠度?在此情境中哪一種工具適合采用?當(dāng)新的數(shù)據(jù)衍生出時(shí)該如何創(chuàng)造?但實(shí)際上,卻有著語言資源散布在不同的網(wǎng)站、使用者無法得到想要的資源、語言資源在不同網(wǎng)站擁有不同名字(Name)造成召回率(recallrate)低,在其他領(lǐng)域有相同意義,造成正確率低(precision rate)、許多語言資源并非以文字為基礎(chǔ)、不確定是否有建議適當(dāng)軟件,以及所提出的建議是否中肯…等問題。OLAC由此誕生。藉由下列步驟進(jìn)行創(chuàng)造世界性語言資源的虛擬圖書館:針對(duì)語言資源數(shù)字典藏發(fā)展一致性的實(shí)踐指引;發(fā)展網(wǎng)絡(luò)上具有互操作性且提供存取相關(guān)語言資源的儲(chǔ)存器(Repositories)和服務(wù)中心。簡(jiǎn)介可以參看http://140.109.18.114/blog/?p=1049
5. SKETCHENGINE多語言語料庫
www.sketchengine.co.uk
每個(gè)郵箱可以注冊(cè)一次,免費(fèi)期是一個(gè)月,免費(fèi)期過了就再注冊(cè)一個(gè)郵箱,再注冊(cè)一次。其中漢語語料庫是沒有加工的生語料庫,使用價(jià)值不大。關(guān)鍵是其中的英語語料庫實(shí)際上是原來要付費(fèi)才能使用的BNC,可以好好利用。
?
6. COCA———美國(guó)當(dāng)代英語語料庫(Corpus of Contemporary A2merican English)
http://www.americancorpus.org/
由美國(guó)B righam Young University的M ark Davies教授開發(fā)的高達(dá)3.6億詞匯的美國(guó)最新當(dāng)代英語語料庫,是當(dāng)今世界上最大的英語平衡語料庫。與其它語料庫不同的是它是免費(fèi)在線供大家使用,給全世界英語學(xué)習(xí)者帶來了福音,是不可多得的一個(gè)英語學(xué)習(xí)寶庫,也是觀察美國(guó)英語使用和變化的一個(gè)絕佳窗口。
(以上來自:http://blog.sina.com.cn/gjxyxkgy)
國(guó)內(nèi)外語料庫建設(shè)一覽
北京大學(xué)語言信息工程系捷譯雙語語料庫Web對(duì)齊工具(自動(dòng)+手動(dòng))開放注冊(cè)
訪問地址在 http://aligner.pkucat.com
文檔:http://aligner.pkucat.net/doc/html/
如果有需要者可以給 yjs@pkucat.com 老師寫信申請(qǐng),說明身份和理由即可。
http://bbs.pkucat.com/modcp.php?action=moderate&op=members
已證實(shí)可用的英漢平行語料庫(部分)
--TEC
http://www.umist.ac.uk/ctis/research/research-overview.htm
翻譯語料庫方面則以英國(guó)曼徹斯特大學(xué)科技學(xué)院(UMIST) 翻譯研究中心1995年創(chuàng)建的世界上第一個(gè)翻譯語料庫( Translational EnglishCorpus , TEC) 最為著名。該語料庫主要收集從各國(guó)語言翻譯成英語的文本,目前已有上千萬詞的語料(目標(biāo)是5 千萬詞) ,分小說(約占80 %) 傳記、報(bào)紙和期刊4 個(gè)子庫。它并不要求必須雙語對(duì)齊。
該庫不僅對(duì)語料進(jìn)行了附碼標(biāo)注,還帶有許多超語言信息的標(biāo)注,如對(duì)譯者情況(包括譯者姓名、性別、民族、職業(yè)、翻譯方向等) 、翻譯方式、翻譯類型、源語、原書情況、出版社等等均一一予以標(biāo)注。
--北大雙語語料庫
北大計(jì)算語言學(xué)研究所的雙語語料庫,英漢對(duì)齊的句子已有5萬多對(duì),并開發(fā)了相應(yīng)的對(duì)齊工具和雙語語料庫管理軟件。正在此基礎(chǔ)上做漢英對(duì)照短語庫,預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條。
--中英雙語在線(CEO)測(cè)試開通
網(wǎng)址為 http://www.fleric.org.cn/ceo/
--紅樓夢(mèng)漢英平行語料庫
http://score.crpp.nie.edu.sg/hlm/index.htm
-- The Babel English-Chinese Parallel Corpus
http://www.lancs.ac.uk/fass/projects...abel/babel.htm
The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.
The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.
The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.
--上海交通大學(xué)語言工程研究所目前有JDEST,LOB,BROWN,CLEC四個(gè)語料庫共計(jì)700萬詞可供網(wǎng)上檢索, 并可以對(duì)檢索和統(tǒng)計(jì)數(shù)據(jù)結(jié)果下載.
http://corpus.sjtu.edu.cn/WebCast/
--The Translational English Corpus (TEC)
http://www.llc.manchester.ac.uk/ctis/research/english-corpus/
http://ronaldo.cs.tcd.ie/tec/jnlp/
--English Chinese Parallel Concordancer (E-C Concord)
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun
http://ec-concord.ied.edu.hk/paraconc/index.htm
--Academia Sinica Balanced Corpus of Modern Chinese 中央研究院現(xiàn)代漢語平衡語料庫
http://www.sinica.edu.tw/SinicaCorpus/
--Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/cor...gi-bin/conc.pl
may be changed to
http://www.lancs.ac.uk/fass/projects/corpus/LCMC/
--People's Daily 2000 corpus
some related information here
http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm
--A Parallel Corpus of Chinese Legal Texts 中國(guó)法律文件漢英平行語料庫
http://score.crpp.nie.edu.sg/law/index.htm
--語料庫語言學(xué)與英語教育教學(xué)。華南師范大學(xué)外國(guó)語言文化學(xué)院語料庫語言學(xué)研究室
http://sfs.scnu.edu.cn/corpus4u/default.aspx
語料庫工具
http://www.fleric.org.cn/crg/tools.htm 北外語料庫語言學(xué)沙龍
Beiwai Corpus Research Group (CRG)
Corpus tools developed by group members
Chi-square and loglikelihood Calculator, (卡方檢驗(yàn)和對(duì)數(shù)似然率計(jì)算工具)
TreeTagger for Windows, (語料庫詞性標(biāo)注工具TreeTagger的Windows界面)
Colligator 1.0 & 2.0, (語料庫類聯(lián)接分析工具)
PatternBuilder 1.0, (賦碼語料庫檢索輔助工具)
The Edinburgh Associative Thesaurus (EAT) for Windows,(愛丁堡聯(lián)想詞庫Windows查詢工具)
Wordlist Tools 1.0 Beta,(詞表分析工具)
My Good Old Blackboard,(我的電子黑板)
BFSU Stanford Parser 1.0,(英文自動(dòng)句法分析工具)。
BFSU Stanford POS Tagger 1.0,(英文自動(dòng)詞性賦碼工具)。
BFSU Sentence Collector 1.0,(例句提取工具)。
BFSU NewWord Marker 1.0,(生詞標(biāo)注工具)。
BFSU Sentence Segmenter 1.0,(英文自動(dòng)分句工具)。
Web Colligator。
Collocator 1.0: A collocation extraction tool,(搭配分析工具)。
Log-likelihood ratio calculator,(對(duì)數(shù)似然率計(jì)算器)。
Readability Analyzer 1.0 ,(英文文本可讀性分析工具)。
Other free corpus tools
AntConc: A free concordancer(跟WordSmith主要功能接近的語料庫索引工具)
Range: Vocabulary coverage tools(基于底表的分級(jí)詞匯測(cè)量工具)
語料庫檢索軟件Paraconc 和Multiconcord:
Paraconc由Barlow制作(該軟件的演示版可在網(wǎng)上下載),該軟件的特點(diǎn)是可以進(jìn)行多達(dá)四種語言的同時(shí)檢索,或者是一個(gè)原文的三個(gè)譯本的檢索。這一軟件的特點(diǎn)是可以靈活定義語言、索引行的大小、標(biāo)注符號(hào)的隱顯,而且支持通配符檢索。
Multiconcord也是一個(gè)在Windows窗口下運(yùn)行的軟件。這種軟件和Paraconc在檢索功能上相似,但檢索結(jié)果在呈現(xiàn)方式上不同。另外,Paraconc可以檢索純文本格式的文件;Multiconcord 則需要一個(gè)Minimark 程序來最低程度地標(biāo)記文本,如< p > (段落) 和< s > (句子)。