本文作者傅源,作為語(yǔ)智云帆科技有限公司資訊類(lèi)產(chǎn)品經(jīng)理,今天下場(chǎng)為各位老師講解建立語(yǔ)料庫(kù)的過(guò)程當(dāng)中,首當(dāng)其沖就會(huì)面臨得問(wèn)題:我需要建立一個(gè)什么樣的語(yǔ)料庫(kù)來(lái)助力我的研究?
根據(jù)《語(yǔ)料庫(kù)應(yīng)用教程》,語(yǔ)料庫(kù)主要的類(lèi)型有10類(lèi),但這10類(lèi)語(yǔ)料庫(kù)并不是完全相互獨(dú)立,不是完全沒(méi)有交叉重疊的分類(lèi)。對(duì)語(yǔ)料庫(kù)進(jìn)行分類(lèi)是有多種維度。老師們比較熟悉和常作為項(xiàng)目建立的語(yǔ)料庫(kù)種類(lèi) -- 學(xué)習(xí)者語(yǔ)料庫(kù)就是區(qū)別于本族語(yǔ)者語(yǔ)料庫(kù),從語(yǔ)言變體維度出發(fā)分類(lèi)的。若按語(yǔ)言屬性,又可分為單語(yǔ)、平行/雙語(yǔ)、多語(yǔ)語(yǔ)料庫(kù)。
1.通用語(yǔ)料庫(kù)
力求最好地代表一種語(yǔ)言的全貌而建成的語(yǔ)料庫(kù)。該類(lèi)語(yǔ)料庫(kù)在最初就要設(shè)定好各語(yǔ)言變體在整個(gè)語(yǔ)料庫(kù)中所占比例,已達(dá)到客觀描述語(yǔ)言全貌的目的。該類(lèi)語(yǔ)料庫(kù)可以在科研項(xiàng)目中用來(lái)作為參照語(yǔ)料庫(kù),體現(xiàn)出某些專(zhuān)門(mén)語(yǔ)料庫(kù)的特點(diǎn)。此外,通用語(yǔ)料庫(kù)容量龐大,往往可以過(guò)濾出特定屬性的文本,形成多個(gè)專(zhuān)門(mén)用途的子語(yǔ)料庫(kù)。比如,科技學(xué)術(shù)語(yǔ)料庫(kù),新聞?wù)Z料庫(kù)等等。
英語(yǔ)通用語(yǔ)料庫(kù)的典范--英語(yǔ)國(guó)家語(yǔ)料庫(kù), 網(wǎng)址如下:
2.專(zhuān)用語(yǔ)料庫(kù)
專(zhuān)用語(yǔ)料庫(kù)相對(duì)于通用語(yǔ)料庫(kù),是處于特定的研究目的,由某領(lǐng)域語(yǔ)料集結(jié)而成。該語(yǔ)料庫(kù)可以集中反映出該領(lǐng)域的語(yǔ)言特點(diǎn),并且對(duì)于提取專(zhuān)業(yè)領(lǐng)域術(shù)語(yǔ)、編制專(zhuān)門(mén)領(lǐng)域工具書(shū)等進(jìn)一步科教研舉措,有很重要的支持作用。而利用專(zhuān)用語(yǔ)料庫(kù)進(jìn)行的翻譯或語(yǔ)言學(xué)研究,可以通過(guò)對(duì)比通用語(yǔ)料庫(kù),分析特定領(lǐng)域語(yǔ)言特點(diǎn)的特點(diǎn)。
漢語(yǔ)國(guó)際教育技術(shù)研發(fā)中心的HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)就是一個(gè)專(zhuān)用語(yǔ)料庫(kù)的例子,一個(gè)可能的研究方向:通過(guò)分析HSK漢語(yǔ)考試中考生作文的用詞,可以了解到外國(guó)學(xué)生掌握較好的中文詞匯,對(duì)比中文通用語(yǔ)料庫(kù),就可以得出其掌握熟度較低的詞匯。
網(wǎng)址如下:
http://202.112.195.192:8060/hsk/login.asp
3.共時(shí)語(yǔ)料庫(kù)
由同一時(shí)代的語(yǔ)言使用樣本構(gòu)成的語(yǔ)料庫(kù)稱(chēng)為共時(shí)語(yǔ)料庫(kù)。共時(shí)語(yǔ)料庫(kù)是相對(duì)歷時(shí)語(yǔ)料庫(kù)而言的。基于不同時(shí)代的語(yǔ)料所建成的多個(gè)共時(shí)語(yǔ)料庫(kù)可以構(gòu)成一個(gè)歷時(shí)語(yǔ)料庫(kù)。
古漢語(yǔ)語(yǔ)料庫(kù):http://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語(yǔ)語(yǔ)料庫(kù)包含以下五個(gè)語(yǔ)料庫(kù),其中上古漢語(yǔ)、中古漢語(yǔ)(含大藏經(jīng))、近代漢語(yǔ)這三個(gè)語(yǔ)料庫(kù)即可看做是三個(gè)共時(shí)語(yǔ)料庫(kù)。而古漢語(yǔ)語(yǔ)料庫(kù)本身就可看做是一個(gè)歷時(shí)語(yǔ)料庫(kù)。
4.歷時(shí)語(yǔ)料庫(kù)
收集不同時(shí)代的語(yǔ)言使用樣本構(gòu)成的語(yǔ)料庫(kù)稱(chēng)為歷時(shí)語(yǔ)料庫(kù)。歷時(shí)語(yǔ)料庫(kù)是觀察和研究語(yǔ)言變化時(shí)常用的工具。
赫爾辛基英語(yǔ)文本語(yǔ)料庫(kù)(Helsinki Corpus of English Texts)是一個(gè)典型的英語(yǔ)歷時(shí)語(yǔ)料庫(kù),其語(yǔ)料橫跨 850-1720年,共計(jì)1600萬(wàn)詞。
5.口語(yǔ)語(yǔ)料庫(kù)
口語(yǔ)語(yǔ)料庫(kù)嘗嘗包括由口語(yǔ)轉(zhuǎn)寫(xiě)而來(lái)的文本,又是也包括語(yǔ)音文件??谡Z(yǔ)語(yǔ)料庫(kù)的構(gòu)建比筆語(yǔ)語(yǔ)料庫(kù)多了轉(zhuǎn)寫(xiě)的步驟,并且在這一步驟中的很多設(shè)定帶來(lái)很多討論。比如是否對(duì)于口語(yǔ)中無(wú)意義的停頓詞做轉(zhuǎn)寫(xiě),如果出現(xiàn)停頓是否也需要轉(zhuǎn)寫(xiě),轉(zhuǎn)寫(xiě)的話長(zhǎng)度是否也需要標(biāo)明。這些設(shè)定都需要在建庫(kù)之前針對(duì)研究課題類(lèi)型做好定義。
暨南大學(xué)華文學(xué)院口語(yǔ)語(yǔ)料庫(kù),語(yǔ)料為留學(xué)生的中文口語(yǔ)樣本:
https://huayu.jnu.edu.cn/corpus5/Default.aspx
6.筆語(yǔ)語(yǔ)料庫(kù)
筆語(yǔ)語(yǔ)料庫(kù)取材于書(shū)面語(yǔ),通常包括書(shū)籍、報(bào)刊、書(shū)信、學(xué)術(shù)論文等常見(jiàn)筆語(yǔ)形式。相對(duì)于口語(yǔ),筆語(yǔ)語(yǔ)料更容易搜集,筆語(yǔ)語(yǔ)料庫(kù)相對(duì)容量會(huì)更大。
7.本族語(yǔ)者語(yǔ)料庫(kù)
該類(lèi)語(yǔ)料庫(kù)中的樣本為本族語(yǔ)者的語(yǔ)言使用。用來(lái)對(duì)照非本族語(yǔ)者或者學(xué)習(xí)者語(yǔ)言,可以得出學(xué)習(xí)者語(yǔ)言使用特點(diǎn)。?
英式英語(yǔ)本族語(yǔ)語(yǔ)料庫(kù)?British National Corpus (BNC):
https://www.english-corpora.org/bnc/
還有一篇論文《基于語(yǔ)料庫(kù)的中國(guó)英語(yǔ)學(xué)習(xí)者和英語(yǔ)本族語(yǔ)者?介詞from的搭配差異研究》,作者姜珊、楊忠,就體現(xiàn)了很明確的一個(gè)對(duì)學(xué)習(xí)者用詞特點(diǎn)的研究。
https://wenku.baidu.com/view/8e568f6d0640be1e650e52ea551810a6f524c896.html
8.學(xué)習(xí)者語(yǔ)料庫(kù)
由非本族語(yǔ)學(xué)習(xí)者語(yǔ)言使用樣本構(gòu)成的語(yǔ)料庫(kù)。其中較大的兩個(gè)分類(lèi)為口語(yǔ)語(yǔ)料庫(kù)和筆語(yǔ)語(yǔ)料庫(kù),用于分別體現(xiàn)學(xué)習(xí)者在口語(yǔ)和筆語(yǔ)上的特點(diǎn)。學(xué)習(xí)者語(yǔ)料庫(kù)中對(duì)于文本的標(biāo)注,除了常用詞性標(biāo)注、語(yǔ)義標(biāo)注還可以有錯(cuò)誤標(biāo)注,當(dāng)中又可以劃分為拼寫(xiě)錯(cuò)誤、語(yǔ)法錯(cuò)誤、時(shí)態(tài)錯(cuò)誤等。
中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)?CLEC:
https://corpus4u.org/forums/74/
9.單語(yǔ)語(yǔ)料庫(kù)
單語(yǔ)語(yǔ)料庫(kù)中的語(yǔ)料來(lái)自于同一種語(yǔ)言,如英語(yǔ)語(yǔ)料庫(kù)、漢語(yǔ)語(yǔ)料庫(kù)等。
10.平行/雙語(yǔ)語(yǔ)料庫(kù)和多語(yǔ)語(yǔ)料庫(kù)
平行/雙語(yǔ)語(yǔ)料庫(kù)中的語(yǔ)料來(lái)自于兩種語(yǔ)言,而且相互對(duì)應(yīng),即一種語(yǔ)言是另一種語(yǔ)言的譯文。構(gòu)建雙于語(yǔ)料庫(kù)中的重要環(huán)節(jié)試兩種語(yǔ)言間的對(duì)齊,通常為句對(duì)齊或段對(duì)齊。雙語(yǔ)語(yǔ)料庫(kù)對(duì)于翻譯研究與機(jī)器翻譯研究有重要意義。多語(yǔ)語(yǔ)料庫(kù)中的語(yǔ)言使用樣本取自于多種語(yǔ)言。如Europarl Parallel Corpus (European Parliament Proceedings Parallel Corpus)收集了歐洲議會(huì)的多語(yǔ)言文集,將11種語(yǔ)言進(jìn)行對(duì)齊處理。該語(yǔ)料庫(kù)可以從網(wǎng)上免費(fèi)下載,https://www.statmt.org/europarl/