無(wú)意中看到一篇 COCA 語(yǔ)料庫(kù)的介紹文章,然后自己就去 http://testyourvocab.com/ 測(cè)了下詞匯,大約是 2 萬(wàn)多。

神奇的是,我在以前的英語(yǔ)學(xué)習(xí)時(shí)從沒(méi)接觸過(guò)這個(gè)目前可以說(shuō)是最知名的英語(yǔ)詞匯詞頻統(tǒng)計(jì)庫(kù),雖然目測(cè)詞匯量尚可,但是這個(gè)也不是絕對(duì)準(zhǔn)確的,因?yàn)槲覝y(cè)的時(shí)候感覺(jué)差不多認(rèn)識(shí)的單詞我就勾了 ,所以結(jié)果肯定有不少水分,而且統(tǒng)計(jì)方法還因人而異吧,我感覺(jué)我目前的詞匯應(yīng)該在 2 萬(wàn)左右。根據(jù)網(wǎng)上的論斷,這個(gè)量貌似也挺大的。雖然我從小對(duì)英語(yǔ)學(xué)習(xí)就非常感興趣,但是我印象最深的集中大量詞匯輸入還是在準(zhǔn)備出國(guó)的時(shí)候,當(dāng)然,這之前我也都是愛(ài)背單詞的,只不過(guò)都是些笨方法,主要是我比較愛(ài)看英語(yǔ)相關(guān)的東西,而遇到生詞了也會(huì)刻意去記憶,以前更是愛(ài)拿著生詞本各種記。
所以,沒(méi)接觸過(guò)這個(gè)語(yǔ)料庫(kù)我還是覺(jué)得挺驚訝的,它最有意思的一點(diǎn)就在于它的詞頻統(tǒng)計(jì),如果我們能很好的利用這個(gè)詞頻表所統(tǒng)計(jì)出來(lái)的詞匯,那對(duì)于英語(yǔ)的學(xué)習(xí)是非常高效的(我現(xiàn)在就在通過(guò)這個(gè)詞頻表進(jìn)行復(fù)習(xí)和查漏)。
所以,下面先簡(jiǎn)單介紹一下這個(gè)庫(kù)
COCA, 全稱 Corpus of Contemporary American English,網(wǎng)站是 https://corpus.byu.edu/ 它總結(jié)了英語(yǔ)國(guó)家使用頻率最高的詞匯,使用大數(shù)據(jù)的方法把 1990-2012 年美國(guó)最有代表性的報(bào)紙,雜志,小說(shuō),學(xué)術(shù),口語(yǔ)(口語(yǔ)可能是用的電視劇或者脫口秀之類的節(jié)目轉(zhuǎn)錄的)匯集起來(lái),每部分各占 1/5,生成 4.5 億單詞量語(yǔ)料庫(kù)。billions of words of data: free online accessCOCA, 全稱 Corpus of Contemporary American English,網(wǎng)站是 https://corpus.byu.edu/ 它總結(jié)了英語(yǔ)國(guó)家使用頻率最高的詞匯,使用大數(shù)據(jù)的方法把 1990-2012 年美國(guó)最有代表性的報(bào)紙,雜志,小說(shuō),學(xué)術(shù),口語(yǔ)(口語(yǔ)可能是用的電視劇或者脫口秀之類的節(jié)目轉(zhuǎn)錄的)匯集起來(lái),每部分各占 1/5,生成 4.5 億單詞量語(yǔ)料庫(kù)。
COCA詞頻表,是從眾多語(yǔ)料庫(kù)(corpus)中提取,用大數(shù)據(jù)的方法從各種文體中提取單詞,并按照單詞出現(xiàn)次數(shù)高低進(jìn)行排序的一個(gè)詞頻表。
來(lái)看一下這個(gè)數(shù)據(jù):
掌握前 500 單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 72% 的單詞;
掌握前 1000 單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 79% 的單詞;
掌握前 2000 單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 87% 的單詞;
掌握前 3000 單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 90% 的單詞;
掌握前 4000 單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 93% 的單詞;
掌握前 5000單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 94% 的單詞;
掌握前 10000單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 97% 的單詞;
掌握前 17634 單詞,現(xiàn)實(shí)生活中能認(rèn)識(shí) 99% 的單詞。
為什么學(xué)了那么多仍然不能達(dá)到 99.99%?因?yàn)橛⒄Z(yǔ)實(shí)際使用中存在大量專有名詞,比如Trump 這個(gè)單詞,在其競(jìng)選前后出現(xiàn)頻率相差極大,COCA 中除了媒體來(lái)源外的語(yǔ)料中出現(xiàn)很少,而這兩年看報(bào)紙則是想繞都繞不開(kāi)。掌握這 17634 詞后,學(xué)習(xí)一個(gè)新領(lǐng)域的英文,只要多剩下的 1% 的專有名詞,基本就不存在生詞障礙了。
其實(shí),不用完全把表背完,掌握頻率最高的一萬(wàn)多詞匯就已經(jīng)非常夠用了,在網(wǎng)上,背單詞的邊際效益是遞減的(當(dāng)然使用詞頻表來(lái)背就可以使邊際效益最大化),所以,對(duì)于那些迫切希望可以看懂更多英語(yǔ)文章的人來(lái)說(shuō),利用詞頻表來(lái)進(jìn)行學(xué)習(xí)就可以最大化效率。
好了,這篇文章不是來(lái)詳細(xì)介紹 COCA 到底怎么用的,而是怎么利用它的詞頻表的。
首先,需要下載詞頻表,COCA 官網(wǎng)提供了免費(fèi)的前 5000 個(gè)單詞,但是再往后,還提供了 20000 和 60000 詞匯量的版本,均是收費(fèi)的,不過(guò)可以在淘寶上購(gòu)買,或者在網(wǎng)上找到免費(fèi)的下載鏈接。
下面就基于最全的 60000 詞匯量的文件,也就是 coca60000full.xlsx 這個(gè) EXCEL 文件。它包含了所有的單詞,以及詞頻統(tǒng)計(jì),分類庫(kù)等信,是信息最全的一個(gè)文件,其他所有衍生版本(比如 coca20000, coca口語(yǔ)等)均可由該文件生成。

文件內(nèi)容預(yù)覽圖如下:

如果覺(jué)得 EXCEL 文件中顯示的大寫格式不適應(yīng),可以通過(guò)下面的方法變成小寫:
1、先插入一個(gè)空欄(比如在原 WORD 列的左側(cè)插入)
2、選中空欄,輸入公式 =lower(D:D)
如下:

然后,按住 Ctrl + Enter 或者 Command + Enter,就會(huì)把函數(shù)應(yīng)用到整列了,效果如下:

注意:這時(shí)候如果我們刪除大寫單詞的那列,小寫列會(huì)變成亂碼,因?yàn)橐玫氖枪健?/p>
我們可以這樣做,選中 C 列,然后直接在本列進(jìn)行復(fù)制粘貼(Ctrl + C, Ctrl + V),在粘貼的時(shí)候,選擇只拷貝值(Values Only)這一個(gè)選項(xiàng)。

這樣,我們就可以刪除原列了。
好了,簡(jiǎn)單的 EXCEL 操作介紹完了,下面我們來(lái)看看,怎么繼續(xù)得到我們想要的其他東西。
腳本處理
選中單詞列,把它復(fù)制到 TXT 純文本文件中,這樣就得到一個(gè)包含了 6 萬(wàn)單詞的純文本 coca60000.txt。
我們可以繼續(xù)細(xì)分這個(gè)單詞本,比如分成只包含前 2 萬(wàn),前 3 萬(wàn)或前幾萬(wàn)的版本,由于原始單詞集是包含重復(fù)單詞的(COCA 根據(jù)單詞的不同釋義列舉了多次),所以,我們還可以提取出去重的單詞集。當(dāng)然,根據(jù)我們個(gè)人的單詞學(xué)習(xí)和記憶需求,我們還可以來(lái)進(jìn)行更多處理。
因此,下面要介紹的就是用于做這些處理的腳本文件 split.py。

該腳本的大致功能解釋如下:
1、去重(格式化)
對(duì)于 coca60000 這個(gè)詞匯集合,原文本包含了重復(fù)詞匯(coca 根據(jù)單詞的不同含義,分別列舉了多次,形式上出現(xiàn)重復(fù))
那么,就可以用 split.py 這個(gè)腳本進(jìn)行去重,總量為 60023 的集合去重之后剩余 54150 個(gè)。
另外,還可以對(duì)文本進(jìn)行一些簡(jiǎn)單的格式化,比如去掉單詞前后的空格。
2、分組
該腳本支持對(duì)想要記憶的單詞進(jìn)行不同大小的分組,比如每 100 個(gè)或者 200 個(gè)一組,具體命令如下:
$ python split.py coca60000.txt 100
命令執(zhí)行成功之后,會(huì)在 output 目錄中生成許多文件,每個(gè)文件按指定分組大小來(lái)進(jìn)行分組,并以數(shù)字范圍的形式(xxx_yyy)命名,如下:

3、生成可導(dǎo)入的格式
歐陸詞典是一個(gè)很流行的英文詞典,可以加載不同的詞庫(kù)文件,因此許多人都非常樂(lè)于使用它來(lái)進(jìn)行詞匯的學(xué)習(xí)。
這個(gè)腳本支持把原單詞本格式化成歐陸詞典(http://Eudic.net)所支持的導(dǎo)入規(guī)則,比如,歐陸詞典中的 “批量導(dǎo)入分組生詞本”,它的規(guī)則如下:

那么,只需要把 split.py 中的 batch_import() 函數(shù)打開(kāi),然后執(zhí)行
$ python split.py coca60000.txt 15
就會(huì)生成一個(gè)叫 coca60000_batch_import.txt 的文件 ,然后打開(kāi)該文件,就可以看到其內(nèi)容如下:

復(fù)制文本內(nèi)容到 http://eudic.net 中的文本框,就可以順利導(dǎo)入所有分組。
好了,有了 COCA 詞頻表,腳本工具,以及背單詞 APP,我們就可以愉快的背單詞了 。