99热亚州天堂在线,伊人久久综在合亚洲,亚洲精品五区

無(wú)意中看到一篇 COCA 語(yǔ)料庫(kù)的介紹文章，然后自己就去 http://testyourvocab.com/ 測(cè)了下詞匯，大約是 2 萬(wàn)多。

神奇的是，我在以前的英語(yǔ)學(xué)習(xí)時(shí)從沒(méi)接觸過(guò)這個(gè)目前可以說(shuō)是最知名的英語(yǔ)詞匯詞頻統(tǒng)計(jì)庫(kù)，雖然目測(cè)詞匯量尚可，但是這個(gè)也不是絕對(duì)準(zhǔn)確的，因?yàn)槲覝y(cè)的時(shí)候感覺(jué)差不多認(rèn)識(shí)的單詞我就勾了，所以結(jié)果肯定有不少水分，而且統(tǒng)計(jì)方法還因人而異吧，我感覺(jué)我目前的詞匯應(yīng)該在 2 萬(wàn)左右。根據(jù)網(wǎng)上的論斷，這個(gè)量貌似也挺大的。雖然我從小對(duì)英語(yǔ)學(xué)習(xí)就非常感興趣，但是我印象最深的集中大量詞匯輸入還是在準(zhǔn)備出國(guó)的時(shí)候，當(dāng)然，這之前我也都是愛(ài)背單詞的，只不過(guò)都是些笨方法，主要是我比較愛(ài)看英語(yǔ)相關(guān)的東西，而遇到生詞了也會(huì)刻意去記憶，以前更是愛(ài)拿著生詞本各種記。

所以，沒(méi)接觸過(guò)這個(gè)語(yǔ)料庫(kù)我還是覺(jué)得挺驚訝的，它最有意思的一點(diǎn)就在于它的詞頻統(tǒng)計(jì)，如果我們能很好的利用這個(gè)詞頻表所統(tǒng)計(jì)出來(lái)的詞匯，那對(duì)于英語(yǔ)的學(xué)習(xí)是非常高效的（我現(xiàn)在就在通過(guò)這個(gè)詞頻表進(jìn)行復(fù)習(xí)和查漏）。

所以，下面先簡(jiǎn)單介紹一下這個(gè)庫(kù)

COCA, 全稱 Corpus of Contemporary American English，網(wǎng)站是 https://corpus.byu.edu/ 它總結(jié)了英語(yǔ)國(guó)家使用頻率最高的詞匯，使用大數(shù)據(jù)的方法把 1990-2012 年美國(guó)最有代表性的報(bào)紙，雜志，小說(shuō)，學(xué)術(shù)，口語(yǔ)（口語(yǔ)可能是用的電視劇或者脫口秀之類的節(jié)目轉(zhuǎn)錄的）匯集起來(lái)，每部分各占 1/5，生成 4.5 億單詞量語(yǔ)料庫(kù)。billions of words of data: free online accessCOCA, 全稱 Corpus of Contemporary American English，網(wǎng)站是 https://corpus.byu.edu/ 它總結(jié)了英語(yǔ)國(guó)家使用頻率最高的詞匯，使用大數(shù)據(jù)的方法把 1990-2012 年美國(guó)最有代表性的報(bào)紙，雜志，小說(shuō)，學(xué)術(shù)，口語(yǔ)（口語(yǔ)可能是用的電視劇或者脫口秀之類的節(jié)目轉(zhuǎn)錄的）匯集起來(lái)，每部分各占 1/5，生成 4.5 億單詞量語(yǔ)料庫(kù)。

COCA詞頻表，是從眾多語(yǔ)料庫(kù)（corpus）中提取，用大數(shù)據(jù)的方法從各種文體中提取單詞，并按照單詞出現(xiàn)次數(shù)高低進(jìn)行排序的一個(gè)詞頻表。

來(lái)看一下這個(gè)數(shù)據(jù)：

掌握前 500 單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 72% 的單詞；
掌握前 1000 單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 79% 的單詞；
掌握前 2000 單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 87% 的單詞；
掌握前 3000 單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 90% 的單詞；
掌握前 4000 單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 93% 的單詞；
掌握前 5000單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 94% 的單詞；
掌握前 10000單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 97% 的單詞；
掌握前 17634 單詞，現(xiàn)實(shí)生活中能認(rèn)識(shí) 99% 的單詞。

為什么學(xué)了那么多仍然不能達(dá)到 99.99%？因?yàn)橛⒄Z(yǔ)實(shí)際使用中存在大量專有名詞，比如Trump 這個(gè)單詞，在其競(jìng)選前后出現(xiàn)頻率相差極大，COCA 中除了媒體來(lái)源外的語(yǔ)料中出現(xiàn)很少，而這兩年看報(bào)紙則是想繞都繞不開(kāi)。掌握這 17634 詞后，學(xué)習(xí)一個(gè)新領(lǐng)域的英文，只要多剩下的 1% 的專有名詞，基本就不存在生詞障礙了。

其實(shí)，不用完全把表背完，掌握頻率最高的一萬(wàn)多詞匯就已經(jīng)非常夠用了，在網(wǎng)上，背單詞的邊際效益是遞減的（當(dāng)然使用詞頻表來(lái)背就可以使邊際效益最大化），所以，對(duì)于那些迫切希望可以看懂更多英語(yǔ)文章的人來(lái)說(shuō)，利用詞頻表來(lái)進(jìn)行學(xué)習(xí)就可以最大化效率。

好了，這篇文章不是來(lái)詳細(xì)介紹 COCA 到底怎么用的，而是怎么利用它的詞頻表的。

首先，需要下載詞頻表，COCA 官網(wǎng)提供了免費(fèi)的前 5000 個(gè)單詞，但是再往后，還提供了 20000 和 60000 詞匯量的版本，均是收費(fèi)的，不過(guò)可以在淘寶上購(gòu)買，或者在網(wǎng)上找到免費(fèi)的下載鏈接。

下面就基于最全的 60000 詞匯量的文件，也就是 coca60000full.xlsx 這個(gè) EXCEL 文件。它包含了所有的單詞，以及詞頻統(tǒng)計(jì)，分類庫(kù)等信，是信息最全的一個(gè)文件，其他所有衍生版本（比如 coca20000, coca口語(yǔ)等）均可由該文件生成。

文件內(nèi)容預(yù)覽圖如下：

如果覺(jué)得 EXCEL 文件中顯示的大寫格式不適應(yīng)，可以通過(guò)下面的方法變成小寫：

1、先插入一個(gè)空欄（比如在原 WORD 列的左側(cè)插入）

2、選中空欄，輸入公式 =lower(D:D)

如下：

然后，按住 Ctrl + Enter 或者 Command + Enter，就會(huì)把函數(shù)應(yīng)用到整列了，效果如下：

注意：這時(shí)候如果我們刪除大寫單詞的那列，小寫列會(huì)變成亂碼，因?yàn)橐玫氖枪健?/p>

我們可以這樣做，選中 C 列，然后直接在本列進(jìn)行復(fù)制粘貼（Ctrl + C， Ctrl + V），在粘貼的時(shí)候，選擇只拷貝值（Values Only）這一個(gè)選項(xiàng)。

這樣，我們就可以刪除原列了。

好了，簡(jiǎn)單的 EXCEL 操作介紹完了，下面我們來(lái)看看，怎么繼續(xù)得到我們想要的其他東西。

腳本處理

選中單詞列，把它復(fù)制到 TXT 純文本文件中，這樣就得到一個(gè)包含了 6 萬(wàn)單詞的純文本 coca60000.txt。

我們可以繼續(xù)細(xì)分這個(gè)單詞本，比如分成只包含前 2 萬(wàn)，前 3 萬(wàn)或前幾萬(wàn)的版本，由于原始單詞集是包含重復(fù)單詞的（COCA 根據(jù)單詞的不同釋義列舉了多次），所以，我們還可以提取出去重的單詞集。當(dāng)然，根據(jù)我們個(gè)人的單詞學(xué)習(xí)和記憶需求，我們還可以來(lái)進(jìn)行更多處理。

因此，下面要介紹的就是用于做這些處理的腳本文件 split.py。

該腳本的大致功能解釋如下：

1、去重（格式化）

對(duì)于 coca60000 這個(gè)詞匯集合，原文本包含了重復(fù)詞匯（coca 根據(jù)單詞的不同含義，分別列舉了多次，形式上出現(xiàn)重復(fù)）

那么，就可以用 split.py 這個(gè)腳本進(jìn)行去重，總量為 60023 的集合去重之后剩余 54150 個(gè)。

另外，還可以對(duì)文本進(jìn)行一些簡(jiǎn)單的格式化，比如去掉單詞前后的空格。

2、分組

該腳本支持對(duì)想要記憶的單詞進(jìn)行不同大小的分組，比如每 100 個(gè)或者 200 個(gè)一組，具體命令如下：

$ python split.py coca60000.txt 100

命令執(zhí)行成功之后，會(huì)在 output 目錄中生成許多文件，每個(gè)文件按指定分組大小來(lái)進(jìn)行分組，并以數(shù)字范圍的形式（xxx_yyy）命名，如下：

3、生成可導(dǎo)入的格式

歐陸詞典是一個(gè)很流行的英文詞典，可以加載不同的詞庫(kù)文件，因此許多人都非常樂(lè)于使用它來(lái)進(jìn)行詞匯的學(xué)習(xí)。

這個(gè)腳本支持把原單詞本格式化成歐陸詞典（http://Eudic.net）所支持的導(dǎo)入規(guī)則，比如，歐陸詞典中的 “批量導(dǎo)入分組生詞本”，它的規(guī)則如下：

那么，只需要把 split.py 中的 batch_import() 函數(shù)打開(kāi)，然后執(zhí)行

$ python split.py coca60000.txt 15

就會(huì)生成一個(gè)叫 coca60000_batch_import.txt 的文件，然后打開(kāi)該文件，就可以看到其內(nèi)容如下：

復(fù)制文本內(nèi)容到 http://eudic.net 中的文本框，就可以順利導(dǎo)入所有分組。

好了，有了 COCA 詞頻表，腳本工具，以及背單詞 APP，我們就可以愉快的背單詞了。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

COCA 詞頻表使用

COCA 詞頻表使用

腳本處理

該腳本的大致功能解釋如下：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

COCA 詞頻表使用

腳本處理

該腳本的大致功能解釋如下：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av