linguistats | 數(shù)據(jù)告訴你,劉欣的英語到底有多好?

我所說的一切都可能是錯的!
即使你贊同我的觀點,你的生活也不會因此有任何改變!
除非——你采取了相應的行動。


(這是書先生在簡書的第171篇文章。本文約4100字,請花12分鐘來閱讀。)

引子

昨天,大家期盼良久的“中美主持人對決”在非?!跋楹汀钡臍夥罩虚_始、進行并結(jié)束了。缺少了預期中的火藥味,可能有些朋友會有點失望。不過仔細一想,這也是意料中事:一方要刻意展示友好或者至少不要繼續(xù)表現(xiàn)出“潑婦”的樣子,另一方是帶著鐐銬跳舞,對話自然不會那么針鋒相對。

相信大家昨天也看了不少關于這次對話的分析,我也瀏覽了一些。說實話,對目前的分析,我有點失望,因為大多數(shù)分析人士連對話原文都不清楚,甚至連CGTN自己的報道也是“斷章取義”。不過話又說回來,這個對話無論是從辯論、還是演講的角度都沒有多少分析價值,原因嘛,就是上面說的兩點。例行公事似的對話、官宣一般的發(fā)言,實在算不上特別好的學習材料。

不過從語言分析的角度來看,這段“中美主持人巔峰對決”的對話可是是好材料。它好就好在具有可比性:兩個英語水平都非常高的人就同一個話題展開對話。這可是做語言學分析的人夢寐以求的好東西啊。

看完她們的對話,我相信很多中國人都會有這樣的感嘆:劉欣的英語真流利啊。我的感覺和大家一樣。不過,我想更深入的看一下這個問題:劉欣的英語到底有多好,尤其是和翠西相比。于是有了本文的標題。

翠西的英語無疑是非常好的。首先,英語是她的母語;其次,她是哥倫比亞大學歷史系畢業(yè),要知道,文科對語言水平要求都很高;第三,她常年在美國主流電視臺做主持工作,這個工作對語言水平要求也很高。

劉欣的英語簡歷也是非常出彩的。南京外國語大學英語專業(yè)畢業(yè),中國首屆全國大學生英語演講比賽冠軍,世界英語聯(lián)合會(ESU)舉辦的世界英語演講比賽冠軍。

兩位都是英語高手。從背景來看,我們可以假設翠西的英語水平略高。如果這個假設成立,一個很有意思的問題就是:劉欣可能是哪一塊稍微要差一點?這個問題,不但有趣,而且很重要,因為它的答案可以為英語已經(jīng)很好的學習者指明精進的方向。

下面,我就用數(shù)據(jù)來回答這個問題。

第一步是什么?

分析數(shù)據(jù)的第一步是什么?——清理數(shù)據(jù)。如果你數(shù)據(jù)本來不干凈,noise太多,甚至還不準確,那后續(xù)的分析都沒有意義。這也是為什么我對昨天讀到的分析都不是太滿意,因為其中大多數(shù)根本就不知道準確的對話是什么。

所以,我做的第一件事情就是盡可能準確的轉(zhuǎn)錄翠西和劉欣的對話。她們短短的16分鐘對話,我花了好幾個小時來整理。因為網(wǎng)上的文本大多不靠譜,我只能靠自己聽。最后的結(jié)果是:雖然她們搶著說的地方有幾個單詞不清楚,其它部分我應該非常準確。

如果你需要整理好的文本用于學習、教學或者研究,請在后臺回復“劉欣”,即可獲取下載地址。

有了準確的數(shù)據(jù),我們就可以分析了。

如何分析?

我準備從文本復雜度入手來比較翠西和劉欣分別的發(fā)言。通常有兩個向度可以衡量文本復雜度,一是詞匯復雜度(lexical complexity),二是句法復雜度(syntactic complexity)。有很多研究都表明,這兩個向度和語言水平(proficiency)呈正相關,所以通過它們來比較翠西和劉欣的英語是可行的。

在呈現(xiàn)分析結(jié)果之前,我必須提醒一下:所有分析結(jié)果都只是基于這個對話?;蛟S對話并沒有完全展示雙方的真實水平,因此不能就此就得出誰英語比誰更好的結(jié)論。也就是說,我后面的討論只針對被分析的文本,不能視為我對雙方英語水平的判斷。

下面就開始我們的分析,在這個過程中,我也會介紹一些有關文本復雜度的基礎知識。相信大家看完這篇文章,以后就會自己去分析了——授人以魚不如授人以漁。

詞匯復雜度

我們先來看詞匯復雜度。為了理解詞匯復雜度的指標,我們有必要知道幾個基本的概念:

  1. 形符數(shù)(type):文本中所有單詞數(shù)量的總和。
  2. 類符數(shù)(type):文本中不重復的單詞書路的總和。
  3. 實詞(lexical word):名詞、動詞、形容詞和副詞等開放詞類
  4. 虛詞(grammatical word):介詞、冠詞、連詞和代詞等封閉詞類
  5. 難詞(sophiticated word):在本分析中指頻數(shù)排名在前2000以后的單詞(以BNC統(tǒng)計為準)

舉個栗子:Boys are always boys.這句話形符數(shù)是4,因為它含有4個單詞。類符數(shù)是3,因為其中有兩個boys,不重復的數(shù)量只有3。

好了,基礎知識已經(jīng)夠了。詞匯復雜度的各種指標大多都是基于這5個指標的計算。所以,第一步,我們先來觀察一下,翠西和劉欣的發(fā)言在這些基礎指標上的比較。

基礎指標比較

從上表可以看出,劉欣說了大約1600個詞,而翠西絲略少,約1300詞。我用約,是因為雙方搶著說的地方有幾個單詞不是很清楚,不過大致是沒有問題的。劉欣說得稍多,這容易理解,因為她是答問的一方。單從數(shù)量上來看,我們會覺得劉欣用的復雜詞匯更多。但這可能是因為劉欣說的話更多。事實是否如此,還要看比例。下面我們就來看一下詞匯復雜度。

詞匯復雜度一般通過三個大類來衡量:詞匯密度(lexical density),詞匯復雜性(lexical sophistication)和詞匯多樣性(lexical variability)。我們挨個兒來看。

詞匯密度

詞匯密度是指文本中實詞所占的比例,即實詞形符數(shù)/總詞數(shù)。在這個指標上,劉欣為0.49,翠西為0.46,劉欣略高于翠西。通過更細致的分析,我認為,出現(xiàn)這個差異的原因可能有三個:

第一,翠西使用“填充語”(filler)的頻率更高。填充語是指那些沒有實際意義,只是起一些引起注意或者為說話者爭取時間的詞或者詞組。比如,well, you know, look, I mean等。從上表可以看出,翠西使用you know, I mean, look等的頻率都高于劉欣。在有一句話里,翠西甚至一連用上了三個填充語(如下)。you know和I mean里都包含代詞,這客觀上降低了翠西的詞匯密度。

Trish: Right, I mean, you know, look, I think, as I said, we can all agree that if you're going to do business with someone, it has to be based on trust, and you don't want anyone stealing your valuable information that you've spent decades working on.

Trish: And you know, look, I think that the the liberalized economic world in which we live has valued intellectual property and it's governed by a set of laws, and so we all need to kind of play by the rules and play by those laws.

另外,有意思的是,劉欣使用well的頻率高于翠西,而look一次都沒有用。這可能是因為well是我們會學習的一個填充語,而look很少顯性教學。這表明,我們在英語教學中,可能需要有意識增加一些填充語使用的內(nèi)容。

第二,翠西使用人稱代詞的I和you的頻率也高于劉欣。同樣有意思的是,劉欣使用I think的頻率要高于翠西。可見,哪怕英語水平高如劉欣,也免不了中國英語學習者I think使用過多的問題。

第三,翠西使用that的頻率遠高于劉欣。這和第二條也有點關系。在翠西的13次I think后面,4次用了that,占比30.77%。而在劉欣的24次I think后面,只有5次用了that,占比20.83%。更仔細的分析,發(fā)現(xiàn)翠西的I think有不少是用作插入語,例如:

Trish: There is a rule that enables the United States to use tariffs to try to influence the behaviour of China should it be taking, stealing our intellectual property, and that, I think, in some way is part of what this all comes back to you.

Trish: But this issue is, I think, where the country as a whole needs to step in and we're seeing the United States do that.

而在劉欣的發(fā)言里,I think沒有一次用作插入語。這種用法,是母語使用者和外語學習者的一個顯著的差異。所以,I think, I guess這樣的詞組用作插入語的用法,可能我們在英語教學中需要有意識的提一下。

詞匯復雜性

詞匯復雜度一般通過難詞的占比來測量。常見的有以下幾種測量方式:

  1. 復雜實詞占實詞的比例,我們用LS1來表示。
  2. 復雜類符占總類符的比例,我們用LS2來表示。

另外由于動詞是句子的核心,所以有專門的算法來測量動詞的復雜性,比如:

  1. 復雜動詞類符占動詞的比例,我們用VS1來表示。

上面三種測量方式都有一個弊端,那就是隨著文本長度增加,結(jié)果會變小。也就是說,如果兩個文本長度差異很大,結(jié)果會不準確。好在兩位主持人的發(fā)言字數(shù)差不多,所以我們就只用這三個指標就可以了。檢測結(jié)果如下:

詞匯復雜性比較

有意思的結(jié)果出現(xiàn)了:如果不考慮詞類,翠西和劉欣的詞匯復雜度幾乎沒有區(qū)別。但當我們聚焦在動詞上時,翠西的動詞復雜性高出劉欣60%。這是不是就表明翠西使用了更多更難的動詞呢?不一定。VS1指標有一個問題,那就是它是一刀切,沒有考慮2000詞頻以上的差異。舉個例子,一個可能的情況是翠西在2000-5000這個詞頻段用得多,而劉欣在5000-10000這個詞頻段用得更多,但是總體上來,在2000以上翠西更多。這樣分析結(jié)果就會顯示翠西難詞用得更多。

真實情況到底是什么呢?不如我們來具體看看雙方分別用了什么動詞。

雙方都使用的動詞:'base', 'agree', 'mean', 'lower', 'know', 'do', 'be', 'pay', 'get', 'work', 'develop', 'believe', 'steal', 'have', 'let', 'ask', 'see', 'decide', 'need', 'play', 'will', 'look', 'want', 'make', 'hear', 'happen', 'use', 'force', 'go', 'talk', 'tell', 'think', 'define', 'may', 'come', 'take', 'give', 'speak', 'thank', 'say'

翠西使用而劉欣沒有使用的動詞:'welcome', 'mention', 'forgive', 'discuss', 'abandon', 'govern', 'operate', 'lead', 'include', 'liberalize', 'pass', 'stall', 'identify', 'watch', 'require', 'appreciate', 'value', 'turn', 'rid', 'guess', 'join', 'explain', 'share', 'stall', 'live', 'stress', 'borrow', 'oversee', 'enable', 'bear', 'try', 'run', 'spend', 'stop', 'charge', 'bring', 'pursue', 'love', 'step', 'claim', 'keep', 'realize', 'influence', 'overlook', 'care', 'hang'

劉欣使用而翠西沒有使用的動詞:'learn', 'call', 'sue', 'face', 'correct', 'plan', 'invest', 'understand', 'divide', 'reach', 'achieve', 'grow', 'consider', 'contribute', 'show', 'own', 'establish', 'employ', 'forget', 'put', 'wanna', 'depend', 'skid', 'deny', 'become', 'dream', 'write', 'continue', 'explore', 'deal', 'prosper', 'skip', 'treat', 'control', 'affect', 'commit', 'carry', 'discriminate', 'expect', 'assume', 'produce', 'find', 'change', 'cooperate', 'like'

雙方都使用的,顯然是一些常見的單詞。而劉欣使用翠西沒有使用的詞直覺上難度比翠西單獨使用的難度更高。這說明兩個問題:**一方面,我們可以說劉欣的詞匯復雜度不屬于高水平母語使用者。另一方面,我們可能需要加強中等頻率詞匯的教學,因為劉欣使用更難單詞的原因是因為我們過于強調(diào)難詞的使用,而反之,對中等評率使用重視不夠。

詞匯多樣性

最后,我們來看一下詞匯多樣性。詞匯多樣性是指文本中不重復單詞的比例。說到這里,我相信你很快就會想到,最簡單的檢測方式就是“類符-形符比”(Type-token ratio, TTR)。沒錯,TTR是最直觀的方式。

不過TTR也有個問題,那就是對文本長度很敏感。隨著文本長度增加,TTR會下降。更準確的測量方式是使用“標準類符-形符比”(STTR),即按順序截取n個字符,計算TTR,然后再取平均數(shù)。因為我們的文本很小,所以我們順序截取50個單詞。你肯定也能想到,這種方法會造成數(shù)據(jù)浪費,因為文本大小不一定是50的整數(shù)倍。

TTR是實詞、虛詞一起考慮的。從文本的內(nèi)容角度來看,實詞的多樣性更能說明問題。所以,我們也考察實詞多樣性(LV),即實詞類符/實詞形符。我們也可以看得更細,每一種實詞種類占實詞形符的比值,分別用VV1, NV, ADJV和ADVV來表示。結(jié)果見下表:

詞匯多樣性

從上表可以看出,實詞多樣性翠西要高于劉欣,但這個差異主要來源是動詞多樣性,而名詞、形容詞和副詞的使用上,雙方?jīng)]有差異。

結(jié)語

今天我們比較了翠西和劉欣對話的詞匯復雜性。通過上面的分析,我們可以得出了一些對英語學習和教學有參考價值的結(jié)論。我?guī)湍阍倏偨Y(jié)一下:

  1. 劉欣的英語真的是非常好,和高水平母語者相比也不遑多讓。
  2. 我們應該適當加強填充語使用的教學。
  3. 我們應當適當加強插入語使用的教學。
  4. 我們應當適當加強中等頻率詞匯使用的教學。

詞匯復雜度的分析就到此,下一篇分析她們的“句法復雜度”,歡迎繼續(xù)關注。詞匯復雜度和句法復雜度在線分析的網(wǎng)址如下:

https://aihaiyang.com/software

其余數(shù)據(jù)我是用spaCy分析的。

記得在后臺回復“劉欣”,即可獲取校對過的完整文本。然后你也可以自己分析一下。

順祝各位大小朋友,兒童節(jié)快樂。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容