大家好,我是6C
一個(gè)學(xué)心理學(xué)的營(yíng)銷人
為了過上大數(shù)據(jù)指導(dǎo)下的新世紀(jì)斜杠青年的美(tou)好(lan)生活,6C又開始折騰了。這次是非常實(shí)用的廣告營(yíng)銷圈超高頻英文單詞TOP500
為什么要折騰這一個(gè)項(xiàng)目呢?
在營(yíng)銷圈,英文好是一個(gè)加分項(xiàng)。這個(gè)加分項(xiàng)首先要求是夠用的詞匯量,而詞匯量是最花時(shí)間的一個(gè)事情,有沒有偷懶高效的方法呢?帶著這個(gè)思考,便有了這個(gè)針對(duì)營(yíng)銷人的營(yíng)銷圈高頻英文單詞項(xiàng)目
這個(gè)項(xiàng)目利用爬蟲獲取海量的營(yíng)銷廣告文章語(yǔ)料,然后通過詞頻分析提取高頻英文單詞
(心急的朋友可直接滑到文末獲取資源)
獲取足量合適的英文營(yíng)銷語(yǔ)料
網(wǎng)絡(luò)上分散的英文營(yíng)銷資料很多,從營(yíng)銷文章細(xì)分行業(yè)覆蓋度、文章的專業(yè)程度、文章的來源、文章更新的頻率等方面綜合考量,最終選擇了digiperform和marketo兩個(gè)站點(diǎn)作為爬取對(duì)象。通過Python爬蟲技術(shù),最終共獲取1200+篇文章,文章字?jǐn)?shù)670000+
https://digiperform.com 是第一個(gè)被稱為“亞洲最被信任的Digital Marketing教育品牌,里面有超過2000位的專業(yè)作者
https://blog.marketo.com 是一個(gè)成立7年即完成納斯達(dá)克上市,現(xiàn)被Adobe收購(gòu)的一家以做自動(dòng)化營(yíng)銷的公司
分析語(yǔ)料庫(kù),提取高頻詞匯
這部分比想象中的要復(fù)雜一點(diǎn),英文單詞的分析并非把詞一分統(tǒng)計(jì)個(gè)詞頻就好了。我摸索后經(jīng)過了三個(gè)處理步驟
Step1 單詞清洗
眾所周知,同一個(gè)英文單詞會(huì)有多種變形,例如動(dòng)詞的分詞形式、名詞的單復(fù)數(shù)形式、形容詞的比較級(jí)等等。這些詞拼法不同,但把它們算作是獨(dú)立單詞顯然是不準(zhǔn)確的,會(huì)影響詞頻的準(zhǔn)確性。因此,需要先進(jìn)行進(jìn)行單詞清洗
經(jīng)過一些時(shí)間的尋找,發(fā)現(xiàn)這已經(jīng)是屬于AI領(lǐng)域里最為困難的一個(gè)分支NLP(自然語(yǔ)言處理)了。(敢情一不小心還涉足了AI領(lǐng)域?)
NLP(Natural Language Processing)屬于AI的一個(gè)分支,主要包括中文自動(dòng)分詞、詞性標(biāo)注、句法分析、機(jī)器翻譯、文字蘊(yùn)含等。比如那些做Social Listening的產(chǎn)品核心技術(shù)就是NLP
然而實(shí)際我們這需要解決的問題跟NLP也關(guān)聯(lián)不大,一個(gè)nltk庫(kù)就搞定了。經(jīng)過一些時(shí)間的摸索和嘗試,成功的完成了單詞的清洗工作
Step2 去停用詞
清洗完就能直接統(tǒng)計(jì)詞頻么?還不夠
稍微思考一下我們就能猜到,這樣統(tǒng)計(jì)出來最高頻的一定是the、of、have 這樣的介詞,以及夾雜著很多的also、change、cost、easy、line這樣即使是營(yíng)銷小白也耳熟能詳?shù)膯卧~。這些詞如果不做處理,那這些所謂的高頻詞也將意義不大
最終我選擇去掉了英文中最常用的1000個(gè)詞,基本相當(dāng)于初中英語(yǔ)需要掌握的詞匯量,是一個(gè)比較低的門檻了
Step3 輸出單詞及詞頻
做好前2步的準(zhǔn)備工作之后,終于可以統(tǒng)計(jì)詞頻輸出了。最終輸出的TOP500詞都至少是出現(xiàn)60次以上的單詞。
那剩下的詞自然是出現(xiàn)的概率不到萬(wàn)分之一,以每篇文章500詞計(jì)算,屬于你讀20篇文章都不會(huì)遇到一次的詞,可以再實(shí)際碰到的時(shí)候再詳細(xì)了解
增加單詞發(fā)音和釋義
為了使用起來更加方便,我最后還為這500單詞增加了對(duì)應(yīng)的發(fā)音和釋義,排好版制作成了PDF文件共下載
釋義詞典選用的是韋氏英英詞典
為什么選擇英英詞典呢,源自我個(gè)人在學(xué)英語(yǔ)的過程中的一個(gè)痛點(diǎn):一個(gè)單詞通常有多個(gè)中文釋義記起來很累。但你如果看英英釋義就能發(fā)現(xiàn),其實(shí)核心都是一個(gè)意思,只不過是用在不同的場(chǎng)景中。英英釋義能方便你理解這個(gè)單詞核心的釋義,容易記憶并且能夠舉一反三靈活運(yùn)用
比如abandont這個(gè)單詞,有道給的中文意思為:“遺棄;離開;放棄;終止;陷入”五個(gè)詞義,而韋氏詞典給的釋義為“to give up completely;to withdraw from often in the face of danger;to withdraw protection, support, or help from”,可以看出這個(gè)詞的核心意思是“退出某個(gè)狀態(tài)”,退出直面危險(xiǎn)的狀態(tài)那是終止,退出保護(hù)的狀態(tài)是陷入
下面是最終的成果,每個(gè)單詞選用了最常用的三個(gè)釋義(若有)。細(xì)心的你一定發(fā)現(xiàn)了,這里依舊有很多單詞是你已經(jīng)熟悉的。
但我提醒你再仔細(xì)的看一下對(duì)應(yīng)的釋義,是不是發(fā)現(xiàn)之前的理解不夠徹底不夠完整呢。希望你不要跳過你自認(rèn)為熟悉的詞,溫故而知新。
若你想要獲得完整版的文件,可關(guān)注“6C的筆記”回復(fù)“英語(yǔ)”獲取。創(chuàng)作不易,若文章對(duì)你有幫助,記得點(diǎn)贊評(píng)論贊賞一鍵三連哦
THE END.
往期精彩:
我分析了林夕近20萬(wàn)字的詞作曲,告訴你林夕到底寫的是什么
亞瑟王傳奇 | 阿瓦隆角色背景介紹
5分鐘學(xué)會(huì)怎么說服客戶