導(dǎo)讀
用戶反饋文本,作為用戶問題、建議、態(tài)度的載體,對產(chǎn)品評估和改進優(yōu)化極具價值。但作為非結(jié)構(gòu)化數(shù)據(jù),用戶反饋文本的處理并不完全適用結(jié)構(gòu)化數(shù)據(jù)挖掘流程。本篇,將向大家闡述用戶反饋文本挖掘的特性和一般過程,重點介紹用戶反饋文本可以為我們帶來怎樣的價值,以及如何利用這些內(nèi)容。
一、傳統(tǒng)用戶反饋
用戶反饋,作為產(chǎn)品使用體驗最直接的反饋,對產(chǎn)品現(xiàn)狀的評估和后續(xù)優(yōu)化的價值不言而喻。

傳統(tǒng)用戶研究通過訪談等有目的的接觸式方法搜集這些信息,并利用質(zhì)性研究手段對資料進行歸納、演繹、推論,最終推動分析結(jié)果在產(chǎn)品、運營等各方落地。但這類方式搜集的資料數(shù)量有限,而且受到分析者主觀經(jīng)驗的限制,是一種相對高成本的研究手段。
傳統(tǒng)用戶反饋的使用與分析方法,我們在本系列的前2期已經(jīng)進行了詳細地介紹。但如果著眼于用戶反饋分析的核心價值——搜集輿情,我們會發(fā)現(xiàn)用戶研究可使用的資料及其方式遠不止于此。
二、用戶自發(fā)的產(chǎn)品反饋
實際上,用戶在使用我們的產(chǎn)品后,會自發(fā)地發(fā)表對產(chǎn)品使用的評價、意見,甚至遇到的問題等。
我們在本系列的導(dǎo)讀中曾提到,用戶自發(fā)的反饋依其內(nèi)容特性,大致包括傳播類、評價類、意見建議類3種。這些反饋中,包含著用戶對產(chǎn)品的關(guān)注熱點、遇到的bug和投訴,以及用戶的情感態(tài)度等寶貴信息。如果能夠?qū)@些信息加以挖掘和利用,將給我們帶來極大的收獲。這類用戶自發(fā)的反饋具有以下幾個特性:
1,來源豐富
用戶發(fā)表意見的地方是不受限制的,這就意味著我們所需的資料散布在互聯(lián)網(wǎng)上的各個地方。就我們的經(jīng)驗來看,APP Store、安卓應(yīng)用商店、微博、貼吧,當(dāng)然還有網(wǎng)易游戲論壇等,是幾個主要的數(shù)據(jù)來源。
2,數(shù)量可觀
鑒于數(shù)據(jù)來源的豐富,以用戶基數(shù)為基礎(chǔ),我們能夠獲得的用戶反饋數(shù)量也是巨大的。例如,APP Store內(nèi)網(wǎng)易云音樂iOS移動端的累積用戶評論(反饋)已達7萬4千條,而網(wǎng)易新聞app則多達17萬條之多。
3,數(shù)據(jù)類型多樣
我們在發(fā)表關(guān)于產(chǎn)品使用體驗時,不僅僅是文字表達,還會附帶圖片、emoj表情等,而在客服系統(tǒng)中還存在著語音記錄。當(dāng)然,文本形式的用戶反饋仍然占據(jù)最大比重,相對也更容易在技術(shù)上實現(xiàn)。但隨著技術(shù)的提升,多媒體形式的用戶反饋挖掘?qū)⒊蔀榱硪环斓亍?/p>
4,數(shù)據(jù)價值密度低
用戶反饋文本存在的一個問題,就是數(shù)據(jù)中包含著大量的垃圾數(shù)據(jù),“存在大量共現(xiàn)但又毫無意義的關(guān)聯(lián)模式”。這一問題的嚴(yán)重性取決于數(shù)據(jù)源的質(zhì)量,而技術(shù)上,則需要進行識別和清洗。
三、用戶反饋文本挖掘的特性與過程
本篇所針對的是文本形式用戶反饋的分析,屬于文本挖掘的范疇,涉及數(shù)據(jù)挖掘、機器學(xué)習(xí)、統(tǒng)計學(xué)、計算機、信息學(xué)等多個領(lǐng)域。它與數(shù)據(jù)挖掘既有共同之處,也有必須明確的不同點。
1,文本挖掘與數(shù)據(jù)挖掘的共性
在核心價值上,文本挖掘是從大量的文檔中發(fā)現(xiàn)隱含知識和模式,“自動化或半自動化處理文本的過程”,而這恰恰也是數(shù)據(jù)挖掘的目的所在,只是兩個領(lǐng)域所用的材料是不同的。
在底層技術(shù)上,文本挖掘帶有明顯的機器學(xué)習(xí)色彩,依賴于數(shù)據(jù)信息抽取、分類、聚類等基礎(chǔ)算法和技術(shù)。這些內(nèi)容在數(shù)據(jù)挖掘領(lǐng)域已大有建樹,甚至已發(fā)展出不同的算法流派。
在基本流程上,二者并無太大差異。由于文本挖掘本身的特異性,其過程則在遵循數(shù)據(jù)挖掘一般過程的基礎(chǔ)上有所變動。
2,文本挖掘的特性
文本挖掘最大的特性在于,它要處理的是對象——文本。用戶反饋文本本身是一種自然語言,機器能識別其中的每個漢字,但卻無法識別比字更高的單位(詞句段篇章)。正是這一差異,決定了文本挖掘過程中要經(jīng)歷一個自然語言處理的過程。簡單地說,就是要把人能輕易理解地自然語言加工成適用于數(shù)據(jù)挖掘手段的形式,同時又不失其意,這涉及語料庫、文本詞典和分詞技術(shù)等的使用。
在應(yīng)用場景上,文本挖掘則有一些獨特的價值。諸如商品標(biāo)簽、情感評估、意見抽取等,都需要文本挖掘技術(shù)作為支撐。
3,文本挖掘一般過程
如前所述,用戶反饋文本挖掘遵循數(shù)據(jù)挖掘的一般過程,但某些步驟上有所差異。
1)確定挖掘目標(biāo)
大多工具書上會將這一步作為數(shù)據(jù)挖掘的起點,因為這對整個項目的作用是提綱挈領(lǐng)的。同樣,文本挖掘也需要有明確的目標(biāo)。比如,我們希望了解新版本app存在的用戶體驗問題,或者了解用戶對app歷來的情感態(tài)度等,都可以得到回答。
2)確定數(shù)據(jù)源并獲取
前面已經(jīng)提到,用戶反饋的來源是非常豐富,主流的安卓移動應(yīng)用商店就有10多種。不同的安卓應(yīng)用商店內(nèi),文本字段也并不是完全統(tǒng)一的。因此對數(shù)據(jù)源的篩選,既包括數(shù)據(jù)存在平臺的挑選,也包括文本字段的篩查。至于選擇哪些數(shù)據(jù)源,一定要事先斟酌好:
首先要考慮文本挖掘的目標(biāo),也就是要回答的問題;
另一個要考慮的因素就是用戶群體的特征,尤其是用戶群體最有可能出現(xiàn)的地方,這決定了我們能否獲得足夠的數(shù)據(jù);
例如,我們在研究網(wǎng)易支付(原網(wǎng)易寶)app v3.1存在的用戶體驗問題時,考慮到網(wǎng)易支付app有一定量的游戲用戶,所以對網(wǎng)易各大游戲論壇進行了文本數(shù)據(jù)采集,最終不出所料地得到了相當(dāng)可觀的文本數(shù)據(jù)。(該案例會在下一期詳細介紹)
這一階段我們還可以梳理出高質(zhì)量用戶反饋數(shù)據(jù)源文檔、數(shù)據(jù)爬取文檔等中間產(chǎn)物,這對以后同類項目的開展是必不可少的。
3)數(shù)據(jù)的預(yù)處理
文本數(shù)據(jù)同樣也要經(jīng)過一定的預(yù)處理才能進行后續(xù)的分析使用,諸如數(shù)據(jù)的清洗、規(guī)約等也是文本數(shù)據(jù)預(yù)處理所必需的。
例如從網(wǎng)易游戲論壇抓取發(fā)帖數(shù)據(jù)時會發(fā)現(xiàn),新近帖子的發(fā)帖時間為“發(fā)表于x天前”,而更早的帖子則標(biāo)記為“發(fā)表于 2016-6-8”。這就要求我們獲得數(shù)據(jù)以后把發(fā)帖時間處理為統(tǒng)一格式,才更便于后續(xù)分析中使用該指標(biāo)。
4)文本的自然語言處理
前面提到,用戶反饋文本是基于自然語言的非結(jié)構(gòu)化數(shù)據(jù),因此文本挖掘過程最基礎(chǔ)的步驟就是自然語言處理的過程。這一過程包括語料庫整理、專業(yè)詞典、停用詞詞典等的準(zhǔn)備,和文本分詞、特征提取等一系列步驟。
本篇之所以把文本的自然語言處理作為一個單獨的環(huán)節(jié),是因為文本分詞是后續(xù)模型建構(gòu)的基礎(chǔ),其質(zhì)量決定這后續(xù)文本分類、聚類、主題建模等的優(yōu)劣。
5)統(tǒng)計學(xué)分析
文本分詞后,我們就已經(jīng)可以根據(jù)分詞的結(jié)果進行一些簡單的統(tǒng)計學(xué)層面的分析,例如詞頻統(tǒng)計、文檔-詞項(共現(xiàn))矩陣等。根據(jù)詞頻,我們可以知道用戶關(guān)注的核心話題是什么,其中的整體情感傾向又是怎樣的。
但這時的分析是比較粗糙的,僅僅是讓我們從整體上了解當(dāng)前分析的數(shù)據(jù)中的整體狀況。諸如用戶關(guān)注的所有熱點話題有哪些,不同情感的話題又有哪些,不同類型的用戶關(guān)注的話題有何差異,此時還無法回答。
6)文本數(shù)據(jù)建模
想要進一步了解(大量)用戶反饋的詳情與細節(jié),就需要用到一定的機器學(xué)習(xí)技術(shù),對已有文本數(shù)據(jù)進行更深層次的挖掘。
通過文本聚類,我們可以知道我們的產(chǎn)品還存在哪些問題;
通過文本分類,我們可以快速地每一條用戶反饋記錄劃分到其所屬的類別中;
通過文本情感分析,我們可以掌握用戶對產(chǎn)品的情感態(tài)度,甚至是用戶對產(chǎn)品的哪些方面產(chǎn)生了積極或消極的情感。
這一過程是用戶反饋文本挖掘最重要的過程,具體要針對用戶反饋文本建立什么樣的模型,既取決于文本挖掘的目標(biāo),也受到文本數(shù)據(jù)豐富性的限制。
7)文本數(shù)據(jù)模型的應(yīng)用
利用機器學(xué)習(xí)技術(shù)獲得各種數(shù)據(jù)模型后,我們還可以利用這些文本模型對產(chǎn)品作出改進。例如,通過對大量用戶反饋文本進行文本聚類或主題建模后,我們知道了用戶最常遇到的問題,后續(xù)就可以把這些問題的解決辦法加入到app的幫助中心,引導(dǎo)用戶自助解決問題,從而緩解客服壓力并提升用戶體驗。
四、文本的自然語言處理
作為非結(jié)構(gòu)化數(shù)據(jù),用戶反饋文本必須經(jīng)過自然語言處理操作才能進行胡須分析。
1,文本語料庫整理
文本挖掘的一大特性就是,文本數(shù)據(jù)中包含著大量的無意義字符,如標(biāo)點符號、數(shù)字、空格、英文字母等等。為了提高文本數(shù)據(jù)的價值密度,在分詞之前需要剔除其中的雜亂信息,而整理出的文檔就是后續(xù)分析所用到的語料庫。
2,文本分詞
為了讓機器更好地理解自然語言形式的用戶反饋文本,我們需要對文本進行切分,通俗的說就是告訴機器哪些字可以作為一個單位(詞),哪些字必須分開為兩個單位。目前,已有大量成熟的分詞工具流行,為我們的文本挖掘提供了很大便利。
但實際上,并不是所有的分詞工具都能夠很好地滿足我們的需要,必要的時候,我們還需要對所用到的分詞工具進行優(yōu)化。
3,分詞詞典使用
文本分詞存在的另一個問題就是,有些專業(yè)領(lǐng)域內(nèi)的詞,一開始在我們使用的分詞系統(tǒng)中并不存在。這時,就需要我們使用自定義的分詞詞典,提高分文本分析的精度。
4,去除停用詞
用戶反饋文本中同時還存在一些語氣詞、助詞等無任何實意的詞,分詞完成后,需要將他們?nèi)コ?。因為即便對它們進行分析,得到的結(jié)果也毫無意義。
與分詞類似,去除停用詞的過程中,則需要用到停用詞詞典。目前網(wǎng)絡(luò)上也有停用詞詞典可供下載,基本能夠滿足需要。
5,分詞是一個不斷優(yōu)化的過程
我們并不能保證分詞詞典能夠涵蓋數(shù)據(jù)集中的所有詞,所以總會出現(xiàn)個別詞無法準(zhǔn)確切分的情況。這時,就需要將新詞加入已有詞典,再次進行分詞。雖然該過程較為繁瑣,但對后續(xù)建模至關(guān)重要,尤其是某些關(guān)鍵詞無法準(zhǔn)確切分時。
6,分析結(jié)果的簡單展示
分詞完成后,可以簡單統(tǒng)計數(shù)據(jù)集中的詞頻。下圖是對網(wǎng)易理財用戶的用戶反饋記錄進行分詞后制作的詞云圖片,從中可以看出,理財用戶日常交流的熱點集中在“收益”、“(理財)產(chǎn)品”、“贖回”等方面,這也與互聯(lián)網(wǎng)理財?shù)谋尘跋辔呛稀?/p>
五、文本數(shù)據(jù)建模
用戶反饋文本的價值在于,其中包含著用戶對產(chǎn)品的關(guān)注熱點、遇到的bug和問題,以及用戶的情感態(tài)度等信息,而對這些內(nèi)容的挖掘則有利于我們掌握產(chǎn)品當(dāng)前的發(fā)展?fàn)顟B(tài),或找到后續(xù)優(yōu)化的突破點。因此,出于不同的研究問題,我們需要對文本數(shù)據(jù)進行模型建構(gòu)。
1,文本聚類與話題主題
用戶對產(chǎn)品問題的反饋主要集中在哪些方面——這想必是任何一位相關(guān)角色都希望知道答案的問題。但是由于文本量巨大,我們不可能逐條閱讀每條記錄,然后手工劃分類別。這時,通過文本聚類的方式將內(nèi)容上具有高相似度的文本記錄劃分成一類,最終獲得有限數(shù)量的問題主題。
決定兩條文本記錄能否劃分成同一類的依據(jù)——相似度——便是二者之間的統(tǒng)計距離,這里可以使歐幾里得距離、曼哈頓距離、切比雪夫距離。當(dāng)前,文本聚類技術(shù)常用的算法很多,適用于結(jié)構(gòu)化數(shù)據(jù)挖掘的k-means、kclust、kernel等方法同樣可以在文本數(shù)據(jù)挖掘中發(fā)揮作用。
2,短文本與主題模型方法
“我都沒點它,它就自動升級了,升級后關(guān)聯(lián)電話、銀行卡全錯誤……”
上面這條語錄是我們在實際項目中遇到的一條真實用戶反饋,其中包含“自動升級”、“關(guān)聯(lián)電話錯誤”、“快捷卡號錯誤”這3個主題,但在聚類分析中只能將其歸于一類,這就影響了文本挖掘準(zhǔn)確性和信息浪費,也不利于產(chǎn)品問題的解決。
為了解決這一問題,我們可以選擇主題模型(topic model)方法建構(gòu)用戶反饋文本中的主題。主題模型方法基于貝葉斯概率模型,將“主題”看做詞語的條件概率分布,認(rèn)為在一個主題上出現(xiàn)概率較高的詞項,能非常好的描述該主題的意義。同時,主題模型方法還可以避免一詞多義的問題,因為在主題模型方法看來,同一個詞在概率上可以同時屬于多個主題。
作為一種無監(jiān)督的算法模型,主題模型方法能夠自動化地從訓(xùn)練集中訓(xùn)練出主題的分析。常用的訓(xùn)練算法有兩種,pLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation),考慮到算法技術(shù)不是本篇討論的重點,故不做深入介紹。
3,文本分類與問題識別
與文本聚類不同的是,如果已經(jīng)有明確標(biāo)注文本主題的原始反饋記錄,我們就可以基于此對新獲得的反饋文本進行自動分類。但通常,這種已經(jīng)標(biāo)注類別的原始數(shù)據(jù)還是要靠人工標(biāo)注完成的,這也是其成本所在。
一般,我們會利用已經(jīng)人工標(biāo)注好的文本進行分類模型的訓(xùn)練,再從中抽出一小部分(或事先抽取好)進行模型測試,之后就可以利用新獲得的文本記錄進行模型的預(yù)測。文本分類的優(yōu)勢在于,它既可以快速處理大量新增文本,又能不斷優(yōu)化以滿足應(yīng)用場景的需要。
4,情感分析與用戶態(tài)度
用戶反饋文本是用戶使用產(chǎn)品的體驗的反饋的集合,這其中應(yīng)該包含體驗優(yōu)良和體驗不良兩方面的內(nèi)容,這就給我們提供了從情感角度分析用戶對產(chǎn)品的積極、消極態(tài)度的機會。
從情感極性的角度,我們可以分析產(chǎn)品的哪些方面給用戶帶來了積極體驗,而又是哪些方面導(dǎo)致了用戶的消極體驗,甚至是極端情感。從情感類別的角度看,我們可以挖掘產(chǎn)品的某一特定方面,給用戶帶來了哪種具體的情緒體驗,如新版本升級帶來的是驚喜,還是不適應(yīng);app中的一個問題,給用戶帶來的是疑惑,還是憤怒等等。
常用的文本情感分析主要有基于情感詞典的文本-詞項匹配方法、無監(jiān)督的機器學(xué)習(xí)方法和基于人工標(biāo)注語料庫的機器學(xué)習(xí)方法,其中成本最低的是基于情感詞典的方法。這一方法一般需要用到情感詞典,如《<知網(wǎng)>情感分析用詞語集》、《臺灣大學(xué)簡體中文情感極性詞典》等,在分析過程中則是將原始文本中的詞項與情感詞典進行匹配并標(biāo)記得分,最后基于詞項得分合成整條記錄的情感得分。
除了情感極性外,基于情感詞典的方法還可用于計算文本的情感強度,此時與原始詞項進行匹配的不再是正負情感,而是正負情感對應(yīng)的正負分值。
5,語義網(wǎng)絡(luò)分析與問題背景
用戶使用產(chǎn)品時遇到的問題,總是存在于一定的背景中的,這并不是指時間、地點等信息,而是前因后果這樣的事件背景。通過文本的語義網(wǎng)絡(luò)分析,我們可以更全面地了解到一個問題與另一個問題之間的關(guān)聯(lián),清楚地說明兩個問題之間的相互影響,讓我們能夠更清楚地回答問題的發(fā)生或結(jié)果。
例如,我們在研究理財用戶的反饋文本時發(fā)現(xiàn),用戶在搶購票據(jù)(網(wǎng)易理財推出的一種互聯(lián)網(wǎng)理財產(chǎn)品)時遇到了“交易失敗”的問題。但進行了語義網(wǎng)絡(luò)分析后發(fā)現(xiàn),“交易失敗”問題與“收不到短信驗證碼”、“忘記交易密碼”、“搶購額度太高”等均存在關(guān)聯(lián),這就意味著交易失敗并不是一個單一的問題,而是由各種原因?qū)е?,因此解決這一問題時更要“辯證施治”。
6,時間序列分析與時間規(guī)律
用戶反饋文本的分析通常是針對一段時間內(nèi)的文本資料進行的,我們在采集數(shù)據(jù)時,同時還會獲得每條記錄對應(yīng)的時間字段。這樣一來,我們就可以基于時間維度,分析各個用戶反饋主題是否存在明顯的時間規(guī)律。例如,如果app的每個版本期間,某一主題(某一app問題反饋)始終存在,這就意味著這一問題始終沒有得到解決。
六、總結(jié)
用戶使用產(chǎn)品的同時,會自發(fā)的產(chǎn)生大量的用戶反饋,可以是應(yīng)用商店內(nèi)的用戶評論,也可以是客服咨詢記錄,還可以是貼吧、論壇內(nèi)的用戶交流、咨詢貼子。這些用戶反饋中,包含著用戶對產(chǎn)品的關(guān)注點、遇到的問題,以及用戶的情感態(tài)度等各種相關(guān)信息。對這些文本信息的挖掘,既能幫助我們了解產(chǎn)品當(dāng)前的用戶體驗狀態(tài),更能幫助我們找到需要對產(chǎn)品進行優(yōu)化的地方。
本篇中,我們向大家介紹了用戶反饋內(nèi)容的文本挖掘過程和相關(guān)方法,但主要是基于人工操作的,需要耗費大量的時間和人力成本。實際上,目前已有一些成熟的分析系統(tǒng),對不同形式的用戶反饋文本進行分析,并且通過可視化的形式展現(xiàn)分析結(jié)果,這也從側(cè)面反映出行業(yè)內(nèi)對用戶相關(guān)的文本數(shù)據(jù)的關(guān)注和重視。
當(dāng)然,用戶反饋文本數(shù)據(jù)的挖掘只是信息獲取的層面,之后,我們還可以利用文本挖掘的結(jié)果做更深入的利用,如智能客服系統(tǒng)、輿情監(jiān)控系統(tǒng)等等。甚至可以打造出具有針對性的文本數(shù)據(jù)產(chǎn)品,專門服務(wù)于不同角色。
參考資料:
金融行業(yè)的數(shù)據(jù)挖掘之道:http://www.infoq.com/cn/articles/icbc-bigdata-experience
如何挖掘網(wǎng)民意見?評價對象抽取綜述:http://www.199it.com/archives/416727.html
語義分析網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析研究方向及問題:http://www.199it.com/archives/431399.html
文本特征提取方法研究:http://blog.chinaunix.net/uid-20767210-id-1849628.html
R語言做文本挖掘(系列):EchoCaiCai的專欄(CSDN)
LDA主題聚類學(xué)習(xí)小結(jié):http://my.oschina.net/BreathL/blog/165558