91色噜噜狠狠色婷婷,国产人妖另类久久,欧美爽爽爽爽爽爽爽爽

導(dǎo)讀

用戶反饋文本，作為用戶問題、建議、態(tài)度的載體，對產(chǎn)品評估和改進優(yōu)化極具價值。但作為非結(jié)構(gòu)化數(shù)據(jù)，用戶反饋文本的處理并不完全適用結(jié)構(gòu)化數(shù)據(jù)挖掘流程。本篇，將向大家闡述用戶反饋文本挖掘的特性和一般過程，重點介紹用戶反饋文本可以為我們帶來怎樣的價值，以及如何利用這些內(nèi)容。

一、傳統(tǒng)用戶反饋

用戶反饋，作為產(chǎn)品使用體驗最直接的反饋，對產(chǎn)品現(xiàn)狀的評估和后續(xù)優(yōu)化的價值不言而喻。

“用戶反饋”的百科釋義

傳統(tǒng)用戶研究通過訪談等有目的的接觸式方法搜集這些信息，并利用質(zhì)性研究手段對資料進行歸納、演繹、推論，最終推動分析結(jié)果在產(chǎn)品、運營等各方落地。但這類方式搜集的資料數(shù)量有限，而且受到分析者主觀經(jīng)驗的限制，是一種相對高成本的研究手段。

傳統(tǒng)用戶反饋的使用與分析方法，我們在本系列的前2期已經(jīng)進行了詳細地介紹。但如果著眼于用戶反饋分析的核心價值——搜集輿情，我們會發(fā)現(xiàn)用戶研究可使用的資料及其方式遠不止于此。

二、用戶自發(fā)的產(chǎn)品反饋

實際上，用戶在使用我們的產(chǎn)品后，會自發(fā)地發(fā)表對產(chǎn)品使用的評價、意見，甚至遇到的問題等。

百度貼吧中關(guān)于“網(wǎng)易支付”的帖子

我們在本系列的導(dǎo)讀中曾提到，用戶自發(fā)的反饋依其內(nèi)容特性，大致包括傳播類、評價類、意見建議類3種。這些反饋中，包含著用戶對產(chǎn)品的關(guān)注熱點、遇到的bug和投訴，以及用戶的情感態(tài)度等寶貴信息。如果能夠?qū)@些信息加以挖掘和利用，將給我們帶來極大的收獲。這類用戶自發(fā)的反饋具有以下幾個特性：

1，來源豐富

用戶發(fā)表意見的地方是不受限制的，這就意味著我們所需的資料散布在互聯(lián)網(wǎng)上的各個地方。就我們的經(jīng)驗來看，APP Store、安卓應(yīng)用商店、微博、貼吧，當(dāng)然還有網(wǎng)易游戲論壇等，是幾個主要的數(shù)據(jù)來源。

主要應(yīng)用商店

2，數(shù)量可觀

鑒于數(shù)據(jù)來源的豐富，以用戶基數(shù)為基礎(chǔ)，我們能夠獲得的用戶反饋數(shù)量也是巨大的。例如，APP Store內(nèi)網(wǎng)易云音樂iOS移動端的累積用戶評論（反饋）已達7萬4千條，而網(wǎng)易新聞app則多達17萬條之多。

3，數(shù)據(jù)類型多樣

我們在發(fā)表關(guān)于產(chǎn)品使用體驗時，不僅僅是文字表達，還會附帶圖片、emoj表情等，而在客服系統(tǒng)中還存在著語音記錄。當(dāng)然，文本形式的用戶反饋仍然占據(jù)最大比重，相對也更容易在技術(shù)上實現(xiàn)。但隨著技術(shù)的提升，多媒體形式的用戶反饋挖掘?qū)⒊蔀榱硪环斓亍?/p>

貼吧中用戶以表情和圖片說明問題

4，數(shù)據(jù)價值密度低

用戶反饋文本存在的一個問題，就是數(shù)據(jù)中包含著大量的垃圾數(shù)據(jù)，“存在大量共現(xiàn)但又毫無意義的關(guān)聯(lián)模式”。這一問題的嚴(yán)重性取決于數(shù)據(jù)源的質(zhì)量，而技術(shù)上，則需要進行識別和清洗。

游戲論壇用戶多為灌水用戶

三、用戶反饋文本挖掘的特性與過程

本篇所針對的是文本形式用戶反饋的分析，屬于文本挖掘的范疇，涉及數(shù)據(jù)挖掘、機器學(xué)習(xí)、統(tǒng)計學(xué)、計算機、信息學(xué)等多個領(lǐng)域。它與數(shù)據(jù)挖掘既有共同之處，也有必須明確的不同點。

1，文本挖掘與數(shù)據(jù)挖掘的共性

在核心價值上，文本挖掘是從大量的文檔中發(fā)現(xiàn)隱含知識和模式，“自動化或半自動化處理文本的過程”，而這恰恰也是數(shù)據(jù)挖掘的目的所在，只是兩個領(lǐng)域所用的材料是不同的。

在底層技術(shù)上，文本挖掘帶有明顯的機器學(xué)習(xí)色彩，依賴于數(shù)據(jù)信息抽取、分類、聚類等基礎(chǔ)算法和技術(shù)。這些內(nèi)容在數(shù)據(jù)挖掘領(lǐng)域已大有建樹，甚至已發(fā)展出不同的算法流派。

在基本流程上，二者并無太大差異。由于文本挖掘本身的特異性，其過程則在遵循數(shù)據(jù)挖掘一般過程的基礎(chǔ)上有所變動。

2，文本挖掘的特性

文本挖掘最大的特性在于，它要處理的是對象——文本。用戶反饋文本本身是一種自然語言，機器能識別其中的每個漢字，但卻無法識別比字更高的單位（詞句段篇章）。正是這一差異，決定了文本挖掘過程中要經(jīng)歷一個自然語言處理的過程。簡單地說，就是要把人能輕易理解地自然語言加工成適用于數(shù)據(jù)挖掘手段的形式，同時又不失其意，這涉及語料庫、文本詞典和分詞技術(shù)等的使用。

用戶機器理解漢字的方式（Unicode編碼）

在應(yīng)用場景上，文本挖掘則有一些獨特的價值。諸如商品標(biāo)簽、情感評估、意見抽取等，都需要文本挖掘技術(shù)作為支撐。

3，文本挖掘一般過程

如前所述，用戶反饋文本挖掘遵循數(shù)據(jù)挖掘的一般過程，但某些步驟上有所差異。

文本挖掘的一般流程示意

1）確定挖掘目標(biāo)

大多工具書上會將這一步作為數(shù)據(jù)挖掘的起點，因為這對整個項目的作用是提綱挈領(lǐng)的。同樣，文本挖掘也需要有明確的目標(biāo)。比如，我們希望了解新版本app存在的用戶體驗問題，或者了解用戶對app歷來的情感態(tài)度等，都可以得到回答。

2）確定數(shù)據(jù)源并獲取

前面已經(jīng)提到，用戶反饋的來源是非常豐富，主流的安卓移動應(yīng)用商店就有10多種。不同的安卓應(yīng)用商店內(nèi)，文本字段也并不是完全統(tǒng)一的。因此對數(shù)據(jù)源的篩選，既包括數(shù)據(jù)存在平臺的挑選，也包括文本字段的篩查。至于選擇哪些數(shù)據(jù)源，一定要事先斟酌好：

首先要考慮文本挖掘的目標(biāo)，也就是要回答的問題；

另一個要考慮的因素就是用戶群體的特征，尤其是用戶群體最有可能出現(xiàn)的地方，這決定了我們能否獲得足夠的數(shù)據(jù)；

例如，我們在研究網(wǎng)易支付（原網(wǎng)易寶）app v3.1存在的用戶體驗問題時，考慮到網(wǎng)易支付app有一定量的游戲用戶，所以對網(wǎng)易各大游戲論壇進行了文本數(shù)據(jù)采集，最終不出所料地得到了相當(dāng)可觀的文本數(shù)據(jù)。（該案例會在下一期詳細介紹）

網(wǎng)易游戲論壇作為數(shù)據(jù)源

這一階段我們還可以梳理出高質(zhì)量用戶反饋數(shù)據(jù)源文檔、數(shù)據(jù)爬取文檔等中間產(chǎn)物，這對以后同類項目的開展是必不可少的。

3）數(shù)據(jù)的預(yù)處理

文本數(shù)據(jù)同樣也要經(jīng)過一定的預(yù)處理才能進行后續(xù)的分析使用，諸如數(shù)據(jù)的清洗、規(guī)約等也是文本數(shù)據(jù)預(yù)處理所必需的。

例如從網(wǎng)易游戲論壇抓取發(fā)帖數(shù)據(jù)時會發(fā)現(xiàn)，新近帖子的發(fā)帖時間為“發(fā)表于x天前”，而更早的帖子則標(biāo)記為“發(fā)表于 2016-6-8”。這就要求我們獲得數(shù)據(jù)以后把發(fā)帖時間處理為統(tǒng)一格式，才更便于后續(xù)分析中使用該指標(biāo)。

未清洗的文本數(shù)據(jù)字段

4）文本的自然語言處理

前面提到，用戶反饋文本是基于自然語言的非結(jié)構(gòu)化數(shù)據(jù)，因此文本挖掘過程最基礎(chǔ)的步驟就是自然語言處理的過程。這一過程包括語料庫整理、專業(yè)詞典、停用詞詞典等的準(zhǔn)備，和文本分詞、特征提取等一系列步驟。

本篇之所以把文本的自然語言處理作為一個單獨的環(huán)節(jié)，是因為文本分詞是后續(xù)模型建構(gòu)的基礎(chǔ)，其質(zhì)量決定這后續(xù)文本分類、聚類、主題建模等的優(yōu)劣。

5）統(tǒng)計學(xué)分析

文本分詞后，我們就已經(jīng)可以根據(jù)分詞的結(jié)果進行一些簡單的統(tǒng)計學(xué)層面的分析，例如詞頻統(tǒng)計、文檔-詞項（共現(xiàn)）矩陣等。根據(jù)詞頻，我們可以知道用戶關(guān)注的核心話題是什么，其中的整體情感傾向又是怎樣的。

詞頻統(tǒng)計結(jié)果

但這時的分析是比較粗糙的，僅僅是讓我們從整體上了解當(dāng)前分析的數(shù)據(jù)中的整體狀況。諸如用戶關(guān)注的所有熱點話題有哪些，不同情感的話題又有哪些，不同類型的用戶關(guān)注的話題有何差異，此時還無法回答。

6）文本數(shù)據(jù)建模

想要進一步了解（大量）用戶反饋的詳情與細節(jié)，就需要用到一定的機器學(xué)習(xí)技術(shù)，對已有文本數(shù)據(jù)進行更深層次的挖掘。

通過文本聚類，我們可以知道我們的產(chǎn)品還存在哪些問題；

通過文本分類，我們可以快速地每一條用戶反饋記錄劃分到其所屬的類別中；

通過文本情感分析，我們可以掌握用戶對產(chǎn)品的情感態(tài)度，甚至是用戶對產(chǎn)品的哪些方面產(chǎn)生了積極或消極的情感。

這一過程是用戶反饋文本挖掘最重要的過程，具體要針對用戶反饋文本建立什么樣的模型，既取決于文本挖掘的目標(biāo)，也受到文本數(shù)據(jù)豐富性的限制。

7）文本數(shù)據(jù)模型的應(yīng)用

利用機器學(xué)習(xí)技術(shù)獲得各種數(shù)據(jù)模型后，我們還可以利用這些文本模型對產(chǎn)品作出改進。例如，通過對大量用戶反饋文本進行文本聚類或主題建模后，我們知道了用戶最常遇到的問題，后續(xù)就可以把這些問題的解決辦法加入到app的幫助中心，引導(dǎo)用戶自助解決問題，從而緩解客服壓力并提升用戶體驗。

四、文本的自然語言處理

作為非結(jié)構(gòu)化數(shù)據(jù)，用戶反饋文本必須經(jīng)過自然語言處理操作才能進行胡須分析。

1，文本語料庫整理

文本挖掘的一大特性就是，文本數(shù)據(jù)中包含著大量的無意義字符，如標(biāo)點符號、數(shù)字、空格、英文字母等等。為了提高文本數(shù)據(jù)的價值密度，在分詞之前需要剔除其中的雜亂信息，而整理出的文檔就是后續(xù)分析所用到的語料庫。

2，文本分詞

為了讓機器更好地理解自然語言形式的用戶反饋文本，我們需要對文本進行切分，通俗的說就是告訴機器哪些字可以作為一個單位（詞），哪些字必須分開為兩個單位。目前，已有大量成熟的分詞工具流行，為我們的文本挖掘提供了很大便利。

常用的分詞系統(tǒng)/工具

但實際上，并不是所有的分詞工具都能夠很好地滿足我們的需要，必要的時候，我們還需要對所用到的分詞工具進行優(yōu)化。

常用的文本分詞包（R）

優(yōu)化后的文本分詞包（R）

3，分詞詞典使用

文本分詞存在的另一個問題就是，有些專業(yè)領(lǐng)域內(nèi)的詞，一開始在我們使用的分詞系統(tǒng)中并不存在。這時，就需要我們使用自定義的分詞詞典，提高分文本分析的精度。

文本分詞可利用搜狗詞庫提高分詞精確度

4，去除停用詞

用戶反饋文本中同時還存在一些語氣詞、助詞等無任何實意的詞，分詞完成后，需要將他們?nèi)コ?。因為即便對它們進行分析，得到的結(jié)果也毫無意義。

與分詞類似，去除停用詞的過程中，則需要用到停用詞詞典。目前網(wǎng)絡(luò)上也有停用詞詞典可供下載，基本能夠滿足需要。

5，分詞是一個不斷優(yōu)化的過程

我們并不能保證分詞詞典能夠涵蓋數(shù)據(jù)集中的所有詞，所以總會出現(xiàn)個別詞無法準(zhǔn)確切分的情況。這時，就需要將新詞加入已有詞典，再次進行分詞。雖然該過程較為繁瑣，但對后續(xù)建模至關(guān)重要，尤其是某些關(guān)鍵詞無法準(zhǔn)確切分時。

通過補充詞典優(yōu)化分詞結(jié)果

6，分析結(jié)果的簡單展示

分詞完成后，可以簡單統(tǒng)計數(shù)據(jù)集中的詞頻。下圖是對網(wǎng)易理財用戶的用戶反饋記錄進行分詞后制作的詞云圖片，從中可以看出，理財用戶日常交流的熱點集中在“收益”、“（理財）產(chǎn)品”、“贖回”等方面，這也與互聯(lián)網(wǎng)理財?shù)谋尘跋辔呛稀?/p>

分詞后的高頻詞詞云局部

五、文本數(shù)據(jù)建模

用戶反饋文本的價值在于，其中包含著用戶對產(chǎn)品的關(guān)注熱點、遇到的bug和問題，以及用戶的情感態(tài)度等信息，而對這些內(nèi)容的挖掘則有利于我們掌握產(chǎn)品當(dāng)前的發(fā)展?fàn)顟B(tài)，或找到后續(xù)優(yōu)化的突破點。因此，出于不同的研究問題，我們需要對文本數(shù)據(jù)進行模型建構(gòu)。

1，文本聚類與話題主題

用戶對產(chǎn)品問題的反饋主要集中在哪些方面——這想必是任何一位相關(guān)角色都希望知道答案的問題。但是由于文本量巨大，我們不可能逐條閱讀每條記錄，然后手工劃分類別。這時，通過文本聚類的方式將內(nèi)容上具有高相似度的文本記錄劃分成一類，最終獲得有限數(shù)量的問題主題。

基于R語言的hclust聚類

決定兩條文本記錄能否劃分成同一類的依據(jù)——相似度——便是二者之間的統(tǒng)計距離，這里可以使歐幾里得距離、曼哈頓距離、切比雪夫距離。當(dāng)前，文本聚類技術(shù)常用的算法很多，適用于結(jié)構(gòu)化數(shù)據(jù)挖掘的k-means、kclust、kernel等方法同樣可以在文本數(shù)據(jù)挖掘中發(fā)揮作用。

2，短文本與主題模型方法

“我都沒點它，它就自動升級了，升級后關(guān)聯(lián)電話、銀行卡全錯誤……”

上面這條語錄是我們在實際項目中遇到的一條真實用戶反饋，其中包含“自動升級”、“關(guān)聯(lián)電話錯誤”、“快捷卡號錯誤”這3個主題，但在聚類分析中只能將其歸于一類，這就影響了文本挖掘準(zhǔn)確性和信息浪費，也不利于產(chǎn)品問題的解決。

單個關(guān)鍵詞代表問題主題的不足

為了解決這一問題，我們可以選擇主題模型（topic model）方法建構(gòu)用戶反饋文本中的主題。主題模型方法基于貝葉斯概率模型，將“主題”看做詞語的條件概率分布，認(rèn)為在一個主題上出現(xiàn)概率較高的詞項，能非常好的描述該主題的意義。同時，主題模型方法還可以避免一詞多義的問題，因為在主題模型方法看來，同一個詞在概率上可以同時屬于多個主題。

文本主題模型結(jié)果示例

作為一種無監(jiān)督的算法模型，主題模型方法能夠自動化地從訓(xùn)練集中訓(xùn)練出主題的分析。常用的訓(xùn)練算法有兩種，pLSA（Probabilistic Latent Semantic Analysis）和LDA（Latent Dirichlet Allocation），考慮到算法技術(shù)不是本篇討論的重點，故不做深入介紹。

3，文本分類與問題識別

與文本聚類不同的是，如果已經(jīng)有明確標(biāo)注文本主題的原始反饋記錄，我們就可以基于此對新獲得的反饋文本進行自動分類。但通常，這種已經(jīng)標(biāo)注類別的原始數(shù)據(jù)還是要靠人工標(biāo)注完成的，這也是其成本所在。

一般，我們會利用已經(jīng)人工標(biāo)注好的文本進行分類模型的訓(xùn)練，再從中抽出一小部分（或事先抽取好）進行模型測試，之后就可以利用新獲得的文本記錄進行模型的預(yù)測。文本分類的優(yōu)勢在于，它既可以快速處理大量新增文本，又能不斷優(yōu)化以滿足應(yīng)用場景的需要。

4，情感分析與用戶態(tài)度

用戶反饋文本是用戶使用產(chǎn)品的體驗的反饋的集合，這其中應(yīng)該包含體驗優(yōu)良和體驗不良兩方面的內(nèi)容，這就給我們提供了從情感角度分析用戶對產(chǎn)品的積極、消極態(tài)度的機會。

從情感極性的角度，我們可以分析產(chǎn)品的哪些方面給用戶帶來了積極體驗，而又是哪些方面導(dǎo)致了用戶的消極體驗，甚至是極端情感。從情感類別的角度看，我們可以挖掘產(chǎn)品的某一特定方面，給用戶帶來了哪種具體的情緒體驗，如新版本升級帶來的是驚喜，還是不適應(yīng)；app中的一個問題，給用戶帶來的是疑惑，還是憤怒等等。

常用的文本情感分析主要有基于情感詞典的文本-詞項匹配方法、無監(jiān)督的機器學(xué)習(xí)方法和基于人工標(biāo)注語料庫的機器學(xué)習(xí)方法，其中成本最低的是基于情感詞典的方法。這一方法一般需要用到情感詞典，如《<知網(wǎng)>情感分析用詞語集》、《臺灣大學(xué)簡體中文情感極性詞典》等，在分析過程中則是將原始文本中的詞項與情感詞典進行匹配并標(biāo)記得分，最后基于詞項得分合成整條記錄的情感得分。

微博200萬條情感語料庫片段

除了情感極性外，基于情感詞典的方法還可用于計算文本的情感強度，此時與原始詞項進行匹配的不再是正負情感，而是正負情感對應(yīng)的正負分值。

5，語義網(wǎng)絡(luò)分析與問題背景

用戶使用產(chǎn)品時遇到的問題，總是存在于一定的背景中的，這并不是指時間、地點等信息，而是前因后果這樣的事件背景。通過文本的語義網(wǎng)絡(luò)分析，我們可以更全面地了解到一個問題與另一個問題之間的關(guān)聯(lián)，清楚地說明兩個問題之間的相互影響，讓我們能夠更清楚地回答問題的發(fā)生或結(jié)果。

例如，我們在研究理財用戶的反饋文本時發(fā)現(xiàn)，用戶在搶購票據(jù)（網(wǎng)易理財推出的一種互聯(lián)網(wǎng)理財產(chǎn)品）時遇到了“交易失敗”的問題。但進行了語義網(wǎng)絡(luò)分析后發(fā)現(xiàn)，“交易失敗”問題與“收不到短信驗證碼”、“忘記交易密碼”、“搶購額度太高”等均存在關(guān)聯(lián)，這就意味著交易失敗并不是一個單一的問題，而是由各種原因?qū)е?，因此解決這一問題時更要“辯證施治”。

6，時間序列分析與時間規(guī)律

用戶反饋文本的分析通常是針對一段時間內(nèi)的文本資料進行的，我們在采集數(shù)據(jù)時，同時還會獲得每條記錄對應(yīng)的時間字段。這樣一來，我們就可以基于時間維度，分析各個用戶反饋主題是否存在明顯的時間規(guī)律。例如，如果app的每個版本期間，某一主題（某一app問題反饋）始終存在，這就意味著這一問題始終沒有得到解決。

六、總結(jié)

用戶使用產(chǎn)品的同時，會自發(fā)的產(chǎn)生大量的用戶反饋，可以是應(yīng)用商店內(nèi)的用戶評論，也可以是客服咨詢記錄，還可以是貼吧、論壇內(nèi)的用戶交流、咨詢貼子。這些用戶反饋中，包含著用戶對產(chǎn)品的關(guān)注點、遇到的問題，以及用戶的情感態(tài)度等各種相關(guān)信息。對這些文本信息的挖掘，既能幫助我們了解產(chǎn)品當(dāng)前的用戶體驗狀態(tài)，更能幫助我們找到需要對產(chǎn)品進行優(yōu)化的地方。

本篇中，我們向大家介紹了用戶反饋內(nèi)容的文本挖掘過程和相關(guān)方法，但主要是基于人工操作的，需要耗費大量的時間和人力成本。實際上，目前已有一些成熟的分析系統(tǒng)，對不同形式的用戶反饋文本進行分析，并且通過可視化的形式展現(xiàn)分析結(jié)果，這也從側(cè)面反映出行業(yè)內(nèi)對用戶相關(guān)的文本數(shù)據(jù)的關(guān)注和重視。

當(dāng)然，用戶反饋文本數(shù)據(jù)的挖掘只是信息獲取的層面，之后，我們還可以利用文本挖掘的結(jié)果做更深入的利用，如智能客服系統(tǒng)、輿情監(jiān)控系統(tǒng)等等。甚至可以打造出具有針對性的文本數(shù)據(jù)產(chǎn)品，專門服務(wù)于不同角色。

參考資料：

金融行業(yè)的數(shù)據(jù)挖掘之道：http://www.infoq.com/cn/articles/icbc-bigdata-experience

如何挖掘網(wǎng)民意見？評價對象抽取綜述：http://www.199it.com/archives/416727.html

語義分析網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析研究方向及問題：http://www.199it.com/archives/431399.html

文本特征提取方法研究：http://blog.chinaunix.net/uid-20767210-id-1849628.html

R語言做文本挖掘（系列）：EchoCaiCai的專欄（CSDN）

LDA主題聚類學(xué)習(xí)小結(jié)：http://my.oschina.net/BreathL/blog/165558

文章首發(fā)于“網(wǎng)易金融大數(shù)據(jù)實驗室”（微信公眾號），文章地址：點擊跳轉(zhuǎn)文章頁

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

用戶研究之文本研究系列-3：用戶反饋文本挖掘基礎(chǔ)

用戶研究之文本研究系列-3：用戶反饋文本挖掘基礎(chǔ)

導(dǎo)讀

一、傳統(tǒng)用戶反饋