一、基礎(chǔ)知識

假設(shè)有一份文本數(shù)據(jù)如下，數(shù)據(jù)量很大，現(xiàn)在要對整個語料庫進行文本分析，category代表新聞種類，theme代表新聞主題，URL代表新聞鏈接地址，content代表新聞主題內(nèi)容

image

停用詞：在content這一列，在數(shù)據(jù)量很大的情況，很容易發(fā)現(xiàn)某些似乎與新聞本身意義不大的詞大量出現(xiàn)，而我們就把這些在語料庫中大量出現(xiàn)但是又沒啥大用的詞叫做停用詞，在數(shù)據(jù)集鏈接中包含一份常見的停用詞，如下所示：

image

TF-IDF：用于關(guān)鍵詞提取。比如在一篇名叫《中國的蜜蜂養(yǎng)殖》這篇文章中進行詞頻（Term Frequency，縮寫為TF）統(tǒng)計出現(xiàn)次數(shù)最多的詞是“的”、“是”、“在”等這一類最常用的詞（停用詞，一般來說是要去掉的），在刪除掉停用詞過后我們發(fā)現(xiàn)“中國”、“蜜蜂”、“養(yǎng)殖”這三個詞的出現(xiàn)次數(shù)一樣多，那么這三個詞的重要性是一樣的嗎？一般來說"中國"是很常見的詞，相對而言，"蜜蜂"和"養(yǎng)殖"不那么常見。這時就需要引入一個叫做逆文檔頻率來進行衡量。"逆文檔頻率"（Inverse Document Frequency，縮寫為IDF）如果某個詞相比較于整個語料庫來說比較少見，但是它在這篇文章中多次出現(xiàn)，那么它很可能就反映了這篇文章的特性，那它正是我們所需要的關(guān)鍵詞。

計算公式

image

TF-IDF = 詞頻(TF) * 逆文檔頻率(IDF)。還是在《中國的蜜蜂養(yǎng)殖》這篇文章中：假定該文長度為1000個詞，"中國"、"蜜蜂"、"養(yǎng)殖"各出現(xiàn)20次，則這三個詞的"詞頻"（TF）都為0.02。搜索Google發(fā)現(xiàn)，包含"的"字的網(wǎng)頁共有250億張，假定這就是中文網(wǎng)頁總數(shù)(也就是語料庫)。包含"中國"的網(wǎng)頁共有62.3億張，包含"蜜蜂"的網(wǎng)頁為0.484億張，包含"養(yǎng)殖"的網(wǎng)頁為0.973億張。

image

可以看出蜜蜂和養(yǎng)殖的TF-IDF值比中國這個詞大，那么這篇文章的關(guān)鍵詞重要性依次為蜜蜂、養(yǎng)殖和中國。

文本相似度：假設(shè)有如下兩個句子A、B，我們該怎么判斷這兩個句子的相似度呢

句子A：我喜歡看電視，不喜歡看電影。
　句子B：我不喜歡看電視，也不喜歡看電影。
先進行分詞來看一下。

句子A：我/喜歡/看/電視，不/喜歡/看/電影。
　句子B：我/不/喜歡/看/電視，也/不/喜歡/看/電影。
可以得到整個語料庫：我，喜歡，看，電視，電影，不，也。
然后進行詞頻的統(tǒng)計

句子A：我 1，喜歡 2，看 2，電視 1，電影 1，不 1，也 0。
　句子B：我 1，喜歡 2，看 2，電視 1，電影 1，不 2，也 1。
這樣就可以得出詞頻向量
　句子A：[1, 2, 2, 1, 1, 1, 0]
　句子B：[1, 2, 2, 1, 1, 2, 1]

相似度計算方法：最常用通過余弦進行計算

image

二、任務(wù)簡介與數(shù)據(jù)預(yù)處理

現(xiàn)在我們手里一份新聞數(shù)據(jù)，數(shù)據(jù)里面包含新聞的內(nèi)容以及新聞的種類等等，我們要做的就是對新聞進行一個分類任務(wù)，比如說汽車類時尚類等等。

數(shù)據(jù)集鏈接：https://pan.baidu.com/s/1fG_oagJT69bIgCZgasn_Ig 提取碼：yzd0

導(dǎo)入相關(guān)的python庫

import pandas as pd

import jieba # 如果沒有這個庫可能需要手動安裝

讀取數(shù)據(jù)集并刪除缺失的數(shù)據(jù)集(缺失的數(shù)據(jù)很少，所以可以刪除)　
# read_table()讀取以‘/t’分割的文件到DataFrame

# 在實際使用中可以通過對sep參數(shù)的控制來對任何文本文件讀取

df_news = pd.read_table(``'./data/val.txt'``,names``=``[``'category'``,``'theme'``,``'URL'``,``'content'``],encoding``=``'utf-8'``)

df_news = df_news.dropna() # 刪除缺失數(shù)據(jù)

df_news.head()

content為新聞的主體內(nèi)容

image

查看數(shù)據(jù)集維度

df_news.shape

得到的結(jié)果

將新聞內(nèi)容轉(zhuǎn)換為list方便進行分詞并查看第1000條數(shù)據(jù)內(nèi)容

content = df_news.content.values.tolist() # 轉(zhuǎn)換為list 實際上是二維list

print``(content[``1000``])

內(nèi)容為：

<pre>阿里巴巴集團昨日宣布，將在集團管理層面設(shè)立首席數(shù)據(jù)官崗位（Ｃｈｉｅｆ?。模幔簦帷。希妫妫椋悖澹颍⒗锇桶停拢玻鹿?br> 司ＣＥＯ陸兆禧將會出任上述職務(wù)，向集團ＣＥＯ馬云直接匯報。＞菹ぃ和６月初的首席風(fēng)險官職務(wù)任命相同，首席數(shù)據(jù)官亦為阿
里巴巴集團在完成與雅虎股權(quán)談判，推進“ｏｎｅ?。悖铮恚穑幔睿蹦繕?biāo)后，在集團決策層面新增的管理崗位。０⒗錛團昨日表示
，“變成一家真正意義上的數(shù)據(jù)公司”已是戰(zhàn)略共識。記者劉夏</pre>

下面使用python中的jieba庫進行分詞

content_S = []

for line in content:

# jieba分詞精確模式。返回一個列表類型，建議使用

current_segment = jieba.lcut(line)

if len``(current_segment) > 1 and current_segment !``= '\r\n'``:

content_S.append(current_segment)

|
查看第1000條數(shù)據(jù)分詞后的內(nèi)容

content_S[``1000``]

image

轉(zhuǎn)為pandas支持的DataFrame格式
df_content = pd.DataFrame({``'content_S'``:content_S}) # 轉(zhuǎn)換為DataFrame

df_content.head()

分完詞后的結(jié)果為：

image

可以發(fā)現(xiàn)數(shù)據(jù)里面包含很多無用的詞匯，所以我們需要對這些數(shù)據(jù)進行清洗，就是刪除掉里面包含的停用詞

三、刪除停用詞

讀取停用詞表
# 讀取停詞表

stopwords = pd.read_csv(``'./data/stopwords.txt'``,index_col``=``False``,sep``=``'\t'``,quoting``=``3``,names``=``[``'stopword'``],encoding``=``'utf-8'``)

stopwords.head()

結(jié)果為：

image

刪除語料庫中的停用詞，這里面的all_words是為了后面的詞云展示。

# 刪除新聞中的停用詞

def drop_stopwords(contents, stopwords):

contents_clean = [] # 刪除后的新聞

all_words = [] # 構(gòu)造詞云所用的數(shù)據(jù)

for line in contents:

line_clean = []

for word in line:

if word in stopwords:

continue

line_clean.append(word)

all_words.append(``str``(word))

contents_clean.append(line_clean)

return contents_clean, all_words

contents = df_content.content_S.values.tolist()

stopwords = stopwords.stopword.values.tolist()

# 得到刪除停用詞后的新聞以及詞云數(shù)據(jù)

contents_clean, all_words = drop_stopwords(contents, stopwords)

# df_content.content_S.isin(stopwords.stopword)

# df_content=df_content[~df_content.content_S.isin(stopwords.stopword)]

# df_content.head()

查看刪除停用詞后的新聞內(nèi)容
df_content = pd.DataFrame({``'contents_clean'``:contents_clean})

df_content.head()

從結(jié)果可以看出，這次的數(shù)據(jù)對比上面的數(shù)據(jù)來說質(zhì)量提高了很多。

image

查看一下出現(xiàn)的所有的詞匯，也就是刪除停用詞后的all_words。

df_all_words = pd.DataFrame({``'all_words'``:all_words})

df_all_words.head()

結(jié)果為：

image

統(tǒng)計all_words每個詞的詞頻，統(tǒng)計這個詞頻也是為了方便后面的詞云展示。
import numpy

# 分組統(tǒng)計

words_count = df_all_words.groupby(by``=``[``'all_words'``])[``'all_words'``].agg({``'count'``:numpy.size})

# 根據(jù)count排序

words_count = words_count.reset_index().sort_values(by``=``[``'count'``],ascending``=``False``)

words_count.head()

結(jié)果為：

image

四、詞云展示

導(dǎo)入wordcloud庫以及畫圖展示
from wordcloud import WordCloud # 詞云庫

import matplotlib.pyplot as plt

%``matplotlib inline

import matplotlib

matplotlib.rcParams[``'figure.figsize'``] = (``10.0``,``5.0``)

wordcloud = WordCloud(font_path``=``'./data/simhei.ttf'``,background_color``=``'white'``,max_font_size``=``80``)

word_frequence = {x[``0``]:x[``1``] for x in words_count.head(``100``).values} # 這里只顯示詞頻前100的詞匯

wordcloud = wordcloud.fit_words(word_frequence)

plt.imshow(wordcloud)

可視化結(jié)果為：

image

五、TF-IDF以及LDA主題模型

TF-IDF關(guān)鍵詞提取
import jieba.analyse

index = 2400

print``(df_news[``'content'``][index])

content_S_str = ''.join(content_S[index])

# 提取關(guān)鍵詞

print``(``" "``.join(jieba.analyse.extract_tags(content_S_str,topK``=``5``,withWeight = False``)))

可以得到第2400條數(shù)據(jù)以及關(guān)鍵詞

[[圖片上傳失敗...(image-f8426a-1580283113449)]](javascript:void(0); "復(fù)制代碼")

<pre>法國ＶＳ西班牙、里貝里ＶＳ哈維，北京時間６月２４日凌晨一場的大戰(zhàn)舉世矚目，而這場勝利不僅僅關(guān)乎兩支頂級強隊的命運，同時也是他們背后
的球衣贊助商耐克和阿迪達斯之間的一次角逐。Ｔ諶胙”窘炫分薇的１６支球隊之中，阿迪達斯和耐克的勢力范圍也是幾乎旗鼓相當(dāng)：其中有５家球
衣由耐克提供，而阿迪達斯則贊助了６家，此外茵寶有３家，而剩下的兩家則由彪馬贊助。而當(dāng)比賽進行到現(xiàn)在，率先挺進四強的兩支球隊分別被耐
克支持的葡萄牙和阿迪達斯支持的德國占據(jù)，而由于最后一場１／４決賽是茵寶（英格蘭）和彪馬（意大利）的對決，這也意味著明天凌晨西班牙同
法國這場阿迪達斯和耐克在１／４決賽的唯一一次直接交手將直接決定兩家體育巨頭在此次歐洲杯上的勝負(fù)。８據(jù)評估，在２０１２年足球商品的銷
售額能總共超過４０億歐元，而單單是不足一個月的歐洲杯就有高達５億的銷售額，也就是說在歐洲杯期間將有７００萬件球衣被搶購一空。根據(jù)市
場評估，兩大巨頭阿迪達斯和耐克的市場占有率也是并駕齊驅(qū)，其中前者占據(jù)３８％，而后者占據(jù)３６％。體育權(quán)利顧問奧利弗－米歇爾在接受《隊
報》采訪時說：“歐洲杯是耐克通過法國翻身的一個絕佳機會！”Ｃ仔爾接著談到兩大贊助商的經(jīng)營策略：“競技體育的成功會燃起球衣購買的熱情，
不過即便是水平相當(dāng)，不同國家之間的歐洲杯效應(yīng)卻存在不同。在德國就很出色，大約１／４的德國人通過電視觀看了比賽，而在西班牙效果則差很
多，由于民族主義高漲的加泰羅尼亞地區(qū)只關(guān)注巴薩和巴薩的球衣，他們對西班牙國家隊根本沒什么興趣。”因此盡管西班牙接連拿下歐洲杯和世界
杯，但是阿迪達斯只為西班牙足協(xié)支付每年２６００萬的贊助費＃相比之下盡管最近兩屆大賽表現(xiàn)糟糕法國足協(xié)將從耐克手中每年可以得到４０００
萬歐元。米歇爾解釋道：“法國創(chuàng)紀(jì)錄的４０００萬歐元贊助費得益于阿迪達斯和耐克競逐未來１５年歐洲市場的競爭。耐克需要籠絡(luò)一個大國來打
贏這場歐洲大陸的戰(zhàn)爭，而盡管德國拿到的贊助費并不太高，但是他們卻顯然牢牢掌握在民族品牌阿迪達斯手中。從長期投資來看，耐克給法國的
贊助并不算過高。”
耐克阿迪達斯歐洲杯球衣西班牙</pre>

[[圖片上傳失敗...(image-45ca34-1580283113449)]](javascript:void(0); "復(fù)制代碼")

從最后一句話就可以大致得到這段文章的大致意思，那這些詞就是這段文章的關(guān)鍵詞。

LDA（Latent Dirichlet Allocation）是一種文檔主題生成模型，它是一種主題模型，它包含文章，主題和詞三個部分，它可以將文檔集中每篇文檔的主題以概率分布的形式給出，從而通過分析一些文檔抽取出它們的主題（分布）出來后，便可以根據(jù)主題（分布）進行主題聚類或文本分類。同時，它是一種典型的詞袋模型，即一篇文檔是由一組詞構(gòu)成，詞與詞之間沒有先后順序的關(guān)系。此外，一篇文檔可以包含多個主題，文檔中每一個詞都由其中的一個主題生成。LDA就是要干的事就是根據(jù)給定的一篇文檔，推測其主題分布。它是一個無監(jiān)督學(xué)習(xí)，類似于聚類。

導(dǎo)入gensim庫，需要自己手動安裝

# pip install gensim

from gensim import corpora,models,similarities

import gensim # 自然語言處理庫

#http://radimrehurek.com/gensim/ # 需要用時可以自行查閱官方文檔

進行詞映射，相當(dāng)于一個大的字典，每一個詞匯進行一個映射。

# 做映射，相當(dāng)于詞袋格式要求：list of list

dictionary = corpora.Dictionary(contents_clean) # 字典

corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean] # 語料

進行LDA建模，將整個語料庫劃分為20個主題

# num_topics=20 類似Kmeans自己指定K值

lda = gensim.models.ldamodel.LdaModel(corpus``=``corpus,id2word``=``dictionary,num_topics``=``20``)

查看第1號主題的結(jié)果，然后選出這個主題中權(quán)重值最高的5個關(guān)鍵詞。

# 一號分類結(jié)果

print``(lda.print_topic(``1``, topn``=``5``))

分類后結(jié)果為：

查看這20個主題的關(guān)鍵詞
for topic in lda.print_topics(num_topics``=``20``,num_words``=``5``):

print``(topic[``1``])

結(jié)果為：

[[圖片上傳失敗...(image-6d21e9-1580283113449)]](javascript:void(0); "復(fù)制代碼")

<pre>0.007"孩子" + 0.004"Ｐ" + 0.003"高校" + 0.003"ａ" + 0.003"說"
0.008"說" + 0.007"男人" + 0.005"愛情" + 0.005"中" + 0.004"離婚"
0.008"中" + 0.007"說" + 0.005"觀眾" + 0.005"ａ" + 0.004"男人"
0.020"男人" + 0.014"女人" + 0.008"說" + 0.005"中" + 0.005"孩子"
0.018"ｅ" + 0.015"ａ" + 0.012"ｉ" + 0.010"ｏ" + 0.008"ｌ"
0.021"電影" + 0.018"導(dǎo)演" + 0.010"影片" + 0.008"中" + 0.006"主演"
0.009"節(jié)目" + 0.007"中" + 0.006"說" + 0.004"主持人" + 0.004"吃"
0.006"學(xué)校" + 0.004"工作" + 0.004"學(xué)生" + 0.004"高考" + 0.004"中"
0.012"ａ" + 0.012"ｎ" + 0.010"中" + 0.010"ｅ" + 0.010"ｏ"
0.008"中國" + 0.005"中" + 0.004"創(chuàng)作" + 0.004"西班牙" + 0.004"說"
0.013"官兵" + 0.007"部隊" + 0.006"武警" + 0.004"萬" + 0.003"中"
0.005"中" + 0.005"Ｓ" + 0.004"Ｖ" + 0.004"Ｌ" + 0.004"Ｎ"
0.010"Ｍ" + 0.005"Ｐ" + 0.005"張紹" + 0.005"Ｉ" + 0.004"Ｓ"
0.008"中" + 0.006"中國" + 0.006"觀眾" + 0.005"說" + 0.004"比賽"
0.005"萬" + 0.003"號" + 0.003"公司" + 0.002"Ｔ" + 0.002"壯陽"
0.007"Ｓ" + 0.006"號" + 0.004"萬" + 0.004"ａ" + 0.004"中"
0.004"中國" + 0.004"產(chǎn)品" + 0.003"歐洲杯" + 0.003"中" + 0.003"化妝水"
0.005"中" + 0.005"萬" + 0.004"排毒" + 0.003"紋身" + 0.003"號"
0.005"中" + 0.005"比賽" + 0.004"食物" + 0.003"香港" + 0.003"營養(yǎng)"
0.010"考生" + 0.008"中" + 0.004"發(fā)展" + 0.004"文化" + 0.003"中國"</pre>

[[圖片上傳失敗...(image-7c23de-1580283113449)]](javascript:void(0); "復(fù)制代碼")

六、使用貝葉斯進行分類

先將清洗好的數(shù)據(jù)轉(zhuǎn)換為pandas支持的DataFrame格式

df_train``=``pd.DataFrame({``'contents_clean'``:contents_clean,``'label'``:df_news[``'category'``]})

df_train.tail()

得到的結(jié)果為：

image

查看數(shù)據(jù)集所有類別
df_train.label.unique()

結(jié)果：

<pre>array(['汽車', '財經(jīng)', '科技', '健康', '體育', '教育', '文化', '軍事', '娛樂', '時尚'],
dtype=object)</pre>

使用pandas對類別進行映
label_mapping = {``"汽車"``: 1``, "財經(jīng)"``: 2``, "科技"``: 3``, "健康"``: 4``, "體育"``:``5``, "教育"``: 6``,``"文化"``: 7``,``"軍事"``: 8``,``"娛樂"``: 9``,``"時尚"``: 0``}

df_train[``'label'``] = df_train[``'label'``].``map``(label_mapping)

df_train.head()

得到的結(jié)果是

image

下面開始常規(guī)的機器學(xué)習(xí)套路進行分類，首先劃分訓(xùn)練集與測試集

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(df_train[``'contents_clean'``].values, df_train[``'label'``].values, random_state``=``1``)

查看訓(xùn)練集
#x_train = x_train.flatten()

x_train[``0``][``1``]

結(jié)果：

訓(xùn)練集數(shù)據(jù)轉(zhuǎn)為字符串?dāng)?shù)據(jù)，為了符合下面輸入數(shù)據(jù)的格式。

words = []

for line_index in range``(``len``(x_train)):

try``:

#x_train[line_index][word_index] = str(x_train[line_index][word_index])

words.append(``' '``.join(x_train[line_index]))

except``:

print``(line_index,word_index)

words[``0``]

得到的第0條數(shù)據(jù)

[[圖片上傳失敗...(image-e81138-1580283113447)]](javascript:void(0); "復(fù)制代碼")

<pre>'中新網(wǎng) 上海日電于俊父親節(jié) 網(wǎng)絡(luò) 吃一頓電影快餐微電影爸對不起我愛你定于本月父親節(jié) 當(dāng)天各大視頻網(wǎng)站
首映葜譜鞣劍保慈障蚣欽囈檣埽 ⒌ 纈埃 ǎ 停椋悖潁鎩媯椋恚稱微型電影新媒體平臺播放狀態(tài)
短時休閑狀態(tài) 觀看完整策劃系統(tǒng) 制作體系支持顯示較完整故事情節(jié) 電影微超短放映微周期制作天數(shù)周微
規(guī)模投資人民幣幾千數(shù)萬元每部內(nèi)容融合幽默搞怪時尚潮流人文言情公益教育商業(yè) 定制主題單獨成篇系列
成劇唇開播微電影爸對不起我愛你講述一對父子觀念缺少溝通導(dǎo)致關(guān)系父親傳統(tǒng) 固執(zhí) 鐘情傳統(tǒng) 生活方式
兒子新派音樂達習(xí)慣晚出早生活性格張揚叛逆兩種截然不同生活方式理念差異一場父子間拉開序幕子失
手打破父親心愛物品父親趕出家門劇情演繹父親節(jié) 妹妹哥哥化解父親這場矛盾映逋壞嚼斫狻 ⒍ 粵 ⒌ 槳
容爭執(zhí) 退讓傳統(tǒng) 尷尬父子尷尬情男人表達心中那份感恩一杯濾掛咖啡父親節(jié) 變得溫馨鎂纈繕蝦Ｎ逄煳
幕傳播迪歐咖啡聯(lián)合出品出品人希望觀摩捫心自問父親節(jié) 父親記得父親生日哪一天父親愛喝跨出家門那一
刻感覺一顆顫動心操勞天下兒女父親節(jié) 大聲喊出父親家人愛完'</pre>

[[圖片上傳失敗...(image-29c304-1580283113447)]](javascript:void(0); "復(fù)制代碼")

打印word的長度
print``(``len``(words))

word長度為

使用一個小例子用sklearn將詞轉(zhuǎn)換為詞頻向量

from sklearn.feature_extraction.text import CountVectorizer

texts``=``[``'dog cat fish'``,``'dog cat cat'``,``'fish bird'``,``'bird'``] # 注意text格式

cv = CountVectorizer()

cv_fit = cv.fit_transform(texts)

print``(cv.get_feature_names())

print``(cv_fit.toarray())

print``(cv_fit.toarray().``sum``(axis``=``0``))

結(jié)果是

[[圖片上傳失敗...(image-35649a-1580283113447)]](javascript:void(0); "復(fù)制代碼")

[[圖片上傳失敗...(image-35bf8e-1580283113447)]](javascript:void(0); "復(fù)制代碼")

改變參數(shù)試一下，ngram_range表示1到4個詞進行組合，讓向量更加復(fù)雜

from sklearn.feature_extraction.text import CountVectorizer

texts``=``[``"dog cat fish"``,``"dog cat cat"``,``"fish bird"``, 'bird'``]

cv = CountVectorizer(ngram_range``=``(``1``,``4``))

cv_fit``=``cv.fit_transform(texts)

print``(cv.get_feature_names())

print``(cv_fit.toarray())

print``(cv_fit.toarray().``sum``(axis``=``0``))

得到的向量為：

image

現(xiàn)在使用sklearn對上面構(gòu)造的數(shù)據(jù)(也就是特定格式的數(shù)據(jù))轉(zhuǎn)換為詞頻向量

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer(analyzer``=``'word'``, max_features``=``4000``, lowercase = False``)

vec.fit(words)

構(gòu)造的模型為

[[圖片上傳失敗...(image-2978ce-1580283113447)]](javascript:void(0); "復(fù)制代碼")

<pre>CountVectorizer(analyzer='word', binary=False, decode_error='strict',
dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
lowercase=False, max_df=1.0, max_features=4000, min_df=1,
ngram_range=(1, 1), preprocessor=None, stop_words=None,
strip_accents=None, token_pattern='(?u)\b\w\w+\b',
tokenizer=None, vocabulary=None)</pre>

[[圖片上傳失敗...(image-189410-1580283113447)]](javascript:void(0); "復(fù)制代碼")

然后使用貝葉斯算法完成結(jié)果分類，傳入的參數(shù)是剛才的詞頻向量

from sklearn.naive_bayes import MultinomialNB

classifier = MultinomialNB()

classifier.fit(vec.transform(words), y_train)

構(gòu)造的模型為

<pre>MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)</pre>

還是將數(shù)據(jù)轉(zhuǎn)換為字符串，使用測試集來進行測試

test_words = []

for line_index in range``(``len``(x_test)):

try``:

#x_train[line_index][word_index] = str(x_train[line_index][word_index])

test_words.append(``' '``.join(x_test[line_index]))

except``:

print (line_index,word_index)

test_words[``0``]

查看得到的測試集(也要符合輸入的格式)

[[圖片上傳失敗...(image-867212-1580283113447)]](javascript:void(0); "復(fù)制代碼")

<pre>'國家公務(wù)員考試申論應(yīng)用文類試題實質(zhì) 一道集概括分析提出解決問題一體綜合性試題說一道客觀
凝練申發(fā) 論述文章題目分析歷年國考申論真題公文類試題類型多樣包括公文類事務(wù)性文書類題
材從題干作答材料內(nèi)容整合分析無需太創(chuàng)造性發(fā)揮縱觀歷年申論真題作答應(yīng)用文類試題文種格
式作出特別重在內(nèi)容考查行文格式考生平常心面對應(yīng)用文類試題準(zhǔn)確把握作答領(lǐng)會內(nèi)在含義把
握題材主旨材料結(jié)構(gòu) 輕松應(yīng)對應(yīng)用文類試題Ｒ弧 ⒆ 釩鹽展文寫作原則Ｔ材料中來應(yīng)用文類試
題材料總體把握客觀考生材料中來材料中把握材料準(zhǔn)確理解題材主旨Ｔ政府角度作答應(yīng)用文類
試題更應(yīng) 注重政府角度觀點政府角度出發(fā) 原則表述觀點提出解決之策考生作答站政府人員角度
看待提出解決問題Ｔ文體結(jié)構(gòu) 形式考查重點文體結(jié)構(gòu) 大部分評分關(guān)鍵點解答方法薄 ⒆ ス丶詞
明方向作答題目題干作答作答方向作答角度關(guān)鍵向?qū)?考生仔細(xì)閱讀題干作答抓住關(guān)鍵詞作答方向
相關(guān) 要點整理作答思路年國考地市級真題為例潦惺姓府宣傳推進近海水域污染整治工作請給定
資料市政府工作人員身份草擬一份宣傳綱要Ｒ求保對宣傳內(nèi)容要點提綱挈領(lǐng) 陳述玻體現(xiàn) 政府精
神全市各界關(guān)心支持污染整治工作通俗易懂超過字骯丶詞近海水域污染整治工作市政府工作人
員身份宣傳綱要提綱挈領(lǐng) 陳述體現(xiàn) 政府精神全市各界關(guān)心支持污染整治工作通俗易懂提示歸結(jié)
作答要點包括污染情況原因解決對策作答思路情況原因對策意義邏輯順序安排文章結(jié)構(gòu) 病 ⒋
缶殖齜 ⅲ 明結(jié)構(gòu) 解答應(yīng)用文類試題考生材料整體出發(fā) 大局出發(fā) 高屋建瓴把握材料主題思想事件
起因解決對策閱讀文章構(gòu)建文章結(jié)構(gòu) 直至快速解答場 ⒗ 硭乘悸罰明邏輯應(yīng)用文類試題嚴(yán)密邏
輯思維情況原因對策意義考生作答先弄清楚解答思路統(tǒng)籌安排脈絡(luò) 清晰邏輯表達內(nèi)容表述礎(chǔ)
把握明詳略考生仔細(xì)閱讀分析揣摩應(yīng)用文類試題內(nèi)容答題時要詳略得當(dāng) 主次分明安排內(nèi)容增加
文章層次感閱卷老師閱卷時能明白清晰一目了然玻埃保蹦旯考考試申論試卷分為省級地市級兩套
試卷能力大有省級申論試題考生宏觀角度看注重深度廣度考生深謀遠(yuǎn)慮地市級試題考生微觀視角
觀察側(cè)重考查解決能力考生貫徹執(zhí)行作答區(qū)別對待'</pre>

[[圖片上傳失敗...(image-688ea6-1580283113447)]](javascript:void(0); "復(fù)制代碼")

查看預(yù)測準(zhǔn)確率為

classifier.score(vec.transform(test_words), y_test)

準(zhǔn)確率為：

現(xiàn)在可以使用另外一種方式來構(gòu)造TF-IDF向量

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(analyzer``=``'word'``, max_features``=``4000``, lowercase = False``)

vectorizer.fit(words)

構(gòu)造的模型

[[圖片上傳失敗...(image-813b5b-1580283113447)]](javascript:void(0); "復(fù)制代碼")

<pre>TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
dtype=<class 'numpy.float64'>, encoding='utf-8',
input='content', lowercase=False, max_df=1.0, max_features=4000,
min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
smooth_idf=True, stop_words=None, strip_accents=None,
sublinear_tf=False, token_pattern='(?u)\b\w\w+\b',
tokenizer=None, use_idf=True, vocabulary=None)</pre>

[[圖片上傳失敗...(image-a72dd8-1580283113446)]](javascript:void(0); "復(fù)制代碼")

繼續(xù)貝葉斯算法來建模

from sklearn.naive_bayes import MultinomialNB

classifier = MultinomialNB()

classifier.fit(vectorizer.transform(words), y_train)

得到的模型為

<pre>MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)</pre>

查看預(yù)測準(zhǔn)確率

classifier.score(vectorizer.transform(test_words), y_test)

得到的結(jié)果為：

可以看出通過TF-IDF向量得到的結(jié)果更好一些，我們也可以更改上面的ngram_range的值來使結(jié)果更好，一般來說值為2就足夠了。

七、總結(jié)

在這個新聞分類的案例中，我們了解了文本分析一般的處理步驟分詞、詞頻統(tǒng)計、詞頻向量或者TF-IDF向量、最后相似度的計算。還學(xué)習(xí)了jieba分詞庫的使用，還有停用詞表的使用，還有TF-IDF關(guān)鍵詞提取以及LDA主題模型，后面還使用到了詞云來進行詞頻的可視化展示，最后還使用到了自然語言處理庫gensim，然后使用機器學(xué)習(xí)中的貝葉斯算法進行最終的分類。

還有就是最重要的一點就是學(xué)習(xí)使用陌生的python庫最好是找官方教程進行模仿學(xué)習(xí)，先把結(jié)果進行跑通然后再進行深入的學(xué)習(xí)。

參考鏈接：
https://www.cnblogs.com/xiaoyh/p/11453364.html

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機器學(xué)習(xí)實戰(zhàn)-新聞分類

機器學(xué)習(xí)實戰(zhàn)-新聞分類

一、基礎(chǔ)知識

二、任務(wù)簡介與數(shù)據(jù)預(yù)處理

三、刪除停用詞

四、詞云展示

五、TF-IDF以及LDA主題模型

六、使用貝葉斯進行分類

七、總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機器學(xué)習(xí)實戰(zhàn)-新聞分類

一、基礎(chǔ)知識

二、任務(wù)簡介與數(shù)據(jù)預(yù)處理

三、 刪除停用詞

四、詞云展示

五、TF-IDF以及LDA主題模型

六、使用貝葉斯進行分類

七、總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、基礎(chǔ)知識

二、任務(wù)簡介與數(shù)據(jù)預(yù)處理

三、刪除停用詞

五、TF-IDF以及LDA主題模型

六、使用貝葉斯進行分類