由于項(xiàng)目需要,采集了一些助勃藥品或噴劑的商品評(píng)論,總的數(shù)據(jù)量大概是在57W條左右,評(píng)論內(nèi)容大概是這樣子的:
性價(jià)比很高的,質(zhì)量很是值得信賴,寶貝非常棒,現(xiàn)在用了這個(gè)之后差不多能堅(jiān)持三十分鐘,特別的歷害,是正品,有保障,效果真是棒棒達(dá)
龍水延時(shí)噴劑產(chǎn)品不錯(cuò),簡(jiǎn)直666的飛起來(lái)了,噴了兩就可以干個(gè)二三十分鐘,硬了很多好多,真的很厲害
延時(shí)效果相當(dāng)?shù)暮?,每次使用了之后都能?0分鐘以上,做的太舒服了,老婆都說(shuō)用了這個(gè)好幸福的
有延時(shí)效果極好,每次使用這個(gè)延時(shí)噴劑,都有40分鐘以上,感覺(jué)真的超棒的,也是非常的舒服??!
效果相當(dāng)好,原來(lái)10來(lái)分鐘,昨天收到貨,晚上下班回去,試了下,延時(shí)30分鐘不是問(wèn)題
試了下,延時(shí)效果不錯(cuò),物流速度也是好評(píng)哈,性價(jià)比挺好的
好評(píng)!效果很好!持久不麻木
用的非常好,非常感謝店家!
一行數(shù)據(jù)就是一條評(píng)論,使用python結(jié)巴分詞:
' '.join(jieba.cut(txt))
得到以下結(jié)果:
性價(jià)比 很 高 的 , 質(zhì)量 很 是 值得 信賴 , 寶貝 非常 棒 , 現(xiàn)在 用 了 這個(gè) 之后 差不多 能 堅(jiān)持 三十分鐘 , 特別 的 歷害 , 是 正品 , 有 保障 , 效果 真是 棒棒 達(dá)
龍 水 延時(shí) 噴劑 產(chǎn)品 不錯(cuò) , 簡(jiǎn)直 666 的 飛 起來(lái) 了 , 噴 了 兩 就 可以 干個(gè) 二三十 分鐘 , 硬 了 很多 好多 , 真的 很 厲害
延時(shí) 效果 相當(dāng) 的 好 , 每次 使用 了 之后 都 能 做 30 分鐘 以上 , 做 的 太 舒服 了 , 老婆 都 說(shuō) 用 了 這個(gè) 好 幸福 的
有 延時(shí) 效果 極好 , 每次 使用 這個(gè) 延時(shí) 噴劑 , 都 有 40 分鐘 以上 , 感覺(jué) 真的 超棒 的 , 也 是 非常 的 舒服 啊 !
效果 相當(dāng) 好 , 原來(lái) 10 來(lái) 分鐘 , 昨天 收到 貨 , 晚上 下班 回去 , 試 了 下 , 延時(shí) 30 分鐘 不是 問(wèn)題
試 了 下 , 延時(shí) 效果 不錯(cuò) , 物流 速度 也 是 好評(píng) 哈 , 性價(jià)比 挺 好 的
好評(píng) ! 效果 很 好 ! 持久 不 麻木
用 的 非常 好 , 非常感謝 店家 !
把分詞結(jié)果保存為utf8格式的文本文件,然后使用word2vec來(lái)訓(xùn)練模型:
from gensim.models import word2vec
s=word2vec.Text8Corpus('result.txt')
model=word2vec.Word2Vec(s)#這里使用默認(rèn)的參數(shù)訓(xùn)練
訓(xùn)練完之后主要是用來(lái)查看相似的詞,如下:
model.most_similar(u'灼熱感',topn=20)
#相似詞結(jié)果列表
#'熱感',0.6933082342147827
#'麻麻',0.6547691822052002
#'火辣',0.651293158531189
#'辣辣的',0.651107668876648
#'灼燒',0.6483184099197388
#'刺痛',0.6444294452667236
#'燒',0.643839418888092
#'刺激性',0.6332861185073853
#'火辣辣',0.631696343421936
#'微微',0.6278106570243835
#'麻木感',0.6217052936553955
#'灼熱',0.6207054853439331
#'辣感',0.6127525568008423
#'發(fā)熱',0.6119084358215332
#'起色',0.600088357925415
#'涼爽',0.5898377895355225
#'辣',0.589654803276062
#'點(diǎn)點(diǎn)',0.5883890390396118
#'燒灼感',0.583778977394104
#'熱',0.5823389291763306
然后我們?cè)倏梢愿鶕?jù)這些詞語(yǔ)做一個(gè)詞頻統(tǒng)計(jì):
灼熱感,113
麻麻,730
火辣,69
辣辣的,159
灼燒,73
刺痛,180
刺激性,412
麻木感,2867
灼熱,39
辣感,10
發(fā)熱,518
起色,40
涼爽,73
做出圖表可以看出是這樣子的:

男性助勃用品使用感受(部分)
從圖表上我們可以直觀的看出,超過(guò)一半以上的評(píng)論描述使用后jj表現(xiàn)為麻木感、發(fā)熱和刺痛。。。
當(dāng)然,這里的數(shù)據(jù)和圖表僅是部分展示,還并沒(méi)有做更多的詞語(yǔ)挖掘和整理,僅做參考。。。