最近,真是情場(chǎng)上失意,事業(yè)上得意啊
下面敘述一下流程:
1.在要處理的幾萬(wàn)條數(shù)據(jù)中取出10條做實(shí)驗(yàn)

2.分詞、提取特征值(這兩步放在一塊說(shuō))
具體程序就不貼了,
每句話(huà)做一個(gè)預(yù)處理去掉沒(méi)用的信息,
然后每句話(huà)提取三個(gè)特征詞,結(jié)果如下:

3.聚類(lèi)
我使用的是余弦相似度的方法聚類(lèi)
生成一個(gè)21維的對(duì)應(yīng)空間,它們的坐標(biāo)如下:

然后求第一個(gè)和其他信息的相似程度

只有一條判斷錯(cuò)了,第六條判斷錯(cuò)誤了,
這個(gè)是特征值出了問(wèn)題,
我已知道怎么優(yōu)化了,
第一次做就做出來(lái)了,我很開(kāi)心!
有條把條不準(zhǔn)確也很正常,結(jié)果就一條,只有一條少判了,也沒(méi)有多判的,
我很開(kāi)心?。?/p>