請問利用余弦相似度聚類時,類中心怎么確定呢。仍然用均值嗎?
大量短文本聚類效果優(yōu)化:余弦相似度,Spark,Mini Batch Kmeans1. 背景 1.1 問題概述 有10萬+條短文本,均是用戶反饋的問題(每條文本長度大概在200字左右),需要對這些文本進行主題聚類,看下用戶反饋的問題都集中在哪些方面。 1....
請問利用余弦相似度聚類時,類中心怎么確定呢。仍然用均值嗎?
大量短文本聚類效果優(yōu)化:余弦相似度,Spark,Mini Batch Kmeans1. 背景 1.1 問題概述 有10萬+條短文本,均是用戶反饋的問題(每條文本長度大概在200字左右),需要對這些文本進行主題聚類,看下用戶反饋的問題都集中在哪些方面。 1....