樸素貝葉斯分類器用在符號型數(shù)據(jù)上比較多,如何處理數(shù)值型數(shù)據(jù)能找到的資料比較少,《數(shù)據(jù)算法:Hadoop/Saprk大數(shù)據(jù)處理技巧》這本書簡要介紹了如何處理數(shù)值型數(shù)據(jù)。
假設數(shù)據(jù)服從一定的分布,通常假設為高斯分布(正態(tài)分布),于是只需要從訓練數(shù)據(jù)中計算出每一類每一維度的均值和方差,就可以估計給定任一數(shù)值的后驗概率。
對于一條新的數(shù)據(jù) x,x 的第 i 維上的數(shù)據(jù)在給定類別時出現(xiàn)的概率:
x 在給定類別
時出現(xiàn)的概率:
預測 x 的類別為
使用Hadoop實現(xiàn)時可以分為3個Job:
- Job1:計算均值
- Job2:計算方差
- Job3:預測
重點是前兩個Job,預測的Job可以與前兩個分離,保存計算的結果,實現(xiàn)一次訓練,多次預測