傳統(tǒng)機器學習 一、樸素貝葉斯樸素貝葉斯(na?ve Bayes)法是基于貝葉斯定理與特征條件獨立假設的分類方法。對于給定的訓練數據集,首先基于特征條件獨立假設學習輸入/輸出的...
特征選擇 1、TF-IDF原理TF-IDF(Term Frequency-Inverse Document Frequency)是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或...
特征提取 一、基本文本處理 1. 分詞 分詞即將句子拆分成常見的詞語組合。 中文分詞根據實現(xiàn)原理和特點,主要分為基于詞典分詞算法和基于統(tǒng)計的機器學習算法。 我們主要討論基于詞...
IMDB數據集探索 數據探索與分析。鏈接:https://github.com/XinToWorld/NLP-/blob/master/IMDB%E7%BB%83%E4%B9...