文檔過濾 Document Filtering
文檔分類是機(jī)器智能(machine intelligence)的一個(gè)非常實(shí)用的應(yīng)用,而且越來越普及。其中,最有價(jià)值也是人們所熟知的應(yīng)用,恐怕要數(shù)垃圾郵件過濾了。
這里介紹的算法更為一般,并不是專門針對(duì)垃圾信息的,它可以學(xué)習(xí)并鑒別文檔所屬的分類,因此我們還可以將其應(yīng)用于一些相比垃圾信息而言不那么令人生厭的問題。比如根據(jù)郵件的征文自動(dòng)將收件箱中的郵件劃分為社交類郵件和工作類郵件等。
過濾垃圾信 Filtering Spam
早期的垃圾信息過濾都是基于規(guī)則的分類器(rule-based classifiers),典型的規(guī)則包括:
- 英文大寫字母的過度使用
- 與醫(yī)學(xué)藥品相關(guān)的單詞
- 過于花哨的HTML用色等。
基于規(guī)則的分類器的問題:
- 垃圾信息制造者知道規(guī)則以后,繞開過濾器
- 誤輸入(忘記關(guān)閉大寫鎖定鍵(Caps Lock))導(dǎo)致誤分類
- 分類過于依賴用戶
為了解決這一問題,程序會(huì)在開始階段和逐漸收到更多消息之后,根據(jù)人們提供給它的有關(guān)哪些是垃圾郵件,哪些不是垃圾郵件的信息,不斷地進(jìn)行學(xué)習(xí)。通過這樣的方式,我們可以分別為不同的用戶、群組或網(wǎng)站建立起各自的應(yīng)用實(shí)例和數(shù)據(jù)集,它們對(duì)垃圾信息的界定將逐步形成自己的觀點(diǎn)。