1.1.02_文檔過濾 Document Filtering

文檔過濾 Document Filtering

文檔分類是機(jī)器智能(machine intelligence)的一個(gè)非常實(shí)用的應(yīng)用,而且越來越普及。其中,最有價(jià)值也是人們所熟知的應(yīng)用,恐怕要數(shù)垃圾郵件過濾了。

這里介紹的算法更為一般,并不是專門針對(duì)垃圾信息的,它可以學(xué)習(xí)并鑒別文檔所屬的分類,因此我們還可以將其應(yīng)用于一些相比垃圾信息而言不那么令人生厭的問題。比如根據(jù)郵件的征文自動(dòng)將收件箱中的郵件劃分為社交類郵件和工作類郵件等。

過濾垃圾信 Filtering Spam

早期的垃圾信息過濾都是基于規(guī)則的分類器(rule-based classifiers),典型的規(guī)則包括:

  • 英文大寫字母的過度使用
  • 與醫(yī)學(xué)藥品相關(guān)的單詞
  • 過于花哨的HTML用色等。

基于規(guī)則的分類器的問題:

  • 垃圾信息制造者知道規(guī)則以后,繞開過濾器
  • 誤輸入(忘記關(guān)閉大寫鎖定鍵(Caps Lock))導(dǎo)致誤分類
  • 分類過于依賴用戶

為了解決這一問題,程序會(huì)在開始階段和逐漸收到更多消息之后,根據(jù)人們提供給它的有關(guān)哪些是垃圾郵件,哪些不是垃圾郵件的信息,不斷地進(jìn)行學(xué)習(xí)。通過這樣的方式,我們可以分別為不同的用戶、群組或網(wǎng)站建立起各自的應(yīng)用實(shí)例和數(shù)據(jù)集,它們對(duì)垃圾信息的界定將逐步形成自己的觀點(diǎn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,544評(píng)論 19 139
  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊(cè) 首頁 最新文章 IT 職場(chǎng) 前端 后端 移動(dòng)端 數(shù)據(jù)庫 運(yùn)維 其他...
    Helen_Cat閱讀 4,151評(píng)論 1 10
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 47,265評(píng)論 6 342
  • 過濾垃圾信 Filtering Spam 早期嘗試對(duì)垃圾信息進(jìn)行過濾所用的都是基于規(guī)則的分類器(rule-base...
    資深小夏閱讀 496評(píng)論 0 0
  • 前幾天,有次坐公交車回學(xué)校,一進(jìn)站直奔555號(hào)公交車,然后投了1元下去。這時(shí)師傅問,你到哪里啊,我說到白蛇過路...
    小朱砂閱讀 1,229評(píng)論 0 0

友情鏈接更多精彩內(nèi)容