微軟聲稱其AI框架比最新基準(zhǔn)更好地發(fā)現(xiàn)虛假新聞

圖片來源:Shutterstock

在本周于預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一項(xiàng)研究中,微軟和亞利桑那州立大學(xué)的研究人員提出了一個(gè)AI框架-弱社會(huì)監(jiān)督(MWSS)的多種來源-利用參與度和社交媒體信號(hào)來檢測虛假新聞。他們說,在真實(shí)世界的數(shù)據(jù)集上對模型進(jìn)行訓(xùn)練和測試后,該模型的性能優(yōu)于許多最新的基線,可早期檢測假新聞。

如果該系統(tǒng)的準(zhǔn)確性達(dá)到要求并投入生產(chǎn),它將有助于防止傳播有關(guān)美國總統(tǒng)候選人和其他有爭議主題的虛假和誤導(dǎo)性信息。布魯金斯學(xué)會(huì)(Brookings Institute)在2018年進(jìn)行的一項(xiàng)調(diào)查發(fā)現(xiàn),有57%的美國成年人在2018年大選期間看到了假新聞,還有19%的人認(rèn)為這影響了他們的選票。

該論文的合著者解釋說,學(xué)術(shù)文獻(xiàn)中的許多虛假新聞分類器都依賴信號(hào),這些信號(hào)需要長時(shí)間才能匯總,因此不適合早期發(fā)現(xiàn)。而且,有些僅依靠容易受到有偏見或不真實(shí)的用戶反饋影響的信號(hào)。

相反,研究人員的系統(tǒng)采用來自多個(gè)來源的監(jiān)督,涉及用戶及其各自的社交活動(dòng)。具體來說,它利用少量的手動(dòng)注釋數(shù)據(jù)和大量弱注釋數(shù)據(jù)(即,噪聲很大的數(shù)據(jù))在元學(xué)習(xí)AI框架中進(jìn)行聯(lián)合訓(xùn)練。

被稱為標(biāo)簽加權(quán)網(wǎng)絡(luò)(LWN)的模塊對弱標(biāo)簽的權(quán)重進(jìn)行建模,這些標(biāo)簽控制假新聞分類器的學(xué)習(xí)過程,并以研究人員所指的實(shí)例(例如新聞片段)及其標(biāo)簽為輸入。它輸出代表該對的重要權(quán)重的值,該值確定實(shí)例在訓(xùn)練假新聞分類器中的影響。為了允許不同弱信號(hào)之間的信息共享,共享特征提取器與LWN一起工作,以學(xué)習(xí)通用表示并使用功能將特征映射到不同的弱標(biāo)簽源。

上圖:將Microsoft AI與各種基準(zhǔn)模型的性能進(jìn)行比較的圖表。

微軟研究人員利用開源FakeNewsNet數(shù)據(jù)集對其系統(tǒng)進(jìn)行了基準(zhǔn)測試,該數(shù)據(jù)集包含新聞內(nèi)容(包括諸如正文文本之類的元屬性),并帶有來自事實(shí)檢查網(wǎng)站GossipCop和PolitiFact的專家標(biāo)注的標(biāo)簽,以及諸如推文之類的社交環(huán)境信息。關(guān)于新聞文章。他們用13個(gè)來源的語料庫進(jìn)行了增強(qiáng),包括BBC和Sky News等英國主流新聞媒體,以及RT和Sputnik等俄羅斯新聞媒體的英語版本,其內(nèi)容主要與政治有關(guān)。

為了生成弱標(biāo)簽,研究人員測量了分享新聞的用戶的情感評分,然后確定這些評分之間的差異,從而將情感差異很大的文章標(biāo)記為假。他們還建立了具有已知公共偏見的人群,并根據(jù)用戶的興趣與這些人群的匹配程度來計(jì)算分?jǐn)?shù),并根據(jù)偏見用戶共享的新聞更有可能是假的理論進(jìn)行操作。最后,他們通過根據(jù)用戶在社交媒體上的元信息對用戶進(jìn)行聚類來衡量可信度,從而使形成大型群集(可能表示機(jī)器人網(wǎng)絡(luò)或惡意活動(dòng))的用戶被認(rèn)為不那么可信。

在測試中,研究人員說,性能最佳的模型結(jié)合了Facebook的RoBERTA自然語言處理算法,并接受了干凈數(shù)據(jù)和弱數(shù)據(jù)的組合訓(xùn)練,分別在GossipCop和PolitiFact中分別有80%和82%的時(shí)間準(zhǔn)確檢測到了假新聞。這比基準(zhǔn)模型高出7個(gè)百分點(diǎn)。

該團(tuán)隊(duì)計(jì)劃在未來的工作中探索其他技術(shù),例如用于獲取高質(zhì)量弱標(biāo)簽的標(biāo)簽校正方法。他們還希望擴(kuò)展框架,以考慮社交網(wǎng)絡(luò)的其他時(shí)間戳,利用社交活動(dòng)的時(shí)間戳記。

當(dāng)然,并非只有這些研究人員試圖通過AI打擊假新聞的傳播。在最近的一項(xiàng)研究中,麻省理工學(xué)院的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室開發(fā)了一種AI系統(tǒng)來發(fā)現(xiàn)誤導(dǎo)性新聞報(bào)道。去年年底,拼圖游戲發(fā)布了Assembler,這是一種由AI驅(qū)動(dòng)的,用于媒體組織的假新聞發(fā)現(xiàn)工具套件。AdVerif.ai是去年在Beta中啟動(dòng)的軟件即服務(wù)平臺(tái),可分析文章中的錯(cuò)誤信息,裸露內(nèi)容,惡意軟件和其他有問題的內(nèi)容,并交叉引用包含數(shù)千個(gè)假冒和合法新聞的定期更新數(shù)據(jù)庫。就其本身而言,F(xiàn)acebook已嘗試部署可“識(shí)別帳戶和虛假消息”的AI工具。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 晨起六點(diǎn)起床,天已很亮,炫彩的云朵飄散在藍(lán)色的天空上。太陽還沒露出頭,但光芒已將東面的天空照耀成燦爛的金黃色。 刷...
    漂若浮塵閱讀 373評論 0 1
  • 放療過去了一個(gè)月,雖然媽媽的骨痛問題解決了,但媽媽還是不能走路,只是能扶著輪椅,墻走幾步。媽有半年沒有走出家門。而...
    冰雪玉瑤閱讀 273評論 0 5
  • 我們曾走過的路, 那么斑駁, 那么無奈, 那么遺憾, 確又是每個(gè)人抹不去的記憶。 十年前,我們剛剛踏入青春期得那一...
    張獸獸閱讀 379評論 0 0
  • OC語言中在github下載第一,很好用的框架 AFHTTPRequestOperationManager是包裝了...
    愛貌貌Manners閱讀 2,842評論 1 3

友情鏈接更多精彩內(nèi)容