
在本周于預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一項(xiàng)研究中,微軟和亞利桑那州立大學(xué)的研究人員提出了一個(gè)AI框架-弱社會(huì)監(jiān)督(MWSS)的多種來源-利用參與度和社交媒體信號(hào)來檢測虛假新聞。他們說,在真實(shí)世界的數(shù)據(jù)集上對模型進(jìn)行訓(xùn)練和測試后,該模型的性能優(yōu)于許多最新的基線,可早期檢測假新聞。
如果該系統(tǒng)的準(zhǔn)確性達(dá)到要求并投入生產(chǎn),它將有助于防止傳播有關(guān)美國總統(tǒng)候選人和其他有爭議主題的虛假和誤導(dǎo)性信息。布魯金斯學(xué)會(huì)(Brookings Institute)在2018年進(jìn)行的一項(xiàng)調(diào)查發(fā)現(xiàn),有57%的美國成年人在2018年大選期間看到了假新聞,還有19%的人認(rèn)為這影響了他們的選票。
該論文的合著者解釋說,學(xué)術(shù)文獻(xiàn)中的許多虛假新聞分類器都依賴信號(hào),這些信號(hào)需要長時(shí)間才能匯總,因此不適合早期發(fā)現(xiàn)。而且,有些僅依靠容易受到有偏見或不真實(shí)的用戶反饋影響的信號(hào)。
相反,研究人員的系統(tǒng)采用來自多個(gè)來源的監(jiān)督,涉及用戶及其各自的社交活動(dòng)。具體來說,它利用少量的手動(dòng)注釋數(shù)據(jù)和大量弱注釋數(shù)據(jù)(即,噪聲很大的數(shù)據(jù))在元學(xué)習(xí)AI框架中進(jìn)行聯(lián)合訓(xùn)練。
被稱為標(biāo)簽加權(quán)網(wǎng)絡(luò)(LWN)的模塊對弱標(biāo)簽的權(quán)重進(jìn)行建模,這些標(biāo)簽控制假新聞分類器的學(xué)習(xí)過程,并以研究人員所指的實(shí)例(例如新聞片段)及其標(biāo)簽為輸入。它輸出代表該對的重要權(quán)重的值,該值確定實(shí)例在訓(xùn)練假新聞分類器中的影響。為了允許不同弱信號(hào)之間的信息共享,共享特征提取器與LWN一起工作,以學(xué)習(xí)通用表示并使用功能將特征映射到不同的弱標(biāo)簽源。

微軟研究人員利用開源FakeNewsNet數(shù)據(jù)集對其系統(tǒng)進(jìn)行了基準(zhǔn)測試,該數(shù)據(jù)集包含新聞內(nèi)容(包括諸如正文文本之類的元屬性),并帶有來自事實(shí)檢查網(wǎng)站GossipCop和PolitiFact的專家標(biāo)注的標(biāo)簽,以及諸如推文之類的社交環(huán)境信息。關(guān)于新聞文章。他們用13個(gè)來源的語料庫進(jìn)行了增強(qiáng),包括BBC和Sky News等英國主流新聞媒體,以及RT和Sputnik等俄羅斯新聞媒體的英語版本,其內(nèi)容主要與政治有關(guān)。
為了生成弱標(biāo)簽,研究人員測量了分享新聞的用戶的情感評分,然后確定這些評分之間的差異,從而將情感差異很大的文章標(biāo)記為假。他們還建立了具有已知公共偏見的人群,并根據(jù)用戶的興趣與這些人群的匹配程度來計(jì)算分?jǐn)?shù),并根據(jù)偏見用戶共享的新聞更有可能是假的理論進(jìn)行操作。最后,他們通過根據(jù)用戶在社交媒體上的元信息對用戶進(jìn)行聚類來衡量可信度,從而使形成大型群集(可能表示機(jī)器人網(wǎng)絡(luò)或惡意活動(dòng))的用戶被認(rèn)為不那么可信。
在測試中,研究人員說,性能最佳的模型結(jié)合了Facebook的RoBERTA自然語言處理算法,并接受了干凈數(shù)據(jù)和弱數(shù)據(jù)的組合訓(xùn)練,分別在GossipCop和PolitiFact中分別有80%和82%的時(shí)間準(zhǔn)確檢測到了假新聞。這比基準(zhǔn)模型高出7個(gè)百分點(diǎn)。
該團(tuán)隊(duì)計(jì)劃在未來的工作中探索其他技術(shù),例如用于獲取高質(zhì)量弱標(biāo)簽的標(biāo)簽校正方法。他們還希望擴(kuò)展框架,以考慮社交網(wǎng)絡(luò)的其他時(shí)間戳,利用社交活動(dòng)的時(shí)間戳記。
當(dāng)然,并非只有這些研究人員試圖通過AI打擊假新聞的傳播。在最近的一項(xiàng)研究中,麻省理工學(xué)院的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室開發(fā)了一種AI系統(tǒng)來發(fā)現(xiàn)誤導(dǎo)性新聞報(bào)道。去年年底,拼圖游戲發(fā)布了Assembler,這是一種由AI驅(qū)動(dòng)的,用于媒體組織的假新聞發(fā)現(xiàn)工具套件。AdVerif.ai是去年在Beta中啟動(dòng)的軟件即服務(wù)平臺(tái),可分析文章中的錯(cuò)誤信息,裸露內(nèi)容,惡意軟件和其他有問題的內(nèi)容,并交叉引用包含數(shù)千個(gè)假冒和合法新聞的定期更新數(shù)據(jù)庫。就其本身而言,F(xiàn)acebook已嘗試部署可“識(shí)別帳戶和虛假消息”的AI工具。