英文名稱: Ghostbuster: Detecting Text Ghostwritten by Large Language Models
中文名稱: 捉鬼人:檢測大語言模型生成的文本
文章: http://arxiv.org/abs/2305.15047
代碼: https://github.com/vivek3141/ghostbuster
作者: Vivek Verma,Eve Fleisig,Nicholas Tomlin,Dan Klein
日期: 2023-11-13
1 摘要
提出了 Ghostbuster,一種用于檢測 AI 生成文本的最先進系統(tǒng)。該方法將文檔通過一系列較弱的語言模型,對其特征的可能組合進行結(jié)構(gòu)化搜索,然后訓(xùn)練一個分類器來預(yù)測文檔是否為 AI 生成的。對于檢測黑盒模型或未知模型生成的文本非常有用。并發(fā)布了三個新的數(shù)據(jù)集,可作為學(xué)生論文、創(chuàng)意寫作和新聞文章領(lǐng)域的檢測基準。
2 讀后感
通過文章分析,可以看到人工文件與生成文本的主要差異,檢測時主要的難點,以及自動生成檢測的使用場景和注意事項;并且對比了工具和人類的分辨能力。
從方法上看難度不大,主要組合了現(xiàn)有模型,綜合了它們的優(yōu)勢,其中比較有巧思的在特征組合和選擇的算法設(shè)計(縮減向量維度時可作參考);從實驗結(jié)果和分析中可以看到,不同子方法的重要程度和產(chǎn)生的效果。
3 引言
由于語言模型容易出現(xiàn)事實錯誤和幻覺,讀者可能希望知道是否在新聞文章或其他信息性文本中使用了這樣的工具,以決定是否信任來源。
目前已經(jīng)提出的幾種檢測框架常會將真實作品錯誤地標記為 AI 生成的作品;特別是將非英語為母語的文本常被標記為 AI 生成的。
文中提出了 Ghostbuster,將人工撰寫和 AI 生成的文檔通過一系列較弱的語言模型,從 unigram 模型到未經(jīng)指導(dǎo)調(diào)整的 GPT-3 模型進行處理。給定這些模型的詞概率,然后在將這些概率組合成一組特征,可在固定空間中進行搜索。最后,將這些特征輸入線性分類器進行分類。

人工智能生成的文本與人類撰寫的文本存在質(zhì)量上的差異,雖然志愿者通常認為 ChatGPT 的回答比人類的更有幫助,但 ChatGPT 的回答仍更正式、更嚴格,并使用更多的連詞。
本文主要關(guān)注由語言模型生成整段或整個文檔的情況,對有針對性的攻擊有待未來實現(xiàn)。
4 數(shù)據(jù)集
論文收集了三個新的數(shù)據(jù)集,用于對創(chuàng)意寫作、新聞和學(xué)生論文的 AI 生成文本檢測進行基準測試。
創(chuàng)意寫作人工文件基于創(chuàng)作故事的論壇(2022 年 10 月前 50 名發(fā)帖者的數(shù)據(jù)),抓取了每個用戶的最后 100 篇帖子;新聞數(shù)據(jù)集基于路透社數(shù)據(jù)集,其中包含 50 名記者撰寫的 5000 篇新聞文章;學(xué)生論文數(shù)據(jù)集基于IvyPanda 的論文,其中包括高中和大學(xué)水平的各個學(xué)科的論文。然后收集了與人工撰寫文本相對應(yīng)的 ChatGPT 生成文本,所有的訓(xùn)練數(shù)據(jù)都使用 gpt-3.5-turbo 生成。
5 模型
Ghostbuster 的主要目標是訓(xùn)練一個具有強大泛化能力的辨別模型,能夠適應(yīng)各種分布變化,包括不同的文本領(lǐng)域、提示和模型。
它使用了兩個基準模型,使用困惑度的模型和基于RoBERTa的模型,使用上述語言模型的文檔概率的組合特征來對文檔進行分類,這種方法比僅使用困惑度的方法具有更大的表達能力,同時對領(lǐng)域變化具有更強的魯棒性。
Ghostbuster 使用以下三階段的訓(xùn)練過程:
5.1 概率計算
方法使用了一個 unigram fertility 模型、一個 Kneser-Ney trigram 模型和兩個早期的 GPT-3 模型(ada 和 davinci,未引導(dǎo)精調(diào))來獲取概率。模型訓(xùn)練細節(jié)見附錄 B。
5.2 特征選擇
算法一用于查找所有可能有用的特征,其中 p 是之前的特征,V 是子模型輸出的向量,標量函數(shù) Fs,向量函數(shù) Fv:

標量函數(shù)(長度均值等)將向量轉(zhuǎn)換為標量,向量函數(shù)(加減乘除等)將兩個向量合并為一個。具體的向量和標量函數(shù)共 13 個,見表 -9:

將訓(xùn)練文檔轉(zhuǎn)換為一系列 token 概率向量,由于文檔的長度不同,向量不能直接輸入分類模型,這里使用了構(gòu)造特征再篩選特征的方法,最終產(chǎn)生固定數(shù)量的標量來表示文檔。
調(diào)用算法 1 運行了四次,以生成大量可能的特征。每次以每個模型的概率向量作為起始特征,并設(shè)置最大深度為 3。特征的形式是將三個任意的概率向量與向量函數(shù)組合起來,然后將它們縮減為標量。
這種方法定義了一個結(jié)構(gòu)化的搜索空間(維數(shù)固定),其中只使用了有限的易于解釋的特征作為我們分類模型的輸入。
5.3 訓(xùn)練分類器
訓(xùn)練邏輯回歸分類器,使用 L2 正則化;對概率的組合特征進行訓(xùn)練,還包括基于詞長度和最大標記概率的七個附加特征(附錄 C)。這些附加特征旨在融入關(guān)于 AI 生成文本的定性啟發(fā)。
6 基線
文中模型是一個線性分類器,根據(jù)訓(xùn)練集學(xué)習(xí)一個閾值參數(shù)。此外,還在相同的數(shù)據(jù)上對一個基于 RoBERTa 的有監(jiān)督模型進行了微調(diào)。
另外,收集了人工注釋來驗證數(shù)據(jù)集的難度,并提供一個人類基準線。隨機選擇了 6 名本科生和博士生,他們之前有使用文本生成模型的經(jīng)驗,要求他們標記這些文檔是由人類還是 AI 撰寫的。平均人類準確率為 59%(最高 80%,最低 34%)。
7 結(jié)果

從表 -2 中可以看到 Ghostbuster 在領(lǐng)域內(nèi)和領(lǐng)域外的評估效果。

從表 -3 中可以看到,Ghostbuster 性能不受提示策略風(fēng)格的影響;在 ChatGPT 上訓(xùn)練的模型在 Claude 上效果略下降,但也能達到 92.2;
8 分析
消融實驗結(jié)果如下:

消融實驗結(jié)果表明結(jié)構(gòu)化搜索和使用神經(jīng) LLM 的概率對性能至關(guān)重要(領(lǐng)域外更重要);在不同擾動下編輯文章,評測模型魯棒性(是否可以通過簡單地拼寫錯誤或添加無意義的標記來規(guī)避檢測),發(fā)現(xiàn)大多數(shù)全局編輯對性能影響不大,而需要大量局部編輯才能欺騙模型;在較短的文檔上分析性能時,文章越長效果越好,在超過 100 個 token 的文檔上通常更可靠。
9 倫理與限制
Ghostbuster 的錯誤預(yù)測可能特別容易出現(xiàn)在較短的文本、與 Ghostbuster 訓(xùn)練的領(lǐng)域更遠的領(lǐng)域(如短信)、英語標準美式或英式以外的英語變體或非英語語言的文本、非英語母語者撰寫的文本、由人類編輯或改寫的 AI 生成文本,以及通過提示 AI 模型進行改寫或調(diào)整人類輸入生成的文本。
建議在人類監(jiān)督下謹慎使用 Ghostbuster,不同應(yīng)用場景下,對檢測器的假陽性和假陰性率之間進行權(quán)衡。例如,在檢測學(xué)生論文是否由 AI 生成時,需要優(yōu)先降低假陽性的風(fēng)險,以避免錯誤指控學(xué)生行為不端。而在其他場合,假陽性可能不那么嚴重。例如,檢測器用于防止 AI 生成的文本被用于語言模型訓(xùn)練數(shù)據(jù),或者標記網(wǎng)絡(luò)上可能由 AI 生成的內(nèi)容。