人臉造假檢測(cè)論文(四)

姓名:張鈺??學(xué)號(hào):21011210154??學(xué)院:通信工程學(xué)院

【嵌牛導(dǎo)讀】Improving the Efficiency and Robustness of Deepfakes Detection through
Precise Geometric Features論文閱讀筆記

【嵌牛鼻子】通過精確的幾何特征提高Deepfakes檢測(cè)的效率和穩(wěn)健性

【嵌牛提問】如何實(shí)現(xiàn)偽造檢測(cè),有何創(chuàng)新點(diǎn)

【嵌牛正文】
轉(zhuǎn)自:https://blog.csdn.net/qq_43687860/article/details/124848020

論文信息

背景與創(chuàng)新

  • 背景:Deepfakes 是惡意技術(shù)的一個(gè)分支,它將視頻中的目標(biāo)人臉移植到原始人臉上,從而導(dǎo)致嚴(yán)重的問題,如侵犯版權(quán)、信息失真甚至公眾恐慌 。先前對(duì)Deepfakes 視頻檢測(cè)的努力主要集中在外觀特征上,這些特征具有被復(fù)雜操作繞過的風(fēng)險(xiǎn),也導(dǎo)致了高模型復(fù)雜度和對(duì)噪聲的敏感性。如何挖掘被操縱視頻的時(shí)間特征并加以利用仍是一個(gè)未解決的問題。

  • 創(chuàng)新:

    • 作者提出了一個(gè)有效和健壯的框架LRNet,通過對(duì)精確的幾何特征進(jìn)行時(shí)間建模來檢測(cè)Deepfakes視頻。
    • 作者引入了一種新的標(biāo)志校準(zhǔn)模塊以提高幾何特征的精度和時(shí)間建模的有效性。
    • 作者構(gòu)造了一個(gè)雙流遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來充分利用時(shí)間特征。與以前的方法相比,作者提出的方法重量更輕量,更容易訓(xùn)練,并且在檢測(cè)高度壓縮或噪聲污染的視頻中表現(xiàn)出魯棒性。



      原始和Deepfakes視頻序列的動(dòng)作單元強(qiáng)度分析,AU表示構(gòu)成面部表情的個(gè)別面部肌肉的運(yùn)動(dòng),作者選擇兩個(gè)最激烈的動(dòng)作單元,眼輪匝肌內(nèi)圈收緊和推動(dòng)下唇向上。可以看到,雖然假序列很真實(shí)無法從外觀上區(qū)分,但仍然可以在一些微妙的表情上分辨出它們的差異。

網(wǎng)絡(luò)結(jié)構(gòu)

作者提出的LRNet由四個(gè)部分組成:人臉預(yù)處理模塊校準(zhǔn)模塊、特征嵌入過程RNN分類過程。它通過檢測(cè)異常的面部運(yùn)動(dòng)模式和時(shí)間不連續(xù)性來暴露被操縱的面部。并且整個(gè)框架只需要訓(xùn)練RNNs部分。


要檢測(cè)的視頻被分成幀,并與精心設(shè)計(jì)的校準(zhǔn)模塊一起通過預(yù)處理過程,以獲得更加精確的面部標(biāo)志序列,隨后嵌入過程將標(biāo)志點(diǎn)嵌入到兩種類型的特征向量中,并使用雙流RNN來挖掘時(shí)間信息并判斷其真實(shí)性。

  1. 人臉預(yù)處理:該模塊從人臉圖像中提取幾何信息,包括人臉檢測(cè),人臉標(biāo)志點(diǎn)檢測(cè)和標(biāo)志點(diǎn)對(duì)齊。首先,對(duì)視頻的每一幀進(jìn)行人臉檢測(cè),我們保留人臉的感興趣區(qū)域(ROI)。在裁剪出面部圖像后,我們?cè)趫D像上檢測(cè)到 68 個(gè)面部標(biāo)志,它們勾勒出面部的標(biāo)志性輪廓。最后,我們通過仿射變換將標(biāo)志點(diǎn)對(duì)齊到預(yù)設(shè)位置。
  2. 面部點(diǎn)追蹤與標(biāo)志校準(zhǔn):


Accuracy與Precision的比較,紅點(diǎn)(上邊)準(zhǔn)確A但不精確P,它們抖動(dòng)很大,即使它們是附著在輪廓上。綠點(diǎn)(下邊)不太準(zhǔn)確P但很精確A,可以更好地描述動(dòng)態(tài)特性。Accuracy代表低偏差,Precision代表低方差,Precision更重要。

第一步通過LK操作來跟蹤標(biāo)志點(diǎn),也是一個(gè)前-后向檢查以消除不精確的預(yù)測(cè);第二步使用Kalman fifilter(卡爾曼)濾波器將有效預(yù)測(cè)與其相應(yīng)的檢測(cè)結(jié)果合并去噪,獲得更高精度的標(biāo)定標(biāo)志。

我們對(duì)前一幀執(zhí)行前向LK操作(綠色的箭頭和點(diǎn)),對(duì)后一幀回到前一幀的預(yù)測(cè)點(diǎn)執(zhí)行后向LK操作(藍(lán)色箭頭和點(diǎn)),在其原始點(diǎn)和后向LK點(diǎn)之間具有較大差異的預(yù)測(cè)點(diǎn)將被丟棄(虛線箭頭)。

  • 金字塔LK運(yùn)算:它用來計(jì)算光流,即幀之間幾個(gè)特征點(diǎn)的移動(dòng)。

    考慮到LK運(yùn)算對(duì)每塊的大小很敏感,我們引入了金字塔LK運(yùn)算,首先對(duì)圖像進(jìn)行若干次下采樣(通常將其尺寸減半)以構(gòu)建其金字塔表示,并對(duì)其中相同patch大小的不同大小的圖像執(zhí)行簡(jiǎn)單的LK操作。

  • 標(biāo)記校準(zhǔn)

    LK操作會(huì)引入噪聲,這干擾了標(biāo)記的穩(wěn)定性,所以設(shè)計(jì)了卡爾曼濾波器來整合來自檢測(cè)和預(yù)測(cè)的信息。校準(zhǔn)模塊依賴于幀1的標(biāo)志來校準(zhǔn)幀2的標(biāo)志。

  1. 特征嵌入與RNN分類
    將上述步驟中提取的校準(zhǔn)的標(biāo)志序列嵌入到兩類特征向量序列中,然后輸入到雙流RNN中進(jìn)行虛假視頻分類。通過嵌入我們得到的兩個(gè)特征向量序列A和B,此后一個(gè)RNN g1在A上模擬面部形狀運(yùn)動(dòng)模式,而g2模型標(biāo)志不同的模式,或可視為速度模式,用于捕捉時(shí)間的不連續(xù)性。全連接層被附加到每個(gè)RNN的輸出,用于預(yù)測(cè),并且兩個(gè)流被平均作為最終預(yù)測(cè),我們把這個(gè)預(yù)測(cè)操作歸納為一個(gè)函數(shù)f(. , .),因此最終預(yù)測(cè),即視頻剪輯的真實(shí)或者虛假的可能性,被記為:
    f(g1(A), g2(B)).為了執(zhí)行視頻級(jí)檢測(cè),每個(gè)視頻樣本被分割成具有固定長(zhǎng)度的片段,為了預(yù)測(cè)視頻,對(duì)片段的預(yù)測(cè)標(biāo)簽進(jìn)行聚合

實(shí)驗(yàn)

  • 數(shù)據(jù)集:
    • UADFV:49個(gè)原始視頻和49個(gè)篡改視頻。
    • FF++:1000個(gè)視頻以及被操縱的版本,原始,輕度壓縮,重度壓縮
    • Celeb-DF:5639個(gè)假視頻和540個(gè)真視頻。
    • DeeperForensics-1.0:1000個(gè)真實(shí)和對(duì)應(yīng)類似FF++的假視頻。
  • 實(shí)驗(yàn):
    • 在不同數(shù)據(jù)集比較上比較,LRNet大小相對(duì)輕量并且不需要數(shù)據(jù)擴(kuò)充,且在FF++上表現(xiàn)最好。
  • 遇到視頻壓縮時(shí)不同方法在不同數(shù)據(jù)集的表現(xiàn)。
  • 對(duì)視頻噪聲的魯棒性,作者提出的方法在面對(duì)噪聲時(shí)性能下降最少。
  • Y表示使用作者提出的校準(zhǔn)模塊檢測(cè)landmarks,N表示不檢測(cè)。
  • 對(duì)作者提出的模塊進(jìn)行消融實(shí)驗(yàn)的結(jié)果。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容