前言
今天給大家推薦一篇前不久被第42屆 IEEE Symposium on Security and Privacy (IEEE S&P, Oakland) 2021會議接收的學(xué)術(shù)論文,關(guān)于說話人識別系統(tǒng)的黑盒對抗攻擊。
IEEE Oakland會議是信息安全四大頂級會議之一(其他三個是ACM CCS, Usenix Security, NDSS),自1980年以來,一直是介紹計算機安全和隱私發(fā)展動態(tài)的旗艦會議。該會議2010-2019年論文平均接收率為12.6%, 每年大陸學(xué)者在Oakland會議上發(fā)表論文數(shù)量不多。第42屆Oakland會議將于2021年5月23日至27日在美國舊金山舉辦。
論文題目為 Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems,來自上海科技大學(xué) 宋富教授的S3L (System and Software Security Lab) 課題組

研究背景
自2013年以來,針對機器學(xué)習(xí)模型特別是深度神經(jīng)網(wǎng)絡(luò)的對抗攻擊研究受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,相關(guān)研究工作數(shù)量也井噴式增長。然而,相關(guān)工作大多集中在圖像以及語音識別領(lǐng)域。說話人識別,即聲紋識別,作為一種生物識別技術(shù),應(yīng)用日益廣泛,與此同時其安全性不容忽視。
該論文的主要貢獻是首次提出了對說話人識別系統(tǒng)的黑盒對抗攻擊,稱為FAKEBOB。FAKEBOB在開源和商用聲紋識別系統(tǒng)(天聰智能)上均取得接近100%攻擊成功率,并且能有效遷移到微軟Azure聲紋識別系統(tǒng),包括API攻擊以及實際場景下的over-the-air物理攻擊。
攻擊方法
以開集說話人辨認系統(tǒng) (Open-set Identification, OSI) 為例,F(xiàn)AKEBOB的攻擊示意如圖2所示,其主要思想是迭代地在一段冒名頂替者的語音上加入人耳無法感知的擾動,生成對抗語音,從而使得系統(tǒng)將對抗語音識別為來自說話人組中的某個(指定的)說話人?;诼暭y識別技術(shù)的應(yīng)用場景,攻擊者可以利用FAKEBOB進行手機聲紋解鎖,移動應(yīng)用聲紋登錄甚至銀行交易聲紋驗證等,從而對受害者的財產(chǎn)安全,聲譽等造成危害。

FAKEBOB的框架如圖3所示,對抗語音生成被建模為一個帶約束 (Maximal distortion) 的優(yōu)化問題,約束的存在保證添加的擾動不能被人耳感知。FAKEBOB的主要特點包括:
1)對三大不同的說話人識別任務(wù),即開集說話人辨認,閉集說話人辨認 (Close-set Identification, CSI),說話人確認 (Speaker Verification, SV) 均有效。FAKEBOB對不同任務(wù)采用了不同的損失函數(shù),以適應(yīng)不同說話人識別任務(wù)打分和決策的差異。
2)和圖像識別不同,開集說話人辨認以及說話人確認的決策機制基于一個預(yù)設(shè)的閾值,只有對抗語音的得分超過閾值,攻擊才能成功。但在黑盒攻擊模型下,攻擊者無法提前獲得閾值。為了解決這個問題,該論文提出了閾值估計算法,實驗結(jié)果顯示,該算法能很好地估計實際閾值,即保證估計閾值大于實際閾值但兩者差距很小。
3)與白盒攻擊不同,F(xiàn)AKEBOB不要求攻擊者知道系統(tǒng)的內(nèi)部結(jié)構(gòu)及參數(shù),數(shù)據(jù)集等,只需要能夠訪問受害者的說話人模型(即提供輸入語音,獲取得分及決策結(jié)果)。這一黑盒攻擊模型比白盒攻擊模型更具現(xiàn)實性。根據(jù)調(diào)研,多數(shù)商用聲紋識別系統(tǒng)滿足黑盒模型。在黑盒攻擊模型下,為了能夠利用有效的梯度信息進行梯度下降解決上述優(yōu)化問題,F(xiàn)AKEBOB使用了基于自然進化策略 (Natural Evolution Strategy, NES) 的梯度估計算法,已有文獻顯示基于自然進化策略的梯度估計算法比有限差分梯度估計算法更高效。

如圖4所示,F(xiàn)AKEBOB適用于多種不同的攻擊場景

實驗結(jié)果
1)在Kaldi開源說話人識別系統(tǒng)上,F(xiàn)AKEBOB取得接近100%的攻擊成功率。此外FAKEBOB對商用的天聰智能聲紋識別系統(tǒng)也取得了100%的攻擊成功率,平均API調(diào)用次數(shù)為2500次。
2)對Decisions-only場景,F(xiàn)AKEBOB采用遷移攻擊。實驗顯示,提高對抗語音的對抗強度 (Strength) 后,在開源系統(tǒng)之間,F(xiàn)AKEBOB最高能取得100%的攻擊遷移成功率。此外,F(xiàn)AKEBOB產(chǎn)生的對抗語音能成功遷移到微軟商用的Azure開集說話人辨認系統(tǒng),針對性 (Targeted) 和非針對性 (Untargeted) 攻擊遷移率分別達到26%和41%。
3)除了API攻擊,F(xiàn)AKEBOB對over-the-air物理攻擊同樣有效。Over-the-air攻擊相比API攻擊的難點在于,對抗語音經(jīng)過揚聲器播放,空氣信道傳播,麥克風(fēng)接收后,其中的擾動會丟失從而失去對抗性。該論文通過提高對抗語音的對抗強度解決這一問題。實驗結(jié)果顯示這一方案是有效的,對不同的硬件設(shè)備(揚聲器和麥克風(fēng)),不同距離(揚聲器和麥克風(fēng)的距離)以及不同聲學(xué)環(huán)境(相對安靜,存在高斯白噪聲及其他典型生活場景噪聲),F(xiàn)AKEBOB都能取得較好的攻擊成功率。
4)為了衡量人耳對加入的擾動的感知度,該論文研究者在亞馬遜MTurk平臺上進行了兩項問卷調(diào)查。第一項調(diào)查詢問參與者是否聽到語音中存在噪聲,第二項調(diào)查詢問參與者認為原始語音和對抗語音是否來自同一個說話人。如圖5所示,盡管參與者對Over-the-air攻擊語音的感知要比API攻擊明顯,但該結(jié)果和已有相似調(diào)查具有可比性。第二個調(diào)查結(jié)果顯示,在人耳聽起來是來自冒名頂替者的語音卻能使得系統(tǒng)錯誤決策。

5)最后,該論文還驗證了FAKEBOB在若干個對抗語音防御或檢測方法下的攻擊效果。結(jié)果顯示,對于下采樣、中值濾波和比特量化這三種輸入變換類的防御方法,通過產(chǎn)生強對抗性語音,F(xiàn)AKEBOB能夠逃避這些防御方法,并且這三種方法在增加攻擊開銷或降低攻擊成功率方面效果有限或無效;對于基于時序依賴性的對抗語音檢測方法 (Temporal Dependency Detection),由于FAKEBOB并沒有改變語音的文本內(nèi)容,保留了時序依賴性,因此該檢測方法接近于隨機猜測。
后記
需要注意的是,針對說話人識別的安全威脅還有一類,稱為欺騙攻擊(Spoofing Attack)。欺騙攻擊通過錄制或語音合成等方法獲取某段語音,該語音人耳聽起來像受害者發(fā)出,自然地就能被系統(tǒng)識別為來自受害者;而對抗攻擊利用的是系統(tǒng)的漏洞,盡管生成的語音人耳聽起來根本不像受害者發(fā)出,但系統(tǒng)仍然做出錯誤決策。對抗攻擊相比欺騙攻擊的優(yōu)勢在于,當(dāng)有熟悉受害者聲音的人(包括受害者自身)在場時,對抗攻擊相比欺騙攻擊更加隱蔽。
如果你想深入了解這項工作,可以參考以下資料: