新的AI系統(tǒng)將人腦信號轉(zhuǎn)換為文本的準確性高達97%

暢游科學海洋,共尋宇宙之妙,大家好,我是南城~

直到現(xiàn)在,大家都還在適應(yīng)亞馬遜和谷歌等公司制造的虛擬助手的功能和先進性。但是,與短短幾年前的那些技術(shù)所能提供的功能相比,現(xiàn)在的通過腦電波高精度識別文字的功能就真的是令人毛骨悚然了~

這真的不是科幻小說。從動物模型測試到人類參與者測試,腦機接口在過去的幾十年中得到了長足的發(fā)展,實際上人類已經(jīng)在嘗試這種事情。但一直以來都存在一個問題——識別精度不夠。

為了改善這一狀況,由加州大學舊金山分校張氏實驗室的神經(jīng)外科醫(yī)生愛德華·張領(lǐng)導的研究小組使用了一種新的方法來解碼皮層電圖:皮層活動期間發(fā)生的電脈沖的記錄由植入大腦的電極采集。

在這項研究中,四名癲癇患者戴上了植入物以監(jiān)測由他們的醫(yī)療狀況引起的癲癇發(fā)作,在此過程中,UCSF團隊進行了一項輔助實驗:讓參與者朗讀并重復一些固定的句子,而電極記錄他們的大腦活動在運動中。

然后,將這些數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,該神經(jīng)網(wǎng)絡(luò)會根據(jù)實驗的音頻記錄,分析與某些語音簽名(例如元音,輔音或嘴巴動作)相對應(yīng)的大腦活動模式。

此后,另一個神經(jīng)網(wǎng)絡(luò)對這些活動進行解碼(從重復的30–50個口頭句子收集而來),并僅根據(jù)單詞的皮層活動來翻譯實驗對象所說的內(nèi)容。

在最好的情況下,該系統(tǒng)產(chǎn)生了的誤碼率(WER)僅有3%,也就是幾乎能準確的將參與者的腦信號轉(zhuǎn)換為文本——至少與現(xiàn)今的一些AI識別的效果差不多(不過AI轉(zhuǎn)換的是語音之類的信號),所以事實證明,這項技術(shù)已經(jīng)能初步讀懂的人的思想。

在他們的論文中,團隊詳細介紹了參與者所說的參考句子的許多示例,以及神經(jīng)網(wǎng)絡(luò)生成的“翻譯結(jié)果”,不過有時也是錯誤的,而且有時候錯誤很明顯,甚至與實際上要表達的內(nèi)容大相徑庭(這可能是引入的數(shù)據(jù)集有限導致的)。

錯誤的例子包括:實驗參與者的原意是:“博物館每天晚上都會聘請音樂家”,但翻譯結(jié)果是:“博物館每天早上都會聘請音樂家”;還有“蛋糕的一部分被狗吃掉了”被翻譯為“蛋糕的一部分是餅干”等等。

在最不準確的情況下,這些錯誤甚至上在語義上與所說的內(nèi)容無關(guān):比如“她穿著溫暖的羊毛工作服”被翻譯為“綠洲是海市蜃樓”。

盡管存在著一些明顯的錯誤,但總體而言,該系統(tǒng)仍可構(gòu)成基于AI的大腦活動解碼的新基準,其最佳狀態(tài)與專業(yè)人類語音轉(zhuǎn)錄相當。

當然,與普通人類說話者打交道的專業(yè)錄音筆必須與擴展成千上萬個單詞的詞匯。相比之下,該系統(tǒng)僅學習了有限的短句中使用的大約250個唯一單詞的皮質(zhì)活動,因此這并不是一個公平的比較。

雖然還有許多障礙需要克服,但研究小組認為,該系統(tǒng)有一天可能成為失去說話能力的患者的福音。如果有可能做到這一點,那將是一件大事——為某些人提供與世界交流的方式。

作者解釋說:“在一個長期植入的參與者中,可用的數(shù)據(jù)量將比本研究中使用的半個小時左右的語音大幾個數(shù)量級,這表明該系統(tǒng)的詞匯量和靈活性還可以極大地擴展?!?/p>

該項發(fā)現(xiàn)已經(jīng)發(fā)表在《自然神經(jīng)科學》上,感興趣的朋友可以自行了解更多~

謝謝大家耐心看完,是不是想說點什么呢,歡迎轉(zhuǎn)發(fā)評論哦!我們下期再見~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容