作者:秋半仙,哼哼
咳咳,童鞋們都到齊了嗎?那啥,后排的童鞋趕緊找位置做好,我們的分享會(huì)馬上開始了哈~
今天秋半仙我hin是激動(dòng)啊~為啥?因?yàn)樵蹅兘K于快收拾完這信號(hào)處理五大刺頭了。今天,我們就要花式吊打一下這五大刺頭之首——人。(鼓掌??????~撒花~)
要成為五大刺頭之首,沒兩把刷子是不行的。而“人”的刷子主要有以下幾把:
人聲。這是信號(hào)處理中與人相關(guān)的最重要的因素之一。在音頻中,人聲主要以“聲源”和“噪聲源”這兩種角色存在,而這把刷子的厲害之處就在于這亦正亦邪的雙重身份。人家川劇變個(gè)臉至少還換了個(gè)面具,可人從“聲源”變成“噪聲源”那整的跟真假猴王似的,啥也沒變,就一邊嘚瑟一邊跟信號(hào)處理叫囂:來抓我呀來抓我呀~ 唉,可是急壞信號(hào)處理寶寶了~
人為造成的聲音。比如拍手、敲桌子、敲玻璃等這些人為的但不是人發(fā)出的聲音,有時(shí)也會(huì)被信號(hào)處理誤解為人發(fā)出的指令而導(dǎo)致識(shí)別效果不佳。
人發(fā)出的無具體含義的聲音。英文中這類聲音叫“filler”,如“呃”,“嗯”等。這種聲音因?yàn)榇_實(shí)是人發(fā)出的,且與某些詞或者某些詞的尾部音節(jié)同音,所以很容易給信號(hào)處理帶來誤解。
鑒于后兩把刷子和后面要聊的“語音識(shí)別”部分有很多交集,而本次分享主要聊“信號(hào)處理”,所以本半仙在這里側(cè)重描述人聲的問題。
“人聲”主要從三個(gè)角度來思考:
相對(duì)位置。這里的相對(duì)位置指的是以設(shè)備為中心,多人處于不同區(qū)域,以及多人與設(shè)備處于線性區(qū)域內(nèi)的情況。
說話方式。這包含語速、音量等,還有連讀、輕音、爆破音、輕重音、停頓等,還有多語種混讀等等(設(shè)想一下讓本半仙這種英語渣渣用英語給指令得把信號(hào)識(shí)別折磨得多慘,mua哈哈哈哈哈哈~)。
自身狀態(tài)。一些身體不適,比如感冒、呼吸道感染等可能會(huì)導(dǎo)致聲音嚴(yán)重嘶啞或者斷續(xù)。
后兩個(gè)角度相對(duì)比較好理解,我這里就不贅述了,這里主要聊聊相對(duì)位置:
假設(shè)一個(gè)場(chǎng)景:場(chǎng)景中包含語音識(shí)別設(shè)備二傻,說話人哼哼及至少1個(gè)人作為噪聲源,此處暫定為本半仙我。根據(jù)以上場(chǎng)景我們圍繞“位置”這個(gè)維度的變化來探討(特例:一個(gè)房間,在房間各個(gè)角落的某些特定位置放置麥克風(fēng)來采集房間內(nèi)的人的聲音,這里不屬于此類場(chǎng)景):
以二傻為中心,如果噪聲源秋半仙和說話人哼哼在不同角度的區(qū)域,那二傻處理起信號(hào)來就不傻,如下圖:
如果噪聲源和說話人在同一個(gè)角度的線性區(qū)域內(nèi),這時(shí)候二傻可能就會(huì)變傻,甚至可能無法區(qū)分說話人和噪聲源,從而導(dǎo)致信號(hào)處理之后,兩個(gè)人的聲音都被混在一起保留下來(這個(gè)可能性極大)。具體如下圖:
下圖為車內(nèi)多人的真實(shí)場(chǎng)景的示意圖:主駕后排說話人的聲音通過聲音的反射,就闖入了有效區(qū)域,且和主駕說話人處在了“同一個(gè)角度的線性區(qū)域內(nèi)”,從而被當(dāng)成有效人聲被采集。副駕說話人,處在“不同角度區(qū)域”內(nèi),被成功抑制。
這個(gè)地方有很多童鞋都提出過方案:
根據(jù)“距離”來將兩個(gè)聲源分開,然后兩個(gè)聲源分別去做語音和語義,根據(jù)最終的“語義”的“有效性”來判定哪個(gè)是“聲源”哪個(gè)是“噪聲源”。
將這兩個(gè)聲源去做”聲紋識(shí)別“,可以要求說話人的聲紋是已知的,這樣就可以根據(jù)聲紋的比對(duì),來確認(rèn)”聲源“,從而正確響應(yīng)說話人的指令。
把這兩個(gè)聲源都當(dāng)成”聲源“,依次做出響應(yīng)。
這幾種產(chǎn)品方案看起來都是有可行性的,但他們又一個(gè)共同的難點(diǎn),那就是:”兩個(gè)聲源“如何有效”分離“?
或許不惜成本去做能夠做到,但是今天在市面上的商品化的產(chǎn)品中,還沒有一款做到了,甚至連演示的demo,本半仙也只是看到了”不同角度區(qū)域“依次響應(yīng)的案例,”同一角度區(qū)域“的案例還沒見過。如果有哪位童鞋看到過,也煩請(qǐng)分享一下給我。有興趣的童鞋也可以和信號(hào)的算法童鞋聊聊這個(gè)話題,大家一起探討探討。
但話說回來,“在同一個(gè)角度區(qū)域中同時(shí)說話”的概率其實(shí)并不高,所以,”兩個(gè)人的聲音都被混在一起保留下來“的結(jié)果也并非不可接受。產(chǎn)品童鞋在產(chǎn)品的設(shè)計(jì)中,還是要盡量引導(dǎo)用戶避免這么去使用語音產(chǎn)品。
再說回說話方式和自身狀態(tài)。這兩點(diǎn)主要是考量對(duì)于“人聲”的辨識(shí),這是語音的基礎(chǔ)工作,語音公司一般都能做到一定程度。這些主要影響后面的語音識(shí)別,而且主要的幾個(gè)思考方向都表述清楚了,可以按照這個(gè)思路去驗(yàn)證語音能力的效果。如果效果偏差,可以挑選出具體的場(chǎng)景,安排人員,采集盡可能全面、豐富、高質(zhì)量的音頻數(shù)據(jù)交給算法的同學(xué),方便他們?nèi)?yōu)化算法和能力。當(dāng)然,這個(gè)主要涉及下個(gè)環(huán)節(jié),所以我們下次分享會(huì)再細(xì)聊。
那“信號(hào)處理”具體是怎么實(shí)現(xiàn)的?其實(shí)本半仙也不知道(對(duì)的,本半仙也有算不到的天機(jī),怎么著吧),術(shù)業(yè)有專攻,這個(gè)問題還是留給最專業(yè)的人去思考和解決吧。產(chǎn)品作為一個(gè)業(yè)務(wù)的驅(qū)動(dòng)力,雖然不需要真正去實(shí)現(xiàn)“信號(hào)處理”,但還是需要去深入了解它,這樣可以在產(chǎn)品的頂層設(shè)計(jì)時(shí),就能夠幫助整個(gè)團(tuán)隊(duì)規(guī)避大量的前期風(fēng)險(xiǎn),大大減少花在探索上的時(shí)間和金錢,也能減少落地過程中很多潛在的執(zhí)行風(fēng)險(xiǎn)。產(chǎn)品在驅(qū)動(dòng)整個(gè)team協(xié)同作戰(zhàn),對(duì)每個(gè)細(xì)節(jié)都需要深入了解,才能真正幫助團(tuán)隊(duì)創(chuàng)造最大的價(jià)值。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?—THE END—