語音相關(guān)背景和算法

  • WSOLA的應(yīng)用背景

因特網(wǎng)從一個基于數(shù)據(jù)業(yè)務(wù)的網(wǎng)絡(luò)轉(zhuǎn)變?yōu)橄蛴脩籼峁┮曨l,音頻等多種業(yè)務(wù)的綜合性的網(wǎng)絡(luò),互聯(lián)網(wǎng)協(xié)議電話作為一種基于IP的實時語音傳輸技術(shù),成為了目前研究的熱點。當(dāng)VoIP的丟包率超過了5%之后,會對語音通信質(zhì)量產(chǎn)生比較明顯的影響,需要在接收端通過一系列的丟包恢復(fù)技術(shù)來抵消無線網(wǎng)絡(luò)大量丟包對語音通信質(zhì)量造成的影響。

VoIP,Voice over Internet Protocol,意思是用IP分組網(wǎng)絡(luò)進(jìn)行話音傳輸
WSOLA,Waveform Similarity OverLap and Add,波形相似疊加

波形相似疊加WSOLA算法是一種常用的丟包恢復(fù)技術(shù),其利用了人耳的掩蔽效應(yīng)以及人類語音信號的短時相關(guān)性。

  • VoIP與PSTN的區(qū)別

VoIP優(yōu)勢:傳統(tǒng)的公共交換電話網(wǎng)是建造在由設(shè)備廠商提供應(yīng)用的基礎(chǔ)架構(gòu)上的,另外數(shù)據(jù)語音視頻無法三者合一,為語音而建的架構(gòu)很難足夠靈活的承載數(shù)據(jù)。
VoIP劣勢:致命弱點是語音質(zhì)量,影響語音質(zhì)量問題包括丟包,延遲和抖動。為了改進(jìn)質(zhì)量,歸納為三類,注冊許可控制策略,資源預(yù)留策略(RSVP),自適應(yīng)策略。

  • 數(shù)字語音信號

由于人類語音屬于一種模擬信號,脈沖編碼調(diào)制PCM是一種常用的把模擬語音信號數(shù)字化的方法。

模擬波形通過一個音頻過濾器,將輸入信號中所有超過4kHZ的部分過濾
對過濾后的模擬信號進(jìn)行8k samples/s,波形被采樣后轉(zhuǎn)換成離散的數(shù)字表達(dá)方式
  • 時間尺度修改技術(shù)

在保證語音基音頻率不變的前提下,對一段語音的時域尺度進(jìn)行修改,已達(dá)到在不明顯降低語音質(zhì)量的同時延長或縮短語音持續(xù)時間的目的。


1.jpg

最常用的時域尺度修改技術(shù)主要有基音同步疊加法(Pitch Synchronous OverLap and Add, PSOLA)和波形相似疊加法。(Waveform Similarity OverLap and Add)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容