-
WSOLA的應(yīng)用背景
因特網(wǎng)從一個基于數(shù)據(jù)業(yè)務(wù)的網(wǎng)絡(luò)轉(zhuǎn)變?yōu)橄蛴脩籼峁┮曨l,音頻等多種業(yè)務(wù)的綜合性的網(wǎng)絡(luò),互聯(lián)網(wǎng)協(xié)議電話作為一種基于IP的實時語音傳輸技術(shù),成為了目前研究的熱點。當(dāng)VoIP的丟包率超過了5%之后,會對語音通信質(zhì)量產(chǎn)生比較明顯的影響,需要在接收端通過一系列的丟包恢復(fù)技術(shù)來抵消無線網(wǎng)絡(luò)大量丟包對語音通信質(zhì)量造成的影響。
VoIP,Voice over Internet Protocol,意思是用IP分組網(wǎng)絡(luò)進(jìn)行話音傳輸
WSOLA,Waveform Similarity OverLap and Add,波形相似疊加
波形相似疊加WSOLA算法是一種常用的丟包恢復(fù)技術(shù),其利用了人耳的掩蔽效應(yīng)以及人類語音信號的短時相關(guān)性。
-
VoIP與PSTN的區(qū)別
VoIP優(yōu)勢:傳統(tǒng)的公共交換電話網(wǎng)是建造在由設(shè)備廠商提供應(yīng)用的基礎(chǔ)架構(gòu)上的,另外數(shù)據(jù)語音視頻無法三者合一,為語音而建的架構(gòu)很難足夠靈活的承載數(shù)據(jù)。
VoIP劣勢:致命弱點是語音質(zhì)量,影響語音質(zhì)量問題包括丟包,延遲和抖動。為了改進(jìn)質(zhì)量,歸納為三類,注冊許可控制策略,資源預(yù)留策略(RSVP),自適應(yīng)策略。
-
數(shù)字語音信號
由于人類語音屬于一種模擬信號,脈沖編碼調(diào)制PCM是一種常用的把模擬語音信號數(shù)字化的方法。
模擬波形通過一個音頻過濾器,將輸入信號中所有超過4kHZ的部分過濾
對過濾后的模擬信號進(jìn)行8k samples/s,波形被采樣后轉(zhuǎn)換成離散的數(shù)字表達(dá)方式
-
時間尺度修改技術(shù)
在保證語音基音頻率不變的前提下,對一段語音的時域尺度進(jìn)行修改,已達(dá)到在不明顯降低語音質(zhì)量的同時延長或縮短語音持續(xù)時間的目的。

最常用的時域尺度修改技術(shù)主要有基音同步疊加法(Pitch Synchronous OverLap and Add, PSOLA)和波形相似疊加法。(Waveform Similarity OverLap and Add)