音視頻-音頻采樣、量化、編碼

音頻

  • 聲音是波,靠物體振動產(chǎn)生。
  • 聲波三要素:
    1、頻率:表示音階的高低。
    2、振幅:表示響度。
    3、波形:表示音色。在同樣的頻率和響度下,不同物體發(fā)出的聲音不一樣,比如鋼琴和古箏聲音就完全不同。波形的形狀決定了聲音的音色。不同的介質(zhì)所產(chǎn)生的波形不同,音色也就不同。
  • 分貝(decibel):度量聲音強度的單位(dB)。

數(shù)字化音頻

概念:將模擬信號轉(zhuǎn)換為數(shù)字信號的過程。

采樣->量化->編碼

音頻數(shù)字化
模擬信號轉(zhuǎn)變?yōu)閿?shù)字信號
  • 模擬信號

模擬信號:把在時間和幅度上都連續(xù)的信號稱為模擬信號。

  • 音頻采樣

采樣:在某些特定的時刻對這種 模擬信號 進行測量叫做采樣。得到的信號稱為 離散時間信號。

根據(jù) 奈斯特定理(采樣定理) 按照比聲音最高頻率高2倍以上的頻率進行采樣。這個過程稱為AD轉(zhuǎn)換。

比如,高質(zhì)量音頻信號頻率范圍是20Hz-20KHz。所以采樣頻率一般是44.1KHz。這樣可以保證采樣聲音達到20KHz也能被數(shù)字化。而且經(jīng)過數(shù)字化處理后的聲音音質(zhì)也不會降低。44.1KHZ指的是1秒會采樣44100次。

  • 量化

量化:把信號幅度取值的數(shù)目加以限定,由有限個數(shù)值組成的信號稱為 離散幅度信號。
是聲音波形數(shù)據(jù)是多少位的二進制數(shù)據(jù)。通常用bit做單位。

比如16比特的二進制信號來表示聲音的一個量化。它的取值范圍[-32768,32767],一共有65536個值。如16bit、24bit。16bit量化級記錄聲音的數(shù)據(jù)是用16位的二進制數(shù)。因此,量化級也是數(shù)字聲音質(zhì)量的重要指標(biāo)。我們形容數(shù)字聲音的質(zhì)量,通常就描述為24bit(量化級)、48KHz采樣,比如標(biāo)準(zhǔn)CD音樂的質(zhì)量就是16bit、44.1KHz采樣。

  • 數(shù)字信號

把時間和幅度都用離散的數(shù)字表示的信號就稱為 數(shù)字信號。

  • 編碼

編碼:按照一定的格式記錄 采樣量化 后的數(shù)據(jù)。

音頻編碼的格式有很多種,而通常所說的音頻裸數(shù)據(jù)指的是 脈沖編碼調(diào)制(PCM) 數(shù)據(jù).
如果想要描述一份PCM數(shù)據(jù),需要從如下幾個方向出發(fā):
1、量化格式(sampleFormat)
2、采樣率(sampleRate)
3、聲道數(shù)(channel)

  • 聲道數(shù)

單聲道(mono:信號一次產(chǎn)生一組聲波數(shù)據(jù)。
雙聲道(stereo:一次產(chǎn)生兩組聲波數(shù)據(jù)。雙聲道在硬件中占有兩條線路,一條是左聲道,一條是右聲道。
立體聲不僅音質(zhì)、音色好,而且能產(chǎn)生逼真的空間感。但是立體聲數(shù)字化后所占的空間比單聲道多一倍。

以CD音質(zhì)為例,量化格式為16bite,采樣率為44100,聲道數(shù)為2。這些信息描述CD音質(zhì)。那么可以CD音質(zhì)數(shù)據(jù),比特率bit/s(單位:bps):
44100 * 16 * 2 = 1378.125kbps

那么一分鐘的,這類CD音質(zhì)數(shù)據(jù)需要占用存儲空間:
1378.125 * 60 /8/1024 = 10.09MB

音頻編碼

CD音質(zhì)的數(shù)據(jù)采樣,每分鐘需要存儲空間為10.09MB。從存儲的角度或者網(wǎng)絡(luò)實時傳播的角度,這個數(shù)據(jù)量都是太大了,對于存儲和傳輸都是非常具有挑戰(zhàn)的。所以我們需要通過壓縮編碼。

壓縮編碼的基本指標(biāo)就是 壓縮比壓縮比 通常小于1(如果等于或者大于1,是不是就失去的壓縮的意義了,壓縮目的就是為了減少數(shù)據(jù)體量)。壓縮算法分為2種,有損壓縮無損壓縮。

  • 無損壓縮:解壓后的數(shù)據(jù)可以完全復(fù)原。在常用的壓縮格式中,用的較多的都是有損壓縮。
  • 有損壓縮:解壓后的數(shù)據(jù)不能完全復(fù)原,會丟失一部分信息。壓縮比越小,丟失的信息就會越多,信號還原的失真就會越大。

需要根據(jù)不同的場景(考慮因素包括存儲設(shè)備,傳輸網(wǎng)絡(luò)環(huán)境,播放設(shè)備等),可以選用不同壓縮編碼算法。

壓縮編碼的原理實際上就是壓縮冗余的信號。冗余信號就是指不能被人耳感知的信號。包括人耳聽覺范圍之外的音頻信號以及被掩蓋掉的音頻信號。

編碼分類:

  • 1、波形編碼

波形編碼:不利用生成音頻信號的任何參數(shù),直接將 時間域信號 變換為 數(shù)字代碼,使重構(gòu)的語音波形盡可能地與原始語音信號的 波形形狀 保持一致。
波形編碼的基本原理:在 時間軸 上對模擬語音信號按一定的速率抽樣,然后將幅度樣本分層量化,并用代碼表示。

優(yōu)點:波形編碼方法簡單、易于實現(xiàn)、適應(yīng)能力強并且語音質(zhì)量好。
缺點:壓縮比相對較低,導(dǎo)致較高的編碼率。

  • 2、參數(shù)編碼

參數(shù)編碼:從語音 波形信號 中提取生成語音的參數(shù),使用這些參數(shù)通過語音生成模型重構(gòu)出語音,使重構(gòu)的語音信號盡可能地保持原始語音信號的語意。也就是說,參數(shù)編碼是把語音信號產(chǎn)生的數(shù)字模型作為基礎(chǔ),然后求出數(shù)字模型的模型參數(shù),再按照這些參數(shù)還原數(shù)字模型,進而合成語音。

優(yōu)點:編碼率較低,保密性好。
缺點:可能會失真比較大,音質(zhì)低。

  • 3、混合編碼

混合編碼是指同時使用兩種或兩種以上的編碼方法進行編碼。這種編碼方法克服了波形編碼和參數(shù)編碼的弱點,并結(jié)合了波形編碼高質(zhì)量和參數(shù)編碼的低編碼率,能夠取得比較好的效果。

常用壓縮編碼格式:

  • 1、WAV編碼(波形編碼)

WAV是編碼的一種實現(xiàn)方式(其實它有非常多實現(xiàn)方式,但都是不會進行壓縮操作)。就是在源 PCM 數(shù)據(jù)格式的前面加上44個字節(jié)。分別用來描述 PCM 的采樣率、聲道數(shù)、數(shù)據(jù)格式等信息。

特點:音質(zhì)非常好,大量軟件都支持其播放。
適合場合:多媒體開發(fā)的中間文件,保存音樂和音效素材。

  • 2、MP3編碼

MP3編碼具有不錯的壓縮比,而且聽感也接近于WAV文件,當(dāng)然在不同的環(huán)境下,應(yīng)該調(diào)整合適的參數(shù)來達到更好的效果。

特點:音質(zhì)在128Kbit/s以上表現(xiàn)不錯,壓縮比比較高。大量軟件和硬件都支持。兼容性高。
適合場合:高比特率下對兼容性有要求的音樂欣賞。

  • 3、AAC編碼

AAC是目前比較熱門的有損壓縮編碼技術(shù),并且衍生了LC-AAC、HE-AAC、HE-AAC v2 三種主要編碼格式。

LC-AAC:是比較傳統(tǒng)的AAC,主要應(yīng)用于中高碼率的場景編碼(>= 80Kbit/s)
HE-AAC: 主要應(yīng)用于低碼率場景的編碼(<= 48Kbit/s)

特點:在小于128Kbit/s的碼率下表現(xiàn)優(yōu)異,并且多用于視頻中的音頻編碼
適合場景:于128Kbit/s以下的音頻編碼,多用于視頻中的音頻軌的編碼。

  • 4、Ogg編碼(有損)

Ogg編碼是一種非常有潛力的編碼,在各種碼率下都有比較優(yōu)秀的表現(xiàn)。尤其在低碼率場景下。Ogg除了音質(zhì)好之外,Ogg的編碼算法也是非常出色??梢杂酶〉拇a率達到更好的音質(zhì)。128Kbit/s的Ogg比192Kbit/s甚至更高碼率的MP3更優(yōu)質(zhì).但目前由軟件還是硬件支持問題,都沒法達到與MP3的使用廣度.

特點:可以用比MP3更小的碼率實現(xiàn)比MP3更好的音質(zhì),高中低碼率下均有良好的表現(xiàn),兼容不夠好,流媒體特性不支持。
適合場景:語言聊天的音頻消息場景。

參考文章 音頻編碼

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容