音視頻技術(shù)從零開始-音頻基礎(chǔ)

音視頻技術(shù)從零開始-音頻基礎(chǔ)

本人目前音視頻技術(shù)基本零基礎(chǔ)(在公司里耳濡目染,聽過一些概念,有著膚淺的理解,實(shí)際是一頭霧水),鑒于本人在一個(gè)短視頻公司工作(不好意思不懂這些),本身其實(shí)對(duì)這塊也比較感興趣,加上之前一直沒下決心系統(tǒng)學(xué)習(xí)這塊知識(shí),現(xiàn)在想開始從零開始系統(tǒng)學(xué)習(xí)音視頻技術(shù),并記錄學(xué)習(xí)筆記「音視頻從零開始」系列,希望能幫到更多零基礎(chǔ)想學(xué)習(xí)音視頻技術(shù)的同學(xué)

注:系列文章都是通過查找各個(gè)資料加上我個(gè)人理解總結(jié)出來的學(xué)習(xí)筆記,文章最后會(huì)附上參考文章或書籍的連接,如果有理解不對(duì)或有涉及知識(shí)侵權(quán)的地方,請(qǐng)及時(shí)評(píng)論聯(lián)系我

這是音視頻技術(shù)從零開始學(xué)習(xí)筆記的第一篇,從音頻技術(shù)相關(guān)的概念開始,本篇不涉及任何編程相關(guān)內(nèi)容。個(gè)人認(rèn)為,概念理解清楚對(duì)以后編程模塊的邊界、職責(zé)劃分以及該使用哪些工具有很大的幫助。

image

圖1-音頻技術(shù)核心概念

采樣

模擬信號(hào)(連續(xù)信號(hào))是連續(xù)的,意味著不會(huì)失真(音質(zhì)好),比如磁帶、唱片中就通過物理介質(zhì)(通過唱片表面的起伏跌宕,或者是磁帶上的磁粉引起的磁場(chǎng)強(qiáng)度來表示音箱上振膜的即時(shí)位置)保存著音頻的模擬信號(hào)。

我們都知道唱片和磁帶已經(jīng)逐漸離開人們的視野,就是因?yàn)橥ㄟ^物理手段無法長(zhǎng)久的保存音頻信號(hào),唱片會(huì)磨損,磁帶會(huì)老化,那用什么方法能夠長(zhǎng)久的保存音頻信息呢?

目前,使用最多的方法就是通過數(shù)字來保存音頻,那么又如何將音頻轉(zhuǎn)為數(shù)字呢?首先先通過圖中「采樣」手段,將模擬信號(hào)轉(zhuǎn)為離散信號(hào),離散信號(hào)可以理解為不連續(xù)信號(hào),把一段連續(xù)函數(shù)按照一定規(guī)則斷開。

image

圖2-采樣信號(hào) 原圖鏈接

此圖為CD標(biāo)準(zhǔn)的采樣信號(hào)圖,圖中的「采樣率44.1Khz」就是斷開函數(shù)的規(guī)則,每 1s 將一段波分為 44100 個(gè)矩形,經(jīng)過采樣,得到了一個(gè)有一堆柱形圖組成的圖形(離散信號(hào))

為什么音頻的采樣率是 44.1Khz 呢?對(duì)于高質(zhì)量的音頻(人耳能夠聽到的頻率范圍是 20hz-20Khz),根據(jù)采樣定理,按比人能聽到的最大頻率的2倍進(jìn)行采樣可以保證聲音在被數(shù)字化處理后,還能有質(zhì)量保障

量化

image

圖3-量化(信號(hào)處理)

經(jīng)過采樣后,我們發(fā)現(xiàn)圖中的縱坐標(biāo)是沒有值的,無法表示每段樣本的數(shù)字大小,這時(shí)候就需要引入量化的概念。通俗易懂地講「量化」就是在沿水平方向再將信號(hào)圖按照一定數(shù)字范圍切斷,保證每段樣本能用數(shù)字描述。這個(gè)數(shù)字的最終物理意義是反應(yīng)在音響振膜位置,比如用[0-10萬]進(jìn)行量化,最終反應(yīng)在振膜的位置就是 0-10萬。

那么CD的量化標(biāo)準(zhǔn)是什么呢?采用16bit(short),也就是2的16次方,總共65536,然后為了由于振膜是可以發(fā)生正向和負(fù)向位移,所以用[-32767,32768]進(jìn)行量化。

所以圖中虛線范圍就代表了量化的數(shù)字范圍,最終的紅色曲線就是量化的結(jié)果,數(shù)字信號(hào)

編碼

經(jīng)過量化后,每一個(gè)采樣都是一個(gè)數(shù)字,那這么多的數(shù)字該如何存儲(chǔ)呢?這就需要第三個(gè)概念:「編碼」,所謂編碼,就是按照一定的格式記錄采樣和量化后的數(shù)據(jù),比如順序存儲(chǔ)或壓縮存儲(chǔ)等。

這里涉及很多種格式,通常所說的音頻的裸數(shù)據(jù)格式就是脈沖編碼調(diào)制數(shù)據(jù),簡(jiǎn)稱 PCM (Pulse Code Modulation)。描述一段 PCM 通常需要以下三個(gè)概念

  • 量化格式(SampleFormat)
  • 采樣率(SampleRate)
  • 聲道數(shù)(Channel)

還以CD標(biāo)準(zhǔn)為例,量化格式 16bit,采樣率 44100,聲道數(shù) 2。

這里對(duì)聲道概念做一個(gè)補(bǔ)充,平時(shí)所謂的雙聲道、單聲道其實(shí)可以理解為需要記錄幾個(gè)信號(hào),比如磁帶,雙聲道就是同一時(shí)刻記錄兩個(gè)軌道的信息,一個(gè)負(fù)責(zé)記錄左耳機(jī)振膜位置,一個(gè)負(fù)責(zé)記錄右耳機(jī)振膜位置,以此類推,多個(gè)聲道也是類似

上述信息就描述了CD的音質(zhì),對(duì)于聲音格式來說,還有另一個(gè)概念用來描述它的大小,稱為數(shù)據(jù)比特率(bitRate),即 1s 內(nèi)的比特?cái)?shù)目,用于衡量音頻數(shù)據(jù)單位時(shí)間內(nèi)的容量大小,那么比特率如何計(jì)算?

BitRate=SampleFormat*SampleRate*Channel
單位為千比特每秒kbps(kb per second)。
比如對(duì)于CD音質(zhì),
44100*16*2=1378.125kbps
那么,一分鐘里,CD音質(zhì)數(shù)據(jù)需要占多大存儲(chǔ)空間呢?
1378.125*60/8/1024=10.09MB

所以一段1分鐘的音頻經(jīng)過采樣、量化、編碼后可以得到一個(gè)大約10MB裸數(shù)據(jù),成功地將音頻的模擬信號(hào)轉(zhuǎn)為數(shù)字信號(hào),并存儲(chǔ)下來。

音頻壓縮編碼

上面說到1分鐘的CD音質(zhì)數(shù)據(jù)的存儲(chǔ)空間大于為 10MB,這對(duì)于光盤磁盤存儲(chǔ)來說可接受,但對(duì)于網(wǎng)絡(luò)傳輸肯定是無法接受的。所以就需要「壓縮編碼」出面解決問題

所謂音頻編碼主要指音頻壓縮技術(shù),壓縮通常又被分為有損和無損兩種,但事實(shí)上,任何音頻編碼方式相對(duì)于最真實(shí)的自然聲音信號(hào),都是有損的壓縮。從前面說到的采樣、量化、編碼中不難理解,我們把一條光滑的音頻信號(hào)曲線分割成了許多數(shù)據(jù)塊,然后對(duì)數(shù)據(jù)進(jìn)行二進(jìn)制編碼,過程中其實(shí)就已經(jīng)損失了一部分?jǐn)?shù)據(jù)了,所以再次進(jìn)行壓縮也只能是盡可能的接近經(jīng)過PCM編碼后的音頻裸數(shù)據(jù)。

image

圖4-PCM編碼 原圖鏈接

既然壓縮是為了減小編碼后的數(shù)據(jù)存儲(chǔ)空間,那么就應(yīng)該去掉音頻的“冗余信息”,從以下兩個(gè)方面去衡量哪些數(shù)據(jù)是冗余的

  • 之前提到過,人耳所能察覺的聲音信號(hào)的頻率范圍為20Hz-20KHz,除此之外的其它頻率人耳無法察覺,都可視為冗余信號(hào)
  • 當(dāng)一個(gè)強(qiáng)音頻信號(hào)和一個(gè)弱音頻信號(hào)同時(shí)存在時(shí),弱信號(hào)會(huì)被強(qiáng)信號(hào)掩蔽,可視為冗余

其中第二點(diǎn)涉及另兩個(gè)概念「頻譜掩蔽效應(yīng)」和「時(shí)域掩蔽效應(yīng)」,名字看起來高深莫測(cè),其實(shí)不難理解。

image

圖5-頻譜掩蔽效應(yīng) 原圖鏈接

「頻譜掩蔽效應(yīng)」一個(gè)音頻信號(hào)被人耳聽到是有一個(gè)閾值,閾值越小越容易被人聽到,如圖所示,虛線是隨聲音頻率增大反應(yīng)的閾值曲線,在 2-5kHz范圍內(nèi),閾值很低,是人耳對(duì)聲音最敏感的頻率?,F(xiàn)在假設(shè)有一個(gè) 60dB-0.2kHz 的強(qiáng)音信號(hào)出現(xiàn)時(shí),閾值曲線會(huì)有所改變(圖中實(shí)線部分),0.1-0.5kHz 頻率的閾值被明顯抬高,圖中大概40dB-0.17kHz 左右的信號(hào)和 30dB-0.48kHz左右的信號(hào)都會(huì)被掩蔽。所以在0.1kHz-0.5kHz范圍內(nèi),只能聽到 65dp-0.2kHz 的聲音,其余信號(hào)可視為冗余。

image

圖6-時(shí)域掩蔽效應(yīng) 原圖鏈接

「時(shí)域掩蔽效應(yīng)」是強(qiáng)信號(hào)和弱信號(hào)在時(shí)間維度發(fā)生的掩蔽,分為

  • 前掩蔽,人在聽到強(qiáng)信號(hào)之前,一些弱信號(hào)會(huì)被掩蔽
  • 同時(shí)掩蔽,強(qiáng)信號(hào)會(huì)掩蔽同時(shí)發(fā)生的弱信號(hào)
  • 后掩蔽,強(qiáng)信號(hào)消失后,需要經(jīng)過一段時(shí)間后,才能重新聽到弱信號(hào)

在這過程中被掩蔽的信號(hào)被視為冗余

幾種音頻壓縮編碼簡(jiǎn)介

編碼 實(shí)現(xiàn)簡(jiǎn)介 特點(diǎn) 適用場(chǎng)景
WAV 無損壓縮,其中一種實(shí)現(xiàn)方式是在 PCM 數(shù)據(jù)格式前加上 44 字節(jié),分別描述采樣率、聲道數(shù)、數(shù)據(jù)格式等信息。 音質(zhì)非常好,大量軟件都支持 多媒體開發(fā)的中間文件、保存音樂和音效
MP3 具有不錯(cuò)的壓縮比,使用 LAME 編碼(MP3 編碼格式的一種實(shí)現(xiàn))的中高碼率的 MP3 文件 音質(zhì)在 128Kbit/s 以上表現(xiàn)還不錯(cuò),壓縮比比較高,大量軟硬件都支持 高比特率下對(duì)兼容性有要求的音樂鑒賞
AAC 新一代有損壓縮技術(shù),通過一些附加的編碼技術(shù)(PS、SBR 等),衍生出了 LC-AAC、HE-AAC、HE-AAC v2三種主要編碼格式 小于 128Kbit/s 表現(xiàn)優(yōu)異,多用于視頻中的音頻編碼 128Kbit/s 一下的音頻編碼,多用于視頻中的音頻編碼
Ogg 一種非常有潛力的編碼,各種碼率下都有比較優(yōu)秀的表現(xiàn),尤其是低碼率場(chǎng)景下??梢栽诘痛a率的場(chǎng)景下仍然保持不錯(cuò)的音質(zhì),但目前軟件硬件支持情況較差 可用比 MP3 更小的碼率實(shí)現(xiàn)比 MP3 更好的音質(zhì),但兼容性不好 語音聊天的音頻消息場(chǎng)景

1.壓縮比,壓縮后大小/原大小,通常小于 1,越小表示壓縮的越狠
2.“碼率”是比特率是俗稱
3.表格總結(jié)于《音視頻開發(fā)指南》,其中一些細(xì)節(jié)有興趣的同學(xué)可以再深入查閱,本文不再深入研究

思考

  1. 為什么磁帶、唱片逐漸消失在人們的視野里,音頻播放器可以取而代之?
  2. 聲音是經(jīng)過怎樣的處理過程后保存成數(shù)字信息的?
  3. 為什么要對(duì)音頻數(shù)據(jù)進(jìn)行壓縮編碼?

參考鏈接

轉(zhuǎn)文聲明

如有文章轉(zhuǎn)載需求,請(qǐng)注明本文作者以及鏈接,感謝各位理解支持

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容