一、聲音是什么?
1聲音的物理性質(zhì)--振動(dòng)
聲音是一種由物體振動(dòng)引發(fā)的物理現(xiàn)象,如小提琴的弦聲等。物體的振動(dòng)使其四周空氣的壓產(chǎn)生變化,這種忽強(qiáng)忽弱變化以波的形式向四周傳播,當(dāng)被人耳所接收時(shí),我們就聽(tīng)見(jiàn)了聲音。

2.聲音的物理性質(zhì)--波形
聲音是由物體的振動(dòng)產(chǎn)生的,這種振動(dòng)引起了周圍空氣壓強(qiáng)的振蕩,我們稱這種振蕩的函數(shù)表現(xiàn)形式為波形。

3.聲音的物理性質(zhì)-頻率
聲音的頻率是周期的倒數(shù),它表示的是聲音在1秒鐘內(nèi)的周期數(shù),單位是赫茲(Hz)。千赫(kHz),即1000Hz,表示每秒振動(dòng)1000次。聲音按頻率可作如下劃分:
? 次聲 0~20Hz
? 人耳能聽(tīng)見(jiàn)的聲音 20Hz~20KHz
? 超聲 20KHz~1GHz
? 特超聲 1GHz~10THz
4.聲音的物理性質(zhì)-振幅
聲音有振幅,振幅的主觀感覺(jué)是聲音的大小。聲音的振幅大小取決于空氣壓力波距平均值(也稱平衡態(tài))的最大偏移量。

二、數(shù)字音頻
為了將模擬信號(hào)數(shù)字化,將分為3個(gè)概念進(jìn)行講解:
采樣頻率、采樣量化、編碼

2.1數(shù)字音頻采樣頻率
根據(jù)Nyguist采樣定律,要從采樣中完全恢復(fù)原始信號(hào)波形,采樣頻率必須至少是信號(hào)中最高頻率的兩倍。前面提到人耳能聽(tīng)到的頻率范圍是[20H~20kHz],所以采樣頻率一般為44.1Khz,這樣就能保證聲音到達(dá)20Khz也能被數(shù)字化,從而使得經(jīng)過(guò)數(shù)字化處理之后,人耳聽(tīng)到的聲音質(zhì)量不會(huì)被降低。
采樣頻率:每秒鐘采樣的點(diǎn)的個(gè)數(shù)。常用的采樣頻率有:
22000(22kHz): 無(wú)線廣播。
44100(44.1kHz): CD音質(zhì)。
48000(48kHz): 數(shù)字電視,DVD。
96000(96kHz): 藍(lán)光,高清DVD。
192000(192kHz): 藍(lán)光,高清DVD
2.2數(shù)字音頻-采樣量化
采樣是在離散的時(shí)間點(diǎn)上進(jìn)行的,而采樣值本身在計(jì)算機(jī)中也是離散的。采樣值的精度取決于它用多少位來(lái)表示,這就是量化。例如8位量化可以表示256個(gè)不同值,而CD質(zhì)量的16位量化可以表示65 536個(gè)值,范圍為[-32768, 32767]。
下圖是一個(gè)3位量化的示意圖,可以看出3位量化只能表示8值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1,因而量化位數(shù)越少,波形就越難辨認(rèn),還原后的聲音質(zhì)量也就越差(可能除了一片嗡嗡聲之外什么都沒(méi)有)

三、音頻常見(jiàn)名詞
采樣頻率:每秒鐘采樣的點(diǎn)的個(gè)數(shù)。常用的采樣頻率有:
22000(22kHz): 無(wú)線廣播。
44100(44.1kHz):CD音質(zhì)。
48000(48kHz): 數(shù)字電視,DVD。
96000(96kHz): 藍(lán)光,高清DVD。
192000(192kHz): 藍(lán)光,高清DVD。
采樣精度(采樣深度):每個(gè)“樣本點(diǎn)”的大小,
常用的大小為8bit, 16bit,24bit。
通道數(shù):單聲道,雙聲道,四聲道,5.1聲道
比特率:每秒傳輸?shù)腷it數(shù),單位為:bps(Bit Per Second)
間接衡量聲音質(zhì)量的一個(gè)標(biāo)準(zhǔn)。
沒(méi)有壓縮的音頻數(shù)據(jù)的比特率 = 采樣頻率 * 采樣精度 * 通道數(shù)。
碼率: 壓縮后的音頻數(shù)據(jù)的比特率。常見(jiàn)的碼率:
96kbps: FM質(zhì)量
128-160kbps:一般質(zhì)量音頻。
192kbps: CD質(zhì)量。
256-320Kbps:高質(zhì)量音頻
碼率越大,壓縮效率越低,音質(zhì)越好,壓縮后數(shù)據(jù)越大。
碼率 = 音頻文件大小/時(shí)長(zhǎng)
舉例,比特率計(jì)算
采樣頻率44100,采樣精度16bit,2通道(聲道),采集4分鐘的數(shù)據(jù)
44100*16*2*4*60= 338688000bit
338688000/8/1024/1024 = 40M字節(jié)
比特率:采樣頻率 * 采樣精度 * 通道數(shù) = 44100*16*2=1411200bit/s
幀:每次編碼的采樣單元數(shù),比如MP3通常是1152個(gè)采樣點(diǎn)作為一個(gè)編碼單元,AAC通常是1024個(gè)采樣點(diǎn)作為一個(gè)編碼單元。
幀長(zhǎng):
? 可以指每幀播放持續(xù)的時(shí)間:每幀持續(xù)時(shí)間(秒) = 每幀采樣點(diǎn)
數(shù) / 采樣頻率(HZ)
比如:MP3 48k, 1152個(gè)采樣點(diǎn),每幀則為 24毫秒
1152/48000= 0.024 秒 = 24毫秒;
? 也可以指壓縮后每幀的數(shù)據(jù)長(zhǎng)度。
? 所以講到幀的時(shí)候要注意他適用的場(chǎng)合
交錯(cuò)模式:數(shù)字音頻信號(hào)存儲(chǔ)的方式。數(shù)據(jù)以連續(xù)幀的方式存放,即首先記錄幀1的左聲道樣本和右聲道樣本,再開始幀2的記錄..
非交錯(cuò)模式:首先記錄的是一個(gè)周期內(nèi)所有幀的左聲道樣本,再記錄所有右聲道樣本
四、音頻編解碼原理簡(jiǎn)介
1.原理簡(jiǎn)介
數(shù)字音頻信號(hào)如果不加壓縮地直接進(jìn)行傳送,將會(huì)占用極大的帶寬。
例如,一套雙聲道數(shù)字音頻若取樣頻率為44.1KHz,每樣值按
16bit量化,則其碼率為:
2*44.1kHz*16bit=1.411Mbit/s
如此大的帶寬將給信號(hào)的傳輸和處理都帶來(lái)許多困難和成本(阿里云服務(wù)器帶寬大于5M后,每M價(jià)格是100元/月),因此必須采取音頻壓縮技術(shù)對(duì)音頻數(shù)據(jù)進(jìn)行處理,才能有效地傳輸音頻數(shù)
據(jù)數(shù)字音頻壓縮編碼在保證信號(hào)在聽(tīng)覺(jué)方面不產(chǎn)生失真的前提下,對(duì)音頻數(shù)據(jù)信號(hào)進(jìn)行盡可能大的壓縮,降低數(shù)據(jù)量。數(shù)字音頻壓縮編碼采取去除聲音信號(hào)中冗余成分的方法來(lái)實(shí)現(xiàn)。所冗余成分指的是音頻中不能被人耳感知到的信號(hào),它們對(duì)確定聲音的音色,音調(diào)等信息沒(méi)有任何的幫助。
冗余信號(hào)包含人耳聽(tīng)覺(jué)范圍外的音頻信號(hào)以及被掩蔽掉的音頻信號(hào)等。例如,人耳所能察覺(jué)的聲音信號(hào)的頻率范圍為20Hz~20KHz,除此之外的其它頻率人耳無(wú)法察覺(jué),都可視為冗余信號(hào)。此外,根據(jù)人耳聽(tīng)覺(jué)的生理和心理聲學(xué)現(xiàn)象,當(dāng)一個(gè)強(qiáng)音信號(hào)與一個(gè)弱音信號(hào)同時(shí)存在時(shí),弱音信號(hào)將被強(qiáng)音信號(hào)所掩蔽而聽(tīng)不見(jiàn),這樣弱音信號(hào)就可以視為冗余信號(hào)而不用傳送。這就是人耳聽(tīng)覺(jué)的掩蔽效應(yīng),主要表現(xiàn)在頻譜掩蔽效應(yīng)和時(shí)域掩蔽效應(yīng)
2.音頻編碼-頻譜掩蔽效應(yīng)
一個(gè)頻率的聲音能量小于某個(gè)閾值之后,人耳就會(huì)聽(tīng)不到。當(dāng)有另外能量較大的聲音出現(xiàn)的時(shí)候,該聲音頻率附近的閾值會(huì)提高很多,即所謂的掩蔽效應(yīng)。

由圖中我們可以看出人耳對(duì)2KHz~5KHz的聲音最敏感,而對(duì)頻率太低或太高的聲音信號(hào)都很
遲鈍,當(dāng)有一個(gè)頻率為0.2KHz、強(qiáng)度為60dB的聲音出現(xiàn)時(shí),其附近的閾值提高了很多。由圖
中我們可以看出在0.1KHz以下、1KHz以上的部分,由于離0.2KHz強(qiáng)信號(hào)較遠(yuǎn),不受0.2KHz強(qiáng)
信號(hào)影響,閾值不受影響;而在0.1KHz~1KHz范圍,由于0.2KHz強(qiáng)音的出現(xiàn),閾值有較大的提升,
人耳在此范圍所能感覺(jué)到的最小聲音強(qiáng)度大幅提升。如果0.1KHz~1KHz范圍內(nèi)的聲音信號(hào)的
強(qiáng)度在被提升的閾值曲線之下,由于它被0.2KHz強(qiáng)音信號(hào)所掩蔽,那么此時(shí)我們?nèi)硕荒苈?tīng)到
0.2KHz的強(qiáng)音信號(hào)而根本聽(tīng)不見(jiàn)其它弱信號(hào),這些與0.2KHz強(qiáng)音信號(hào)同時(shí)存在的弱音信號(hào)就可
視為冗余信號(hào)而不必傳送。
3.音頻編碼-時(shí)域掩蔽效應(yīng)
當(dāng)強(qiáng)音信號(hào)和弱音信號(hào)同時(shí)出現(xiàn)時(shí),還存在時(shí)域掩蔽效應(yīng)。即兩者發(fā)生時(shí)間很接近的時(shí)候,也會(huì)發(fā)生掩蔽效應(yīng)。時(shí)域掩蔽過(guò)程曲線如圖所示,分為前掩蔽、同時(shí)掩蔽和后掩蔽三部分。

時(shí)域掩蔽效應(yīng)可以分成三種:前掩蔽,同時(shí)掩蔽,后掩蔽。前掩蔽是指人耳在聽(tīng)到強(qiáng)信號(hào)之前
的短暫時(shí)間內(nèi),已經(jīng)存在的弱信號(hào)會(huì)被掩蔽而聽(tīng)不到。同時(shí)掩蔽是指當(dāng)強(qiáng)信號(hào)與弱信號(hào)同時(shí)存
在時(shí),弱信號(hào)會(huì)被強(qiáng)信號(hào)所掩蔽而聽(tīng)不到。后掩蔽是指當(dāng)強(qiáng)信號(hào)消失后,需經(jīng)過(guò)較長(zhǎng)的一段時(shí)
間才能重新聽(tīng)見(jiàn)弱信號(hào),稱為后掩蔽。這些被掩蔽的弱信號(hào)即可視為冗余信號(hào)。
4.音頻編碼-壓縮編碼方法
當(dāng)前數(shù)字音頻編碼領(lǐng)域存在著不同的編碼方案和實(shí)現(xiàn)方式, 但基本的編碼思路大同小異, 如圖
所示。

對(duì)每一個(gè)音頻聲道中的音頻采樣信號(hào):
1. 將它們映射到頻域中,這種時(shí)域到頻域的映射可通過(guò)子帶濾波器實(shí)現(xiàn)。每個(gè)聲道中的音頻采
樣塊首先要根據(jù)心理聲學(xué)模型來(lái)計(jì)算掩蔽門限值;
2. 由計(jì)算出的掩蔽門限值決定從公共比特池中分配給該聲道的不同頻率域中多少比特?cái)?shù),接
著進(jìn)行量化以及編碼工作;
3. 將控制參數(shù)及輔助數(shù)據(jù)加入數(shù)據(jù)之中,產(chǎn)生編碼后的數(shù)據(jù)流。
五、音頻編碼器選型
OPUS
MP3
AAC
AC3和EAC3 杜比公司的方案