在音頻開發(fā)過程中,總會面對很多音頻領(lǐng)域的一些專業(yè)名詞,如果不能理解這些名詞,可能會對開發(fā)領(lǐng)過程造成極大的困擾,在進(jìn)入一些新領(lǐng)域時,熟悉這個領(lǐng)域常用的概念是很有必要的,可以極大減少了溝通和理解的成本。
模擬音頻
聲音是物體的震動產(chǎn)生的波,聲波一般不是正弦波,比如這種

我們常說聲音的三要素:音調(diào),音色,響度。
音調(diào):主要指的是聲音的頻率,頻率越高,音調(diào)越高。
音色:主要指的是波形不同(諧波)
響度:主要指的是聲音的音量,在聲波中的體現(xiàn)就是振幅,振幅越大,響度越大
看到這里可能有疑惑,既然聲音是不規(guī)則的波形,為什么聲音三要素的定義似乎都參照正弦波這種規(guī)則波形定義呢?
因為傅里葉變換告訴我們,任何波形都可以轉(zhuǎn)換為N個正弦波來表示,其中頻率最小,振幅最大的正弦波為基波,其余的為諧波,音調(diào)和響度基本依照基波來定,而音色則是諧波來決定的。

音調(diào)和響度決定了發(fā)音方式,比如每個人都可以對某個字發(fā)音,但是不同的人音色不同,也就是其聲音的諧波不同,所以聽起來是不一樣的。
數(shù)字音頻
在現(xiàn)實(shí)世界中,聲音是連續(xù)的,但是在網(wǎng)絡(luò)世界,數(shù)據(jù)則是離散的,現(xiàn)實(shí)世界的聲音錄入計算機(jī)往往需要經(jīng)歷一次采樣,就是在連續(xù)的聲音波形中定期打點(diǎn)取樣,只要每秒打點(diǎn)次數(shù)足夠多,那么就可以近似認(rèn)為這些點(diǎn)組成了連續(xù)的波形。

PCM
PCM 是指脈沖編碼調(diào)制(Pulse Code Modulation)
把聲音從模擬信號轉(zhuǎn)化為數(shù)字信號的技術(shù),即對聲音進(jìn)行采樣、量化的過程,經(jīng)過PCM處理后的數(shù)據(jù),是最原始的音頻數(shù)據(jù),即未對音頻數(shù)據(jù)進(jìn)行任何的編碼和壓縮處理。
而且在數(shù)字世界,聲音不再用音調(diào),響度,音色來定義,而是需要關(guān)注采樣率,采樣精度(位深度),聲道數(shù)。
采樣率(sample rate)
采樣率就是我們說的一定周期內(nèi)對現(xiàn)實(shí)聲波采樣的次數(shù),比如我們常見的44100hz,就是每秒鐘對聲音采樣44100次,相當(dāng)于每秒鐘記錄了44100個聲音的數(shù)據(jù)。
聲音的采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級:
-
22.05kHz采樣率的聲音可以達(dá)到CD音質(zhì)的一半 -
44.1kHz采樣率是標(biāo)準(zhǔn)的CD音質(zhì),可以達(dá)到很好的聽覺效果(一般最常使用) -
48KHz:miniDV、數(shù)字電視、DVD、電影和專業(yè)音頻
采樣精度(位深度/bit depth)
每個采樣點(diǎn)所能表示的數(shù)據(jù)范圍,范圍越大表明聲音越豐富,越細(xì)膩。波形的縱軸就表示采樣點(diǎn)的大小。

通常有8bit和16bit兩種,也有更高的,比如20bit,24bit,32bit.
8bit為低品質(zhì)
16bit為高品質(zhì)(最為常見)
假如聲音的采樣精度為16bits,則每個采樣點(diǎn)能表示得范圍是216,如果是8bits,則每個采樣點(diǎn)能表達(dá)的范圍是28,顯然,前者比后者更加精確,在數(shù)字音頻領(lǐng)域,就表現(xiàn)為聲音的還原度更高,聲音更細(xì)膩。
聲道數(shù)(channel/通道)
聲道是存儲音頻的軌道,用來給發(fā)聲設(shè)備發(fā)聲,一般音頻文件中可能不止一個聲道,多個聲道保存了多份音頻數(shù)據(jù),用來給不同的設(shè)備發(fā)聲。
常見聲道有單聲道(mono)、雙聲道(stereo)、2.1聲道、4聲道、5.1聲道、7.1聲道。
其中單聲道是一個聲道,雙聲道是兩個聲道,后面數(shù)字表示的聲道,聲道數(shù)就是是小數(shù)點(diǎn)前后數(shù)字相加,比如2.1是三個聲道,5.1是6個聲道,7.1是8個聲道。
- 雙聲道: 左聲道+右聲道 也稱作立體聲
- 多聲道: 超過2個聲道即可
- 2.1聲道: 兩個中高音單元+1個低音單元
- 4聲道: 前左、前右,后左、后右四個發(fā)聲單元

- 5.1聲道:兩前置單元,兩后置單元,一個中央單元,一個低音單元,最早應(yīng)用于早期的電影院
- 7.1聲道:在5.1的基礎(chǔ)上增加了左后和右后兩個發(fā)聲單元,主要應(yīng)用于BD以及現(xiàn)代的電影院
比特率(碼率/bit rate)
表示一秒鐘音頻的信息量。
因此它是一個可以計算的數(shù)據(jù):
bit_rate = channel_count * sample_rate * bit_depth / 8
我們可以利用音頻的比特率來計算當(dāng)前音頻幀的顯示時間戳(PTS)
數(shù)字音頻壓縮
我們提到采樣到數(shù)字領(lǐng)域的音頻數(shù)據(jù)是無壓縮的原始數(shù)據(jù),因此后續(xù)會經(jīng)過一些編碼算法處理來進(jìn)行壓縮。
壓縮算法主要可以分為無損壓縮和有損壓縮
無損壓縮
無損壓縮指的是在無損格式之間的壓縮,無論壓縮成什么格式,音質(zhì)都是不變的,并且都能被還原成最初同樣的文件格式。
FLAC(Free Lossless Audio Codec)
壓縮比高,編碼算法也相當(dāng)成熟,當(dāng)flac文件受損時依然能正常播放。
參數(shù)
- 采樣率 1–655350 Hz (逐1hz微調(diào))
- 比特率 靈活
- 位深度 8, 16, 20, 24, 32
- 多通道 1-8
ALAC
無損壓縮,采樣率靈活,采樣深度范圍較大
參數(shù)
- 壓縮率
- 采樣率 1–384000 Hz
- 比特率 靈活
- 位深度 16, 20, 24, 32
- 多通道 1-8
APE(Monkey's Audio)
無損壓縮,采樣率靈活。
不支持多通道,采樣深度不夠
參數(shù)
- 采樣率 1–655350 Hz
- 比特率 靈活
- 位深度 8, 16, 24
- 多通道 否
有損壓縮
MP3 (MPEG Audio Layer III)
比特率的限制320kbit/s
采樣頻率最高為48kHz,對于超過48kHz采樣頻率的音頻無法編碼在MP3內(nèi)
參數(shù)
- 采樣率 32khz 44.1 khz 48 kHz (僅允許三種)
- 比特率 6、12、24...96, 112, 128, 144, 160, 192, 224, 256, 288, 320 kbit/s等 (128以上音質(zhì)不錯,CD上未經(jīng)壓縮的音頻比特率為1411.2 kbps)
- 采樣精度 8, 16,
- 聲道數(shù)
AAC (Advanced Audio Coding)
mp3的升級版,有更好的采樣率,采樣深度,更多聲道數(shù),更好的壓縮算法。
參數(shù)
- 采樣率 8–192 kHz
- 比特率 8–529 kbit/s
- 采樣精度 8, 16, 24, 32 bit
- 多通道 1-48
資料
https://blog.csdn.net/hello_1995/article/details/109862663
https://zh.wikipedia.org/zh-cn/%E6%95%B8%E4%BD%8D%E9%9F%B3%E8%A8%8A