移動開發(fā)中關(guān)于音頻的基本概念

在音頻開發(fā)過程中,總會面對很多音頻領(lǐng)域的一些專業(yè)名詞,如果不能理解這些名詞,可能會對開發(fā)領(lǐng)過程造成極大的困擾,在進(jìn)入一些新領(lǐng)域時,熟悉這個領(lǐng)域常用的概念是很有必要的,可以極大減少了溝通和理解的成本。

模擬音頻

聲音是物體的震動產(chǎn)生的波,聲波一般不是正弦波,比如這種

image.png

我們常說聲音的三要素:音調(diào),音色,響度。

音調(diào):主要指的是聲音的頻率,頻率越高,音調(diào)越高。
音色:主要指的是波形不同(諧波)
響度:主要指的是聲音的音量,在聲波中的體現(xiàn)就是振幅,振幅越大,響度越大

看到這里可能有疑惑,既然聲音是不規(guī)則的波形,為什么聲音三要素的定義似乎都參照正弦波這種規(guī)則波形定義呢?

因為傅里葉變換告訴我們,任何波形都可以轉(zhuǎn)換為N個正弦波來表示,其中頻率最小,振幅最大的正弦波為基波,其余的為諧波,音調(diào)和響度基本依照基波來定,而音色則是諧波來決定的。

image.png

音調(diào)和響度決定了發(fā)音方式,比如每個人都可以對某個字發(fā)音,但是不同的人音色不同,也就是其聲音的諧波不同,所以聽起來是不一樣的。

數(shù)字音頻

在現(xiàn)實(shí)世界中,聲音是連續(xù)的,但是在網(wǎng)絡(luò)世界,數(shù)據(jù)則是離散的,現(xiàn)實(shí)世界的聲音錄入計算機(jī)往往需要經(jīng)歷一次采樣,就是在連續(xù)的聲音波形中定期打點(diǎn)取樣,只要每秒打點(diǎn)次數(shù)足夠多,那么就可以近似認(rèn)為這些點(diǎn)組成了連續(xù)的波形。

image.png

PCM

PCM 是指脈沖編碼調(diào)制(Pulse Code Modulation)

把聲音從模擬信號轉(zhuǎn)化為數(shù)字信號的技術(shù),即對聲音進(jìn)行采樣、量化的過程,經(jīng)過PCM處理后的數(shù)據(jù),是最原始的音頻數(shù)據(jù),即未對音頻數(shù)據(jù)進(jìn)行任何的編碼和壓縮處理。

而且在數(shù)字世界,聲音不再用音調(diào),響度,音色來定義,而是需要關(guān)注采樣率,采樣精度(位深度),聲道數(shù)。

采樣率(sample rate)

采樣率就是我們說的一定周期內(nèi)對現(xiàn)實(shí)聲波采樣的次數(shù),比如我們常見的44100hz,就是每秒鐘對聲音采樣44100次,相當(dāng)于每秒鐘記錄了44100個聲音的數(shù)據(jù)。

聲音的采樣頻率一般共分為22.05KHz、44.1KHz48KHz三個等級:

  • 22.05kHz 采樣率的聲音可以達(dá)到CD音質(zhì)的一半
  • 44.1kHz采樣率是標(biāo)準(zhǔn)的CD音質(zhì),可以達(dá)到很好的聽覺效果(一般最常使用)
  • 48KHz:miniDV、數(shù)字電視、DVD、電影和專業(yè)音頻

采樣精度(位深度/bit depth)

每個采樣點(diǎn)所能表示的數(shù)據(jù)范圍,范圍越大表明聲音越豐富,越細(xì)膩。波形的縱軸就表示采樣點(diǎn)的大小。

image.png

通常有8bit和16bit兩種,也有更高的,比如20bit,24bit,32bit.

8bit為低品質(zhì)

16bit為高品質(zhì)(最為常見)

假如聲音的采樣精度為16bits,則每個采樣點(diǎn)能表示得范圍是216,如果是8bits,則每個采樣點(diǎn)能表達(dá)的范圍是28,顯然,前者比后者更加精確,在數(shù)字音頻領(lǐng)域,就表現(xiàn)為聲音的還原度更高,聲音更細(xì)膩。

聲道數(shù)(channel/通道)

聲道是存儲音頻的軌道,用來給發(fā)聲設(shè)備發(fā)聲,一般音頻文件中可能不止一個聲道,多個聲道保存了多份音頻數(shù)據(jù),用來給不同的設(shè)備發(fā)聲。

常見聲道有單聲道(mono)、雙聲道(stereo)、2.1聲道、4聲道、5.1聲道、7.1聲道。

其中單聲道是一個聲道,雙聲道是兩個聲道,后面數(shù)字表示的聲道,聲道數(shù)就是是小數(shù)點(diǎn)前后數(shù)字相加,比如2.1是三個聲道,5.1是6個聲道,7.1是8個聲道。

  • 雙聲道: 左聲道+右聲道 也稱作立體聲
  • 多聲道: 超過2個聲道即可
  • 2.1聲道: 兩個中高音單元+1個低音單元
  • 4聲道: 前左、前右,后左、后右四個發(fā)聲單元
image.png
  • 5.1聲道:兩前置單元,兩后置單元,一個中央單元,一個低音單元,最早應(yīng)用于早期的電影院
  • 7.1聲道:在5.1的基礎(chǔ)上增加了左后和右后兩個發(fā)聲單元,主要應(yīng)用于BD以及現(xiàn)代的電影院

比特率(碼率/bit rate)

表示一秒鐘音頻的信息量。

因此它是一個可以計算的數(shù)據(jù):

bit_rate = channel_count * sample_rate * bit_depth / 8

我們可以利用音頻的比特率來計算當(dāng)前音頻幀的顯示時間戳(PTS)

數(shù)字音頻壓縮

我們提到采樣到數(shù)字領(lǐng)域的音頻數(shù)據(jù)是無壓縮的原始數(shù)據(jù),因此后續(xù)會經(jīng)過一些編碼算法處理來進(jìn)行壓縮。

壓縮算法主要可以分為無損壓縮有損壓縮

無損壓縮

無損壓縮指的是在無損格式之間的壓縮,無論壓縮成什么格式,音質(zhì)都是不變的,并且都能被還原成最初同樣的文件格式。

FLAC(Free Lossless Audio Codec)

壓縮比高,編碼算法也相當(dāng)成熟,當(dāng)flac文件受損時依然能正常播放。

參數(shù)

  • 采樣率 1–655350 Hz (逐1hz微調(diào))
  • 比特率 靈活
  • 位深度 8, 16, 20, 24, 32
  • 多通道 1-8

ALAC

無損壓縮,采樣率靈活,采樣深度范圍較大

參數(shù)

  • 壓縮率
  • 采樣率 1–384000 Hz
  • 比特率 靈活
  • 位深度 16, 20, 24, 32
  • 多通道 1-8

APE(Monkey's Audio)

無損壓縮,采樣率靈活。

不支持多通道,采樣深度不夠

參數(shù)

  • 采樣率 1–655350 Hz
  • 比特率 靈活
  • 位深度 8, 16, 24
  • 多通道 否

有損壓縮

MP3 (MPEG Audio Layer III)

比特率的限制320kbit/s

采樣頻率最高為48kHz,對于超過48kHz采樣頻率的音頻無法編碼在MP3內(nèi)

參數(shù)

  • 采樣率 32khz 44.1 khz 48 kHz (僅允許三種)
  • 比特率 6、12、24...96, 112, 128, 144, 160, 192, 224, 256, 288, 320 kbit/s等 (128以上音質(zhì)不錯,CD上未經(jīng)壓縮的音頻比特率為1411.2 kbps)
  • 采樣精度 8, 16,
  • 聲道數(shù)

AAC (Advanced Audio Coding)

mp3的升級版,有更好的采樣率,采樣深度,更多聲道數(shù),更好的壓縮算法。

參數(shù)

  • 采樣率 8–192 kHz
  • 比特率 8–529 kbit/s
  • 采樣精度 8, 16, 24, 32 bit
  • 多通道 1-48

資料

https://blog.csdn.net/hello_1995/article/details/109862663

https://zh.wikipedia.org/zh-cn/%E6%95%B8%E4%BD%8D%E9%9F%B3%E8%A8%8A

https://zh.wikipedia.org/zh-cn/%E9%9F%B3%E9%A2%91%E7%BC%96%E7%A0%81%E6%A0%BC%E5%BC%8F%E7%9A%84%E6%AF%94%E8%BE%83

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容