聲音的表示(3):44100Hz 采樣率是怎么來(lái)的?

vx 搜索『gjzkeyframe』 關(guān)注『關(guān)鍵幀Keyframe』來(lái)及時(shí)獲得最新的音視頻技術(shù)文章。

『聲音』是我們司空見(jiàn)慣再熟悉不過(guò)的一種物理現(xiàn)象。我們唱歌發(fā)出聲音,用耳朵聽(tīng)到聲音,用手機(jī)記錄并分享聲音;如果作為音視頻開(kāi)發(fā)人員,我們還會(huì)在工作中處理眾多聲音數(shù)據(jù)。但是,你真的了解『聲音』嗎?

在前面的文章里,我們提出了一個(gè)問(wèn)題:從我們耳朵聽(tīng)見(jiàn)的『聲音』,到我們用手機(jī)、電腦所處理的『音頻數(shù)據(jù)』,其中經(jīng)歷了什么?從這個(gè)問(wèn)題出發(fā),我們?cè)?a target="_blank">《聲音的表示(1)》和《聲音的表示(2)》兩篇文章中探討了『聲音的定義是什么』、『聲音有哪些特征』、『怎樣對(duì)聲音進(jìn)行數(shù)學(xué)描述』這幾個(gè)問(wèn)題?接下來(lái)我們繼續(xù)探討另外兩個(gè)問(wèn)題:『怎樣對(duì)聲音進(jìn)行數(shù)字化』和『數(shù)字音頻數(shù)據(jù)是什么』。

4、怎樣對(duì)聲音進(jìn)行數(shù)字化?

對(duì)聲音進(jìn)行數(shù)字化,首先要使用特定的設(shè)備對(duì)聲音進(jìn)行采集,比如麥克風(fēng)就是常見(jiàn)的聲音采集設(shè)備。麥克風(fēng)里面有一層碳膜,非常薄而且十分敏感。聲音是一種縱波,會(huì)壓縮空氣也會(huì)壓縮這層碳膜,碳膜在受到擠壓時(shí)也會(huì)發(fā)出振動(dòng),在碳膜的下方就是一個(gè)電極,碳膜在振動(dòng)的時(shí)候會(huì)接觸電極,接觸時(shí)間的長(zhǎng)短和頻率與聲波的振動(dòng)幅度和頻率有關(guān),這樣就完成了聲音信號(hào)到電信號(hào)的轉(zhuǎn)換。之后再經(jīng)過(guò)放大電路處理,就可以實(shí)施后面的采樣、量化處理了。

上面探討了聲音三要素的數(shù)學(xué)描述,這是聲音數(shù)字化的基礎(chǔ)。

聲音由波形組成,包含了不同頻率、振幅的波的疊加。為了在數(shù)字媒體內(nèi)表示這些波形,需要對(duì)波形進(jìn)行采樣,其采樣率需要滿足可以表示的聲音的最高頻率;同時(shí)還需要存儲(chǔ)足夠的位深,以表示聲音樣本中波形的適當(dāng)振幅。

聲音處理設(shè)備重建頻率的能力稱為其頻率響應(yīng),創(chuàng)造適當(dāng)響度和柔度的能力稱為其動(dòng)態(tài)范圍,這些術(shù)語(yǔ)通常統(tǒng)稱為聲音設(shè)備的保真度。最簡(jiǎn)單的編碼方式可以利用這兩個(gè)基本元素重建聲音,同時(shí)還能夠高效地存儲(chǔ)和傳輸數(shù)據(jù)。

聲音的數(shù)字化過(guò)程是將模擬信號(hào)(連續(xù)時(shí)間信號(hào))轉(zhuǎn)化為數(shù)字信號(hào)(離散時(shí)間信號(hào))的過(guò)程,包括 3 個(gè)步驟:

- 采樣:以一定采樣率在時(shí)域內(nèi)獲取離散信號(hào)。

- 量化:每個(gè)采樣點(diǎn)幅度的數(shù)字化表示。

- 編碼:以一定格式存儲(chǔ)數(shù)據(jù)。

其過(guò)程如下圖所示:

經(jīng)過(guò)數(shù)字化處理后的數(shù)字音頻包含如下三要素:

- 采樣率

- 量化位深

- 聲道數(shù)

1)采樣率

對(duì)模擬信號(hào)的采樣一般遵循奈奎斯特采樣定理:如果一個(gè)信號(hào)是帶限的(即它的傅立葉變換在某一有限頻帶范圍以外均為零),并且它的樣本取得足夠密(相對(duì)于信號(hào)中的最高頻率而言),那么這些樣本值就能唯一地用來(lái)表征這一信號(hào),并且能從這些樣本中把信號(hào)完全恢復(fù)出來(lái)。為了不失真地恢復(fù)模擬信號(hào),采樣頻率應(yīng)該不小于模擬信號(hào)頻譜中最高頻率的 2 倍。一般實(shí)際應(yīng)用中保證采樣頻率為信號(hào)最高頻率的 2.56~4 倍。

數(shù)字信號(hào)由模擬信號(hào)采樣而來(lái),如果滿足采樣定理,數(shù)字信號(hào)就可以完全恢復(fù)原始的模擬信號(hào)。

從發(fā)聲的角度來(lái)看,人類發(fā)出的聲音信號(hào)頻率絕大部分在 5k Hz 以內(nèi),因此以 10k Hz 的頻率來(lái)采樣就足夠了。

從聽(tīng)聲的角度來(lái)看,人類聽(tīng)覺(jué)范圍是 20~20k Hz 內(nèi)的音頻,那么數(shù)字音頻的采樣率需要在 40k Hz 以上。

CD 音頻使用 44100 Hz 的采樣率,部分原因也在于此,至于為什么具體是 44100 這個(gè)數(shù)字,這個(gè)是歷史原因:最早的數(shù)字錄音由一臺(tái)錄像機(jī)加上一部 PCM 編碼器制作的,由于當(dāng)時(shí)使用的是 PAL 錄像制式(帕制,與之對(duì)應(yīng)的有 NTSC),場(chǎng)頻 50 Hz,可用掃描線數(shù) 294 條,一條視頻掃描線的磁跡中記錄 3 個(gè)音頻數(shù)據(jù)塊,把它們相乘,就得到了 44100 這個(gè)奇葩數(shù)字。

生活中常見(jiàn)的采樣率:

8,000 Hz:電話所用采樣率,對(duì)于人的說(shuō)話已經(jīng)足夠;

11,025 Hz:AM 調(diào)幅廣播所用采樣率;

22,050 Hz 和 24,000 Hz:FM調(diào)頻廣播所用采樣率;

32,000 Hz:miniDV 數(shù)碼視頻 camcorder、DAT(LP mode)所用采樣率;

44,100 Hz:音頻 CD,也常用于 MPEG-1 音頻(VCD/SVCD/MP3)所用采樣率;

47,250 Hz:商用 PCM 錄音機(jī)所用采樣率;

48,000 Hz:miniDV、數(shù)字電視、DVD、DAT、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率;

50,000 Hz:商用數(shù)字錄音機(jī)所用采樣率;

96,000 或者 192,000 Hz:DVD-Audio、一些 LPCM DVD 音軌、BD-ROM(藍(lán)光盤(pán))音軌、和 HD-DVD(高清晰度 DVD)音軌所用所用采樣率;

2.8224 MHz:Direct Stream Digital 的 1 位 sigma-delta modulation 過(guò)程所用采樣率。

2)量化位深

量化位深是對(duì)模擬音頻信號(hào)的幅度軸進(jìn)行數(shù)字化,它決定了模擬信號(hào)數(shù)字化以后的動(dòng)態(tài)范圍。比如,8 bit 位深可以擁有 48 分貝的動(dòng)態(tài)范圍,16 bit 位深可以擁有 96 分貝的動(dòng)態(tài)范圍,24 bit 位深可以擁有 144 分貝的動(dòng)態(tài)范圍,32 bit 位深可以擁有 192 分貝的動(dòng)態(tài)范圍。這里位深和動(dòng)態(tài)范圍的數(shù)值對(duì)應(yīng)關(guān)系的計(jì)算公式可以從上文聲壓級(jí)的計(jì)算公式推導(dǎo)而來(lái)。位深體現(xiàn)的是能表示的值的范圍,比如 16 bit 能表示的最大值是 216?- 1 = 65535,那么取其最大值就能計(jì)算它能表示的最大聲壓級(jí):最大聲壓級(jí) = 20 × lg(65535) = 96.33。所以 16 bit 的位深可以最大表示 96 分貝。

所以這個(gè)公式是:

動(dòng)態(tài)范圍位深

人耳有大約 140 分貝的動(dòng)態(tài)聽(tīng)力范圍,類似一根針掉到地上和噴氣發(fā)動(dòng)機(jī)噪音的區(qū)別。當(dāng)聲壓級(jí)達(dá) 120 分貝時(shí),人耳將感到痛楚,無(wú)法忍受,因此,人能接受的動(dòng)態(tài)范圍為 0~120 分貝。在音樂(lè)廳中聽(tīng)樂(lè)隊(duì)演奏大型交響音樂(lè),最響的音樂(lè)片段可達(dá) 115 分貝,最弱的音樂(lè)片段約為 25 分貝,因而動(dòng)態(tài)范圍可達(dá) 90 分貝。當(dāng)然,這是很少有的情況。通常交響音樂(lè)的動(dòng)態(tài)范圍約為 50~80 分貝,中、小型音樂(lè)的動(dòng)態(tài)范圍約在 40 分貝左右,語(yǔ)言的動(dòng)態(tài)范圍約在 30 分貝左右。

CD 音樂(lè)音頻使用 16 bit 的位深,DVD 音頻使用 24 bit 的位深,而大多數(shù)電話設(shè)備使用 8 bit 的位深。

為了避免運(yùn)算中聲音信號(hào)精度的丟失,目前業(yè)界高端音頻處理系統(tǒng)里都是用 32 bit float 采樣來(lái)進(jìn)行運(yùn)算的,而輸出的時(shí)候轉(zhuǎn)化為 16 bit。

3)聲道

聲道是指聲音在錄制或播放時(shí)在不同空間位置采集或回放的相互獨(dú)立的音頻信號(hào),所以聲道數(shù)也就是聲音錄制時(shí)的音源數(shù)量或回放時(shí)相應(yīng)的揚(yáng)聲器數(shù)量。

單聲道(Mono):是以單個(gè)聲道來(lái)重現(xiàn)聲音。它只用了一個(gè)麥克風(fēng),一個(gè)揚(yáng)聲器或是耳機(jī)、并聯(lián)揚(yáng)聲器,并從同樣的信號(hào)路徑送入信號(hào),在并聯(lián)揚(yáng)聲器中,雖有多個(gè)揚(yáng)聲器,但每個(gè)揚(yáng)聲器送入的仍是同一信號(hào)。

立體聲(Stereo):是使用兩個(gè)或多個(gè)獨(dú)立的音效通道,在一對(duì)以對(duì)稱方式配置的揚(yáng)聲器上出現(xiàn)。以此方法所發(fā)出的聲音,在不同方向仍可保持自然與悅耳。

5.1 聲道:包含一個(gè)正面聲道、左前方聲道、右前方聲道、左環(huán)繞聲道、右環(huán)繞聲道,以及一個(gè)用來(lái)重放 120 Hz 以下超低頻的聲道。最早應(yīng)用于早期的電影院,如杜比 AC-3。

7.1 聲道:在 5.1 聲道的基礎(chǔ)上,把左右的環(huán)繞聲道拆分為左右環(huán)繞聲道以及左右后置聲道。主要應(yīng)用于藍(lán)光以及現(xiàn)代的電影院。

5、數(shù)字音頻數(shù)據(jù)是什么?

我們?cè)谑謾C(jī)、電腦上處理的聲音數(shù)據(jù),就是聲音經(jīng)過(guò)數(shù)字化后的數(shù)據(jù),也就是數(shù)字音頻數(shù)據(jù),其中最常見(jiàn)的格式是?PCM(Pulse Code Modulation),即脈沖編碼調(diào)制格式。得到 PCM 數(shù)據(jù)的主要過(guò)程是將話音等模擬信號(hào)每隔一定時(shí)間進(jìn)行取樣,使其離散化,同時(shí)將抽樣值按分層單位四舍五入取整量化,同時(shí)將抽樣值按一組二進(jìn)制碼來(lái)表示抽樣脈沖的幅值。也就是我們?cè)谏衔闹兄v到的采樣、量化、編碼過(guò)程。

在計(jì)算機(jī)應(yīng)用中,PCM 是能達(dá)到音頻最高保真水平的格式,它被廣泛用于素材保存及音樂(lè)欣賞,PCM 也因此被稱為無(wú)損編碼格式。但這并不意味著 PCM 就能夠確保信號(hào)絕對(duì)保真,它只能做到最大程度的無(wú)限接近原始聲音。要計(jì)算一個(gè) PCM 音頻流的碼率需要數(shù)字音頻的三要素信息即可:碼率 = 采樣率 × 量化位深 × 聲道數(shù)。

在處理 PCM 數(shù)據(jù)時(shí),對(duì)于音頻不同聲道的數(shù)據(jù),有兩種不同的存儲(chǔ)格式:

交錯(cuò)格式:不同聲道的數(shù)據(jù)交錯(cuò)排列。

平坦格式:相同聲道的數(shù)據(jù)聚集排列。

下面是一個(gè)示例:

此外,在處理 PCM 數(shù)據(jù)時(shí),還需要注意大小端字節(jié)序類型。

由于 PCM 編碼是無(wú)損編碼,且廣泛應(yīng)用,所以我們通??梢哉J(rèn)為音頻的裸數(shù)據(jù)格式就是 PCM 的。但為了節(jié)省存儲(chǔ)空間以及傳輸成本,通常我們會(huì)對(duì)音頻 PCM 數(shù)據(jù)進(jìn)行壓縮,這也就是音頻編碼,比如 MP3、AAC、OPUS 都是我們常見(jiàn)的音頻編碼格式。更多關(guān)于音頻編碼的內(nèi)容,我們將在后面專題介紹。

本文參考

1)音高:https://bideyuanli.com/p/3673

2)音符:https://zh.wikipedia.org/wiki/%E9%9F%B3%E7%AC%A6

3)如何理解聲強(qiáng)級(jí)和聲壓級(jí):https://www.zhihu.com/question/44894469

4)麥克風(fēng)是如何采集聲音的:https://zhuanlan.zhihu.com/p/342978785

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 自然界中的聲音非常復(fù)雜,波形極其復(fù)雜,通常我們采用的是脈沖代碼調(diào)制編碼。即PCM編碼。PCM通過(guò)抽樣、量化、編碼三...
    梁睿坤閱讀 3,540評(píng)論 0 0
  • 一、文章說(shuō)明 開(kāi)始寫(xiě)文章了,才知道寫(xiě)文章真心耗費(fèi)心力,希望自己盡量做到快速更新,也希望這些文章真心能幫助到開(kāi)發(fā)者們...
    風(fēng)從影閱讀 40,417評(píng)論 54 137
  • 一、聲音相關(guān)概念 聲音是由物體震動(dòng)產(chǎn)生的,我們可以把從感知的角度分為三種屬性: 響度(Loudness),即音量,...
    Ruiray95閱讀 25,695評(píng)論 8 45
  • 人類的語(yǔ)音信號(hào)處理過(guò)程依次如下: 人嘴說(shuō)話 聲電轉(zhuǎn)換 抽樣(模數(shù)轉(zhuǎn)換) 量化(將數(shù)字信號(hào)用適當(dāng)?shù)臄?shù)值表示) 編碼(...
    清醒的cola閱讀 8,958評(píng)論 3 13
  • 說(shuō)出的聲音 我們習(xí)慣了聲音,但是并不知道聲音是什么,的確是這樣的,我以前學(xué)過(guò)也忘記了。聲音其實(shí)就是聲波吧,本質(zhì)是一...
    淇濱杜隆坦閱讀 12,587評(píng)論 1 2

友情鏈接更多精彩內(nèi)容