Daily AVFoundation - 音頻基礎(chǔ)

一.音頻基礎(chǔ)學(xué)習(xí)

1.1 聲音是怎么產(chǎn)生的?

認(rèn)識(shí)聲音

振動(dòng)的物體能使鄰近的空氣分子振動(dòng),這些分子又引起它們鄰近的空氣分子振動(dòng),從而產(chǎn)生聲音(Sound),聲音以聲波的形式傳遞,這種傳遞過(guò)程叫聲輻射(Sound Radiation)。聲波僅存在于聲源周?chē)拿劫|(zhì)中,沒(méi)有空氣的空間里不可能有聲波。聲音不僅可在空氣內(nèi)傳遞,也可在水、土、金屬等物體內(nèi)傳遞。聲音在空氣中的傳播速度為340m/s(15℃時(shí))。

聲音三要素
  • 響度
    • 響度,又稱(chēng)聲強(qiáng)或音量,它表示的是聲音能量的強(qiáng)弱程度,主要取決于聲波振幅的大小。
    • 響度度是聽(tīng)覺(jué)的基礎(chǔ)
    • 聽(tīng)力可及的音域,是從20HZ—20000HZ之間;而能承受的音壓的范圍是從0dB(分貝)到120dB(分貝)之內(nèi).
聲音 聲音的強(qiáng)弱(dB) 聽(tīng)覺(jué)效果(感覺(jué))
樹(shù)葉微動(dòng) 10 寂靜
輕聲交談 20~30 安靜
正常說(shuō)話 40~50 正常
大聲呼喊 70~80 較吵
汽車(chē)?yán)?/td> 90 很響
載重汽車(chē) 100~110 震耳
飛機(jī)發(fā)動(dòng)機(jī) 120~130 疼痛難忍
  • 音調(diào)
    • 音高也稱(chēng)音調(diào),表示人耳對(duì)聲音調(diào)子高低的主觀感受。
    • 客觀上音高大小主要取決于聲波基頻的高低,頻率高則音調(diào)高,反之則低,單位用赫茲(Hz)表示
    • 根據(jù)人耳對(duì)音高的實(shí)際感受,人的語(yǔ)音頻率范圍可放寬到80Hz-12kHz,樂(lè)音較寬,效果音則更寬。
  • 音色
    • 音色又稱(chēng)音品。聲音波形的基頻所產(chǎn)生的聽(tīng)得最清楚的音稱(chēng)為基音,各次諧波的微小振動(dòng)所產(chǎn)生的聲音稱(chēng)泛音。單一頻率的音稱(chēng)為純音,具有諧波的音稱(chēng)為復(fù)音。
    • 高保真(Hi—Fi)音響的目標(biāo)就是要盡可能準(zhǔn)確地傳輸、還原重建原始聲場(chǎng)的一切特征,使人們其實(shí)地感受到諸如聲源定位感、空間包圍感、層次厚度感等各種臨場(chǎng)聽(tīng)感的立體環(huán)繞聲效果。

二.數(shù)字音頻

數(shù)字音頻是一種利用數(shù)字化手段對(duì)聲音進(jìn)行錄制、存放、編輯、壓縮或播放的技術(shù),它是隨著數(shù)字信號(hào)處理技術(shù)、計(jì)算機(jī)技術(shù)、多媒體技術(shù)的發(fā)展而形成的一種全新的聲音處理手段。數(shù)字音頻的主要應(yīng)用領(lǐng)域是音樂(lè)后期制作和錄音。
計(jì)算機(jī)數(shù)據(jù)的存儲(chǔ)是以0、1的形式存取的,那么數(shù)字音頻就是首先將音頻文件轉(zhuǎn)化,接著再將這些電平信號(hào)轉(zhuǎn)化成二進(jìn)制數(shù)據(jù)保存,播放的時(shí)候就把這些數(shù)據(jù)轉(zhuǎn)換為模擬的電平信號(hào)再送到喇叭播出,數(shù)字聲音和一般磁帶、廣播、電視中的聲音就存儲(chǔ)播放方式而言有著本質(zhì)區(qū)別。相比而言,它具有存儲(chǔ)方便、存儲(chǔ)成本低廉、存儲(chǔ)和傳輸?shù)倪^(guò)程中沒(méi)有聲音的失真、編輯和處理非常方便等特點(diǎn)。

模擬音頻信號(hào)數(shù)字化過(guò)程

模擬音頻信號(hào)轉(zhuǎn)化為數(shù)字音頻信號(hào):模擬音頻信號(hào)是一個(gè)在時(shí)間上和幅度上都連續(xù)的信號(hào),它的數(shù)字化過(guò)程如下所述。

  1. 采樣:
    在時(shí)間軸上對(duì)信號(hào)數(shù)字化。也就是,按照固定的時(shí)間間隔抽取模擬信號(hào)的值,這樣,采樣后就可以使一個(gè)時(shí)間連續(xù)的信息波變?yōu)樵跁r(shí)間上取值數(shù)目有限的離散信號(hào)。

  2. 量化:
    在幅度軸上對(duì)信號(hào)數(shù)字化。也就是,用有限個(gè)幅度值近似還原原來(lái)連續(xù)變化的幅度值,把模擬信號(hào)的連續(xù)幅度變?yōu)橛邢迶?shù)量的有一定間隔的離散值。

  3. 編碼:
    用二進(jìn)制數(shù)表示每個(gè)采樣的量化值(十進(jìn)制數(shù))。
    音頻編碼的格式有很多種,而通常所說(shuō)的音頻裸數(shù)據(jù)指的是脈沖編碼調(diào)制(PCM)數(shù)據(jù).
    如果想要描述一份PCM數(shù)據(jù),需要從如下幾個(gè)方向出發(fā):

    • 量化格式(sampleFormat)
    • 采樣率(sampleRate)
    • 聲道數(shù)(channel)

如果sampleFormat越精確或者sampleRate越密集,那么所占的存儲(chǔ)空間就會(huì)越大,同時(shí)能夠描述的聲音細(xì)節(jié)就會(huì)更加精確.

典型音頻編碼技術(shù)比較

編碼技術(shù) 算法 編碼標(biāo)準(zhǔn) 碼率(kbit/s) 質(zhì)量 應(yīng)用領(lǐng)域
PCM G.711 64 4.3 PSTN、ISDN
波形編碼 ADPCM G.721 32 4.1 -
SB-ADPCM G.722 64/56/48 4.5 -
參數(shù)編碼 LPC - 2.4 2.5 保密語(yǔ)音
CELPC - 4.8 3.2 -
VSELPC DIA 8 3.8 移動(dòng)通信、語(yǔ)音信箱
混合編碼 RPE-LTP GSM 13.2 3.8 -
LD-CELP G.728 16 4.1 ISDN
MPE MPE 168 5.0 CD

說(shuō)明:質(zhì)量評(píng)價(jià)共五個(gè)等級(jí)(1、2、3、4、5),其中5.0為最高分。
上表中各種算法、應(yīng)用領(lǐng)域中縮略語(yǔ)的中文和英文全稱(chēng)參見(jiàn)下面說(shuō)明。

  • PCM:Pulse Code Modulation,脈沖編碼調(diào)制。
  • ADPCM:Adaptive Differential Pulse Code Modulation,自適應(yīng)差分脈沖編碼調(diào)制。
  • SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation,子帶-自適應(yīng)差分脈沖編碼調(diào)制。
  • LPC:Linear Predictive Coding,線性預(yù)測(cè)編碼。
  • CELPC:Code Excited Linear Predictive Coding,碼激勵(lì)線性預(yù)測(cè)編碼。
  • VSELPC:Vector Sum Excited Linear Predictive Coding,矢量和激勵(lì)線性預(yù)測(cè)編碼。
  • RPE-LTP:Regular Pulse Excited-Long Term Predictive,規(guī)則脈沖激勵(lì)長(zhǎng)時(shí)預(yù)測(cè)。
  • LD-CELP:Low Delay-Code Excited Linear Predictive,低時(shí)延碼激勵(lì)線性預(yù)測(cè)。
  • MPE:Multi-Pulse Excited,多脈沖激勵(lì)。
  • PSTN:Public Switched Telephone Network,公共交換電話網(wǎng)。
  • ISDN:Integrated Services Digital Network,綜合業(yè)務(wù)數(shù)字網(wǎng)。

音頻采樣率

音頻采樣率是指錄音設(shè)備在單位時(shí)間內(nèi)對(duì)模擬信號(hào)采樣的多少,采樣頻率越高,機(jī)械波的波形就越真實(shí)越自然。在當(dāng)今的主流采集卡上,采樣頻率一般共分為11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五個(gè)等級(jí),11025Hz能達(dá)到AM調(diào)幅廣播的聲音品質(zhì),而22050Hz和24000HZ能達(dá)到FM調(diào)頻廣播的聲音品質(zhì),44100Hz則是理論上的CD音質(zhì)界限,48000Hz則更加精確一些。

常用的采樣率

  • 8,000 Hz - 電話所用采樣率, 對(duì)于人的說(shuō)話已經(jīng)足夠
  • 11,025 Hz-AM調(diào)幅廣播所用采樣率
  • 22,050 Hz和24,000 Hz- FM調(diào)頻廣播所用采樣率
  • 32,000 Hz - miniDV 數(shù)碼視頻 camcorder、DAT (LP mode)所用采樣率
  • 44,100 Hz - 音頻 CD, 也常用于 MPEG-1 音頻(VCD, SVCD, MP3)所用采樣率
  • 47,250 Hz - 商用 PCM 錄音機(jī)所用采樣率
  • 48,000 Hz - miniDV、數(shù)字電視、DVD、DAT、電影和專(zhuān)業(yè)音頻所用的數(shù)字聲音所用采樣率
  • 50,000 Hz - 商用數(shù)字錄音機(jī)所用采樣率
  • 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音軌、BD-ROM(藍(lán)光盤(pán))音軌、和 HD-DVD (高清晰度 DVD)音軌所用所用采樣率
  • 2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 過(guò)程所用采樣率
    image

音頻采樣率實(shí)例

聲波其實(shí)是一種機(jī)械波,因此也有波長(zhǎng)和振幅的特征,波長(zhǎng)對(duì)應(yīng)于時(shí)間軸線,振幅對(duì)應(yīng)于采樣值軸線。波是無(wú)限光滑的,弦線可以看成由無(wú)數(shù)點(diǎn)組成,由于存儲(chǔ)空間是相對(duì)有限的,數(shù)字編碼過(guò)程中,必須對(duì)弦線的點(diǎn)進(jìn)行采樣。采樣的過(guò)程就是抽取某點(diǎn)的采樣值,很顯然,在單位時(shí)間中內(nèi)抽取的點(diǎn)越多,獲取得波長(zhǎng)信息更豐富,為了復(fù)原波形,一個(gè)周期中,必須有至少2個(gè)點(diǎn)的采樣,人耳能夠感覺(jué)到的最低波長(zhǎng)為1.7cm,即20000Hz,因此要滿(mǎn)足人耳的聽(tīng)覺(jué)要求,則1s采樣至少40000次,用40000Hz(40kHz)表達(dá),這個(gè)40kHz就是采樣率。我們常見(jiàn)的CD,采樣率為44.1kHz。

采集過(guò)程中視頻和音頻同步是非常重要的,光有波長(zhǎng)信息是不夠的,我們還必須獲得該波長(zhǎng)的能量值并量化,用于表示信號(hào)強(qiáng)度。量化電平數(shù)為2的整數(shù)次冪,我們常見(jiàn)的CD位16級(jí)的采樣大小,即2的4次方。采樣大小相對(duì)采樣率更難理解,因?yàn)橐@得抽象點(diǎn),舉個(gè)簡(jiǎn)單例子:假設(shè)對(duì)一個(gè)波進(jìn)行8次采樣,采樣點(diǎn)分別對(duì)應(yīng)的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結(jié)果我們只能保留A1-A8中4個(gè)點(diǎn)的值而舍棄另外4個(gè)。如果我們進(jìn)行3bit的采樣大小,則剛好記錄下8個(gè)點(diǎn)的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號(hào)。

三.音頻編碼

從信息論的觀點(diǎn)來(lái)看,描述信源的數(shù)據(jù)是信息和數(shù)據(jù)冗余之和,即: 數(shù)據(jù)=信息+數(shù)據(jù)冗余 。音頻信號(hào)在時(shí)域和頻域上具有相關(guān)性,也即存在數(shù)據(jù)冗余。將音頻作為一個(gè)信源,音頻編碼的實(shí)質(zhì)是減少音頻中的冗余

3.1采樣率和采樣大小

聲音其實(shí)是一種能量波,因此也有頻率和振幅的特征,頻率對(duì)應(yīng)于時(shí)間軸線,振幅對(duì)應(yīng)于電平軸線。波是無(wú)限光滑的,弦線可以看成由無(wú)數(shù)點(diǎn)組成,由于存儲(chǔ)空間是相對(duì)有限的,數(shù)字編碼過(guò)程中,必須對(duì)弦線的點(diǎn)進(jìn)行采樣。采樣的過(guò)程就是抽取某點(diǎn)的頻率值,很顯然,在一秒中內(nèi)抽取的點(diǎn)越多,獲取得頻率信息更豐富,為了復(fù)原波形,一次振動(dòng)中,必須有2個(gè)點(diǎn)的采樣,人耳能夠感覺(jué)到的最高頻率為20kHz,因此要滿(mǎn)足人耳的聽(tīng)覺(jué)要求,則需要至少每秒進(jìn)行40k次采樣,用40kHz表達(dá),這個(gè)40kHz就是采樣率。我們常見(jiàn)的CD,采樣率為44.1kHz。光有頻率信息是不夠的,我們還必須獲得該頻率的能量值并量化,用于表示信號(hào)強(qiáng)度。量化電平數(shù)為2的整數(shù)次冪,我們常見(jiàn)的CD位16bit的采樣大小,即2的16次方。采樣大小相對(duì)采樣率更難理解,因?yàn)橐@得抽象點(diǎn),舉個(gè)簡(jiǎn)單例子:假設(shè)對(duì)一個(gè)波進(jìn)行8次采樣,采樣點(diǎn)分別對(duì)應(yīng)的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結(jié)果我們只能保留A1-A8中4個(gè)點(diǎn)的值而舍棄另外4個(gè)。如果我們進(jìn)行3bit的采樣大小,則剛好記錄下8個(gè)點(diǎn)的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號(hào)。

3.2 有損和無(wú)損

根據(jù)采樣率和采樣大小可以得知,相對(duì)自然界的信號(hào),音頻編碼最多只能做到無(wú)限接近,至少目前的技術(shù)只能這樣了,相對(duì)自然界的信號(hào),任何數(shù)字音頻編碼方案都是有損的,因?yàn)闊o(wú)法完全還原。在計(jì)算機(jī)應(yīng)用中,能夠達(dá)到最高保真水平的就是PCM編碼,被廣泛用于素材保存及音樂(lè)欣賞,CD、DVD以及我們常見(jiàn)的WAV文件中均有應(yīng)用。因此,PCM約定俗成了無(wú)損編碼,因?yàn)镻CM代表了數(shù)字音頻中最佳的保真水準(zhǔn),并不意味著PCM就能夠確保信號(hào)絕對(duì)保真,PCM也只能做到最大程度的無(wú)限接近。我們而習(xí)慣性的把MP3列入有損音頻編碼范疇,是相對(duì)PCM編碼的。強(qiáng)調(diào)編碼的相對(duì)性的有損和無(wú)損,是為了告訴大家,要做到真正的無(wú)損是困難的,就像用數(shù)字去表達(dá)圓周率,不管精度多高,也只是無(wú)限接近,而不是真正等于圓周率的值。

3.3 使用音頻壓縮技術(shù)的原因

要算一個(gè)PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數(shù) bps。一個(gè)采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K×16×2 =1411.2 Kbps。我們常說(shuō)128K的MP3,對(duì)應(yīng)的WAV的參數(shù),就是這個(gè)1411.2 Kbps,這個(gè)參數(shù)也被稱(chēng)為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個(gè)概念。將碼率除以8,就可以得到這個(gè)WAV的數(shù)據(jù)速率,即176.4KB/s。這表示存儲(chǔ)一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的音頻信號(hào),需要176.4KB的空間,1分鐘則約為10.34M,這對(duì)大部分用戶(hù)是不可接受的,尤其是喜歡在電腦上聽(tīng)音樂(lè)的朋友,要降低磁盤(pán)占用,只有2種方法,降低采樣指標(biāo)或者壓縮。降低指標(biāo)是不可取的,因此專(zhuān)家們研發(fā)了各種壓縮方案。由于用途和針對(duì)的目標(biāo)市場(chǎng)不一樣,各種音頻壓縮編碼所達(dá)到的音質(zhì)和壓縮比都不一樣,在后面的文章中我們都會(huì)一一提到。有一點(diǎn)是可以肯定的,他們都?jí)嚎s過(guò)

3.4 頻率與采樣率的關(guān)系

采樣率表示了每秒對(duì)原始信號(hào)采樣的次數(shù),我們常見(jiàn)到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設(shè)我們有2段正弦波信號(hào),分別為20Hz和20KHz,長(zhǎng)度均為一秒鐘,以對(duì)應(yīng)我們能聽(tīng)到的最低頻和最高頻,分別對(duì)這兩段信號(hào)進(jìn)行40KHz的采樣,我們可以得到一個(gè)什么樣的結(jié)果呢?結(jié)果是:20Hz的信號(hào)每次振動(dòng)被采樣了40K/20=2000次,而20K的信號(hào)每次振動(dòng)只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠(yuǎn)比高頻的詳細(xì)。這也是為什么有些音響發(fā)燒友指責(zé)CD有數(shù)碼聲不夠真實(shí)的原因,CD的44.1KHz采樣也無(wú)法保證高頻信號(hào)被較好記錄。要較好的記錄高頻信號(hào),看來(lái)需要更高的采樣率,于是有些朋友在捕捉CD音軌的時(shí)候使用48KHz的采樣率,這是不可取的!這其實(shí)對(duì)音質(zhì)沒(méi)有任何好處,對(duì)抓軌軟件來(lái)說(shuō),保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一,而不是去提高它。較高的采樣率只有相對(duì)模擬信號(hào)的時(shí)候才有用,如果被采樣的信號(hào)是數(shù)字的,請(qǐng)不要去嘗試提高采樣率。

3.5 流特征

隨著網(wǎng)絡(luò)的發(fā)展,人們對(duì)在線收聽(tīng)音樂(lè)提出了要求,因此也要求音頻文件能夠一邊讀一邊播放,而不需要把這個(gè)文件全部讀出后然后回放,這樣就可以做到不用下載就可以實(shí)現(xiàn)收聽(tīng)了;也可以做到一邊編碼一邊播放,正是這種特征,可以實(shí)現(xiàn)在線的直播,架設(shè)自己的數(shù)字廣播電臺(tái)成為了現(xiàn)實(shí)。

四.編碼分類(lèi)

根據(jù)編碼方式的不同,音頻編碼技術(shù)分為三種:波形編碼、參數(shù)編碼和混合編碼。一般來(lái)說(shuō),波形編碼的話音質(zhì)量高,但編碼率也很高;參數(shù)編碼的編碼率很低,產(chǎn)生的合成語(yǔ)音的音質(zhì)不高;混合編碼使用參數(shù)編碼技術(shù)和波形編碼技術(shù),編碼率和音質(zhì)介于它們之間。

  • 波形編碼
    波形編碼是指不利用生成音頻信號(hào)的任何參數(shù),直接將時(shí)間域信號(hào)變換為數(shù)字代碼,使重構(gòu)的語(yǔ)音波形盡可能地與原始語(yǔ)音信號(hào)的波形形狀保持一致。波形編碼的基本原理是在時(shí)間軸上對(duì)模擬語(yǔ)音信號(hào)按一定的速率抽樣,然后將幅度樣本分層量化,并用代碼表示。
    波形編碼方法簡(jiǎn)單、易于實(shí)現(xiàn)、適應(yīng)能力強(qiáng)并且語(yǔ)音質(zhì)量好。不過(guò)因?yàn)閴嚎s方法簡(jiǎn)單也帶來(lái)了一些問(wèn)題:壓縮比相對(duì)較低,導(dǎo)致較高的編碼率。一般來(lái)說(shuō),波形編碼的復(fù)雜程度比較低,編碼率較高。通常編碼率在16 kbit/s以上的音頻質(zhì)量相當(dāng)高,當(dāng)編碼率低于16 kbit/s時(shí),音質(zhì)會(huì)急劇下降。
    最簡(jiǎn)單的波形編碼方法是PCM(Pulse Code Modulation,脈沖編碼調(diào)制),它只對(duì)語(yǔ)音信號(hào)進(jìn)行采樣和量化處理。優(yōu)點(diǎn)是編碼方法簡(jiǎn)單,延遲時(shí)間短,音質(zhì)高,重構(gòu)的語(yǔ)音信號(hào)與原始語(yǔ)音信號(hào)幾乎沒(méi)有差別。不足之處是編碼率比較高(64 kbit/s),對(duì)傳輸通道的錯(cuò)誤比較敏感
  • 參數(shù)編碼
    參數(shù)編碼是從語(yǔ)音波形信號(hào)中提取生成語(yǔ)音的參數(shù),使用這些參數(shù)通過(guò)語(yǔ)音生成模型重構(gòu)出語(yǔ)音,使重構(gòu)的語(yǔ)音信號(hào)盡可能地保持原始語(yǔ)音信號(hào)的語(yǔ)意。也就是說(shuō),參數(shù)編碼是把語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型作為基礎(chǔ),然后求出數(shù)字模型的模型參數(shù),再按照這些參數(shù)還原數(shù)字模型,進(jìn)而合成語(yǔ)音。
    參數(shù)編碼的編碼率較低,可以達(dá)到2.4 kbit/s,產(chǎn)生的語(yǔ)音信號(hào)是通過(guò)建立的數(shù)字模型還原出來(lái)的,因此重構(gòu)的語(yǔ)音信號(hào)波形與原始語(yǔ)音信號(hào)的波形可能會(huì)存在較大的區(qū)別、失真會(huì)比較大。而且因?yàn)槭艿秸Z(yǔ)音生成模型的限制,增加數(shù)據(jù)速率也無(wú)法提高合成語(yǔ)音的質(zhì)量。不過(guò),雖然參數(shù)編碼的音質(zhì)比較低,但是保密性很好,一直被應(yīng)用在軍事上。典型的參數(shù)編碼方法為L(zhǎng)PC(Linear Predictive Coding,線性預(yù)測(cè)編碼)。
  • 混合編碼
    混合編碼是指同時(shí)使用兩種或兩種以上的編碼方法進(jìn)行編碼。這種編碼方法克服了波形編碼和參數(shù)編碼的弱點(diǎn),并結(jié)合了波形編碼高質(zhì)量和參數(shù)編碼的低編碼率,能夠取得比較好的效果。

五.編碼格式以及特點(diǎn)

5.1 PCM編碼

PCM 脈沖編碼調(diào)制是Pulse Code Modulation的縮寫(xiě)。我們不需要關(guān)心PCM最終編碼采用的是什么計(jì)算方式,我們只需要知道PCM編碼的音頻流的優(yōu)點(diǎn)和缺點(diǎn)就可以了。PCM編碼的最大的優(yōu)點(diǎn)就是音質(zhì)好,最大的缺點(diǎn)就是體積大。我們常見(jiàn)的Audio CD就采用了PCM編碼,一張光盤(pán)的容量只能容納72分鐘的音樂(lè)信息。

5.2WAV格式

這是一種古老的音頻文件格式,由微軟開(kāi)發(fā)。WAV是一種文件格式,符合RIFF (Resource Interchange File Format) 規(guī)范。所有的WAV都有一個(gè)文件頭,這個(gè)文件頭包含了音頻流的編碼參數(shù)。WAV對(duì)音頻流的編碼沒(méi)有硬性規(guī)定,除了PCM之外,還有幾乎所有支持ACM規(guī)范的編碼都可以為WAV的音頻流進(jìn)行編碼。很多朋友沒(méi)有這個(gè)概念,我們拿AVI做個(gè)示范,因?yàn)锳VI和WAV在文件結(jié)構(gòu)上是非常相似的,不過(guò)AVI多了一個(gè)視頻流而已。我們接觸到的AVI有很多種,因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種視頻編碼,AVI可以采用DivX編碼來(lái)壓縮視頻流,當(dāng)然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來(lái)壓縮其音頻流,不過(guò)我們常見(jiàn)的都是音頻流被PCM編碼處理的WAV,但這不表示W(wǎng)AV只能使用PCM編碼,MP3編碼同樣也可以運(yùn)用在WAV中,和AVI一樣,只要安裝好了相應(yīng)的Decode,就可以欣賞這些WAV了。

在Windows平臺(tái)下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由于本身可以達(dá)到較高的音質(zhì)的要求,因此,WAV也是音樂(lè)編輯創(chuàng)作的首選格式,適合保存音樂(lè)素材。因此,基于PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉(zhuǎn)換之中,例如MP3轉(zhuǎn)換成WMA。

  • 特點(diǎn):音質(zhì)非常好,被大量軟件所支持。
  • 適用于:多媒體開(kāi)發(fā)、保存音樂(lè)和音效素材。

5.3MP3編碼

MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關(guān)的軟件產(chǎn)品層出不窮,而且更多的硬件產(chǎn)品也開(kāi)始支持MP3,我們能夠買(mǎi)到的VCD/DVD播放機(jī)都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂(lè)商極其反感這種開(kāi)放的格式,但也無(wú)法阻止這種音頻壓縮的格式的生存與流傳。MP3發(fā)展已經(jīng)有10個(gè)年頭了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的簡(jiǎn)稱(chēng),是MPEG1的衍生編碼方案,1993年由德國(guó)Fraunhofer IIS研究院和湯姆生公司合作發(fā)展成功。MP3可以做到12:1的驚人壓縮比并保持基本可聽(tīng)的音質(zhì),在當(dāng)年硬盤(pán)天價(jià)的日子里,MP3迅速被用戶(hù)接受,隨著網(wǎng)絡(luò)的普及,MP3被數(shù)以?xún)|計(jì)的用戶(hù)接受。MP3編碼技術(shù)的發(fā)布之初其實(shí)是非常不完善的,由于缺乏對(duì)聲音和人耳聽(tīng)覺(jué)的研究,早期的mp3編碼器幾乎全是以粗暴方式來(lái)編碼,音質(zhì)破壞嚴(yán)重。隨著新技術(shù)的不斷導(dǎo)入,mp3編碼技術(shù)一次一次的被改良,其中有2次重大技術(shù)上的改進(jìn)。

關(guān)于VBR

VBR:MP3格式的文件有一個(gè)有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說(shuō)播放器可以不用預(yù)讀文件的全部?jī)?nèi)容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。雖然mp3可以有文件頭,但對(duì)于mp3格式的文件卻不是很重要,正因?yàn)檫@種特性,決定了MP3文件的每一段每一幀都可以單獨(dú)的平均數(shù)據(jù)速率,而無(wú)需特別的解碼方案。于是出現(xiàn)了一種叫VBR(Variable bitrate,動(dòng)態(tài)數(shù)據(jù)速率)的技術(shù),可以讓MP3文件的每一段甚至每一幀都可以有單獨(dú)的bitrate,這樣做的好處就是在保證音質(zhì)的前提下最大程度的限制了文件的大小。這種技術(shù)的優(yōu)越性是顯而易見(jiàn)的,但要運(yùn)用確實(shí)是一件難事,因?yàn)檫@要求編碼器知道如何為每一段分配bitrate,這對(duì)沒(méi)有波形分析的編碼器而言,這種技術(shù)如同虛設(shè)。正是如此,VBR技術(shù)并沒(méi)有一出現(xiàn)就顯得光彩奪目。

專(zhuān)家們通過(guò)長(zhǎng)期的聲學(xué)研究,發(fā)現(xiàn)人耳存在遮蔽效應(yīng)。聲音信號(hào)實(shí)際是一種能量波,在空氣或其他媒介中傳播,人耳對(duì)聲音能量的多少即響度或聲壓最直接的反應(yīng)就是聽(tīng)到這個(gè)聲音的大小,我們稱(chēng)它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會(huì)因?yàn)樗鼈冾l率不同而感覺(jué)到聲音大小不同。人耳最容易聽(tīng)到的就是500Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會(huì)覺(jué)得聲音在變小。但響度降到一定程度時(shí),人耳就聽(tīng)不到了,每一個(gè)頻率都有著不同的值。

可以看到這條曲線基本成一個(gè)V字型,當(dāng)頻率超過(guò)15000Hz時(shí),人耳的會(huì)感覺(jué)到聲音很小,很多聽(tīng)覺(jué)不是很好的人,根本就聽(tīng)不到20000Hz的頻率,不管響度有多大。當(dāng)人耳同時(shí)聽(tīng)到兩個(gè)不同頻率、不同響度的聲音時(shí),響度較小的那個(gè)也會(huì)被忽略,例如:在白天我們很難聽(tīng)到電腦中散熱風(fēng)扇的聲音,晚上卻成了噪聲源,根據(jù)這種原理,編碼器可以過(guò)濾掉很多聽(tīng)不到的聲音,以簡(jiǎn)化信息復(fù)雜度,增加壓縮比,而不明顯的降低音質(zhì)。這種遮蔽被稱(chēng)為同時(shí)遮蔽效應(yīng)。但聲音A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內(nèi),遮蔽會(huì)更明顯,這個(gè)范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。

頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)

根據(jù)這種效應(yīng),專(zhuān)家們?cè)O(shè)計(jì)出人耳聽(tīng)覺(jué)心理模型,這個(gè)模型被導(dǎo)入到mp3編碼中后,導(dǎo)致了一場(chǎng)翻天覆地的音質(zhì)革命,mp3編碼技術(shù)一直背負(fù)著音質(zhì)差的惡名,但這個(gè)惡名現(xiàn)在已經(jīng)逐漸被洗脫。到了此時(shí),一直被埋沒(méi)的VBR技術(shù)光彩四射,配合心理模型的運(yùn)用便現(xiàn)實(shí)出強(qiáng)大的誘惑力與殺傷力。

長(zhǎng)期來(lái),很多人對(duì)MP3印象不好,更多人認(rèn)為WMA的最佳音質(zhì)要好過(guò)MP3,這種說(shuō)法是不正確的,在中高碼率下,編碼得當(dāng)?shù)腗P3要比WMA優(yōu)秀很多,可以非常接近CD音質(zhì),在不太好的硬件設(shè)備支持下,沒(méi)有多少人可以區(qū)分兩者的差異,這不是神話故事,盡管你以前盲聽(tīng)就可以很輕松區(qū)分MP3和CD,但現(xiàn)在你難保證你可以分辨正確。因?yàn)镸P3是優(yōu)秀的編碼,以前被埋沒(méi)了。

  • 特點(diǎn):音質(zhì)好,壓縮比比較高,被大量軟件和硬件支持,應(yīng)用廣泛。
  • 適用于:適合用于比較高要求的音樂(lè)欣賞。

5.4 OGG編碼

網(wǎng)絡(luò)上出現(xiàn)了一種叫Ogg Vorbis的音頻編碼,號(hào)稱(chēng)MP3殺手!Ogg Vorbis究竟什么來(lái)頭呢?OGG是一個(gè)龐大的多媒體開(kāi)發(fā)計(jì)劃的項(xiàng)目名稱(chēng),將涉及視頻音頻等方面的編碼開(kāi)發(fā)。整個(gè)OGG項(xiàng)目計(jì)劃的目的就是向任何人提供完全免費(fèi)多媒體編碼方案!OGG的信念就是:OPEN!FREE!Vorbis這個(gè)詞匯是特里·普拉特柴特的幻想小說(shuō)《Small Gods》中的一個(gè)"花花公子"人物名。這個(gè)詞匯成為了OGG項(xiàng)目中音頻編碼的正式命名。目前Vorbis已經(jīng)開(kāi)發(fā)成功,并且開(kāi)發(fā)出了編碼器。

Ogg Vorbis是高質(zhì)量的音頻編碼方案,官方數(shù)據(jù)顯示:Ogg Vorbis可以在相對(duì)較低的數(shù)據(jù)速率下實(shí)現(xiàn)比MP3更好的音質(zhì)!Ogg Vorbis這種編碼也遠(yuǎn)比90年代開(kāi)發(fā)成功的MP3先進(jìn),它可以支持多聲道,這意味著什么?這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟件(目前這種軟件還沒(méi)有)的支持下,可以對(duì)所有的聲道進(jìn)行編碼,而不是MP3只能編碼2個(gè)聲道。多聲道音樂(lè)的興起,給音樂(lè)欣賞帶來(lái)了革命性的變化,尤其在欣賞交響時(shí),會(huì)帶來(lái)更多臨場(chǎng)感。這場(chǎng)革命性的變化是MP3無(wú)法適應(yīng)的。

和MP3一樣,Ogg Vorbis是一種靈活開(kāi)放的音頻編碼,能夠在編碼方案已經(jīng)固定下來(lái)后還能對(duì)音質(zhì)進(jìn)行明顯的調(diào)節(jié)和新算法的改良。因此,它的聲音質(zhì)量將會(huì)越來(lái)越好,和MP3相似,Ogg Vorbis更像一個(gè)音頻編碼框架,可以不斷導(dǎo)入新技術(shù)逐步完善。和MP3一樣,OGG也支持VBR。

  • 特點(diǎn):可以用比mp3更小的碼率實(shí)現(xiàn)比mp3更好的音質(zhì),高中低碼率下均具有良好的表現(xiàn)。
  • 適用于:用更小的存儲(chǔ)空間獲得更好的音質(zhì)(相對(duì)MP3)。

5.5 MPC編碼

MPC是又是另外一個(gè)令人刮目相看的實(shí)力派選手,它的普及過(guò)程非常低調(diào),也沒(méi)有什么復(fù)雜的背景故事,她的出現(xiàn)目的就只有一個(gè),更小的體積更好的音質(zhì)!MPC以前被稱(chēng)作MP+,很顯然,可以看出她針對(duì)的競(jìng)爭(zhēng)對(duì)手是誰(shuí)。但是,只要用過(guò)這種編碼的人都會(huì)有個(gè)深刻的印象,就是她出眾的音質(zhì)。

  • 特點(diǎn):中高碼率下,具有有損編碼中最佳的音質(zhì)表現(xiàn),高碼率下,高頻表現(xiàn)極佳。

  • 適用于:在節(jié)省大量空間的前提下獲得最佳音質(zhì)的音樂(lè)欣賞。

5.6 mp3PRO編碼

2001年6月14日,美國(guó)湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協(xié)會(huì)(Fraunhofer Institute)于6月14日發(fā)布了一種新的音樂(lè)格式版本,名稱(chēng)為mp3PRO,這是一種基于mp3編碼技術(shù)的改良方案,從官方公布的特征看來(lái)確實(shí)相當(dāng)吸引人。從各方面的資料顯示,mp3PRO并不是一種全新的格式,完全是基于傳統(tǒng)mp3編碼技術(shù)的一種改良,本身最大的技術(shù)亮點(diǎn)就在于SBR(Spectral Band Replication 頻段復(fù)制),這是一種新的音頻編碼增強(qiáng)算法。它提供了改善低位率情況下音頻和語(yǔ)音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優(yōu)勢(shì)就是在低數(shù)據(jù)速率下實(shí)現(xiàn)非常高效的編碼,與傳統(tǒng)的編碼技術(shù)不同的是,SBR更像是一種后處理技術(shù),因此解碼器的算法的優(yōu)劣直接影響到音質(zhì)的好壞。高頻實(shí)際上是由解碼器(播放器)產(chǎn)生的,SBR編碼的數(shù)據(jù)更像是一種產(chǎn)生高頻的命令集,或者稱(chēng)為指導(dǎo)性的信號(hào)源,這有點(diǎn)駇idi的工作方式。我們可以看到,mp3PRO其實(shí)是一種mp3信號(hào)流和SBR信號(hào)流的混合數(shù)據(jù)流編碼。有關(guān)資料顯示,SBR技術(shù)可以改善低數(shù)據(jù)流量下的高頻音質(zhì),改善程度約為30%,我們不管這個(gè)30%是如何得來(lái)的,但可以事先預(yù)知這種改善可以讓64kbps的mp3達(dá)到128kbps的mp3的音質(zhì)水平(注:在相同的編碼條件下,數(shù)據(jù)速率的提升和音質(zhì)的提升不是成正比的,至少人耳聽(tīng)覺(jué)上是這樣的),這和官方聲稱(chēng)的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。

  • 特點(diǎn):低碼率下的音質(zhì)之王。
  • 適用于:低要求下的音樂(lè)欣賞。

5.7 WMA格式

WMA就是Windows Media Audio編碼后的文件格式,由微軟開(kāi)發(fā),WMA針對(duì)的不是單機(jī)市場(chǎng),是網(wǎng)絡(luò)!競(jìng)爭(zhēng)對(duì)手就是網(wǎng)絡(luò)媒體市場(chǎng)中著名的Real Networks。微軟聲稱(chēng),在只有64kbps的碼率情況下,WMA可以達(dá)到接近CD的音質(zhì)。和以往的編碼不同,WMA支持防復(fù)制功能,她支持通過(guò)Windows Media Rights Manager 加入保護(hù),可以限制播放時(shí)間和播放次數(shù)甚至于播放的機(jī)器等等。WMA支持流技術(shù),即一邊讀一邊播放,因此WMA可以很輕松的實(shí)現(xiàn)在線廣播,由于是微軟的杰作,因此,微軟在Windows中加入了對(duì)WMA的支持,WMA有著優(yōu)秀的技術(shù)特征,在微軟的大力推廣下,這種格式被越來(lái)越多的人所接受。

  • 特點(diǎn):低碼率下的音質(zhì)表現(xiàn)難有對(duì)手。
  • 適用于:數(shù)字電臺(tái)架設(shè)、在線試聽(tīng)、低要求下的音樂(lè)欣賞。

5.8 RA格式

RA就是RealAudio格式,這是各位網(wǎng)蟲(chóng)接觸得非常多的一種格式,大部分音樂(lè)網(wǎng)站的在線試聽(tīng)都是采用了RealAudio,這種格式完全針對(duì)的就是網(wǎng)絡(luò)上的媒體市場(chǎng),支持非常豐富的功能。最大的閃爍點(diǎn)就是這種格式可以根據(jù)聽(tīng)眾的帶寬來(lái)控制自己的碼率,在保證流暢的前提下盡可能提高音質(zhì)。RA可以支持多種音頻編碼,包括ATRAC3。和WMA一樣,RA不但都支持邊讀邊放,也同樣支持使用特殊協(xié)議來(lái)隱匿文件的真實(shí)網(wǎng)絡(luò)地址,從而實(shí)現(xiàn)只在線播放而不提供下載的欣賞方式。這對(duì)唱片公司和唱片銷(xiāo)售公司很重要,在各方的大力推廣下,RA和WMA是目前互聯(lián)網(wǎng)上,用于在線試聽(tīng)最多的音頻媒體格式。

5.9 APE格式

APE是Monkey's Audio提供的一種無(wú)損壓縮格式。Monkey's Audio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠(yuǎn)低于其他格式,但能夠做到真正無(wú)損,因此獲得了不少發(fā)燒用戶(hù)的青睞。在現(xiàn)有不少無(wú)損壓縮方案種,APE是一種有著突出性能的格式,令人滿(mǎn)意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發(fā)燒音樂(lè)的唯一選擇。

  • 特點(diǎn):音質(zhì)非常好。
  • 適用于:最高品質(zhì)的音樂(lè)欣賞及收藏。

六.總結(jié)

本文詳細(xì)介紹了聲音的產(chǎn)生、聲音的三要素、數(shù)字音頻、音頻數(shù)字模擬化,音頻編碼、編碼分類(lèi)及使用場(chǎng)景.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容