久草免费在线高清视频,日韩美女ad,老熟女影视

絕大多數(shù)音頻特征起源于語音識(shí)別任務(wù)，它們可以精簡原始的波形采樣信號(hào)，從而加速機(jī)器對(duì)音頻中語義含義的理解。從20世紀(jì)90年代末開始，這些音頻特征也被應(yīng)用于樂器識(shí)別等音樂信息檢索任務(wù)中，更多針對(duì)音頻音樂設(shè)計(jì)的特征也應(yīng)運(yùn)而生。

音頻特征的類別

認(rèn)識(shí)音頻特征不同類別不在于對(duì)某一個(gè)特征精準(zhǔn)分類而是加深理解特征的物理意義，一般對(duì)于音頻特征我們可以從以下維度區(qū)分：

特征是由模型從信號(hào)中直接提取還是基于模型的輸出得到的統(tǒng)計(jì)，如均值、方差等。

特征表示的是瞬態(tài)還是全局上的值，瞬態(tài)一般以幀為單位而全局則覆蓋更長的時(shí)間維度。

特征的抽象程度，底層特征抽象程度最低也是最易從原始音頻信號(hào)中提取，它可以進(jìn)一步被處理為高一級(jí)的中間特征代表樂譜中常見的音樂元素，如音高、音符的起始時(shí)間等；高層特征最為抽象大多用于音樂的曲風(fēng)和情緒任務(wù)。

根據(jù)特征提取過程的差異可以分為：從原始信號(hào)中直接提取的特征（如過零率）、將信號(hào)轉(zhuǎn)換為頻率得到的特征（如譜心質(zhì)）、需經(jīng)過特定的模型得到的特征（如旋律）、受人耳聽覺認(rèn)知啟發(fā)改變量化特征尺度得到的特征（如MFCCs）。

我們以“特征提取過程的差異”為主要分類基準(zhǔn)，列出各類下比較常見的特征：?

同時(shí)我們也發(fā)現(xiàn)部分特征并非完全屬于其中一個(gè)類別例如MFCC，因?yàn)樘崛FCC會(huì)將信號(hào)從時(shí)域轉(zhuǎn)換至頻域然后根據(jù)模仿人類聽覺響應(yīng)的MEL尺度過濾器得到的，因此它屬于既屬于頻域特征又屬于感知特征。

常用提取工具

下面羅列出一些常用提取音頻特征的工具和使用平臺(tái)。

音頻信號(hào)處理

音頻數(shù)字信號(hào)是一系列數(shù)字代表時(shí)域中連續(xù)變化的樣本，也就是常常說的“波形圖”。要對(duì)數(shù)字信號(hào)進(jìn)行分析操作需對(duì)信號(hào)進(jìn)行采樣和量化。

采樣是指連續(xù)時(shí)間的離散化的過程，其中均勻采樣是指每隔相等時(shí)間間隔采樣一次，每秒需要采集的聲音樣本個(gè)數(shù)叫做采樣頻率，音頻文件中常常見到的44.1kHz、11kHz就是指的采樣（頻）率。

量化將連續(xù)波形轉(zhuǎn)變?yōu)殡x散化的數(shù)字，先將整個(gè)幅度劃分為有限個(gè)量化階距的集合，幅度的劃分可以是等間距或不等間距的把落入某個(gè)階距內(nèi)的樣本值賦予相同的量化值。音頻文件中的位深代表的就是量化值，16bit位深代表的就是將幅值量化為2^16。

奈奎斯特定律指出如果采樣頻率大于等于信號(hào)中最高頻率分量的2倍，一個(gè)信號(hào)可以從他的采樣值精確地重構(gòu)，實(shí)際上采樣頻率明顯大于奈奎斯特頻率。

常用變換

1.短時(shí)傅里葉變換

短時(shí)傅里葉變換(Short Time Fourier Transform, STFT)適用于分析緩慢時(shí)變信號(hào)的頻譜分析，在音頻和圖像分析處理中已經(jīng)得到廣泛應(yīng)用。其方法是先將信號(hào)分幀，再將各幀進(jìn)行傅里葉變換。每一幀語音信號(hào)可以被認(rèn)為是從各個(gè)不同的平穩(wěn)信號(hào)波形中截取出來的，各幀語音的短時(shí)頻譜就是各個(gè)平穩(wěn)信號(hào)波形頻譜的近似。

由于語音信號(hào)是短時(shí)平穩(wěn)的，因此可以對(duì)信號(hào)進(jìn)行分幀處理，計(jì)算某一幀的傅里葉變換，這樣得到的就是短時(shí)傅里葉變換。

傅里葉變換(FFT)可以將信號(hào)從時(shí)域轉(zhuǎn)變?yōu)轭l域，而逆傅里葉變換(IFFT)則可以將頻域轉(zhuǎn)換為時(shí)域信號(hào)；傅里葉變換將信號(hào)從時(shí)域轉(zhuǎn)變?yōu)轭l域是音頻信號(hào)處理最常用的方式。STFT得到的頻譜圖在音頻信號(hào)中又叫做聲譜圖或語譜圖。

2.離散余弦變換

離散余弦變換(DCT for Discrete Cosine Transform)是與傅里葉變換相關(guān)的一種變換，它類似于離散傅里葉變換(DFT for Discrete Fourier Transform),但是只使用實(shí)數(shù)。離散余弦變換相當(dāng)于一個(gè)長度大概是它兩倍的離散傅里葉變換，這個(gè)離散傅里葉變換是對(duì)一個(gè)實(shí)偶函數(shù)進(jìn)行的（因?yàn)橐粋€(gè)實(shí)偶函數(shù)的傅里葉變換仍然是一個(gè)實(shí)偶函數(shù)），在有些變形里面需要將輸入或者輸出的位置移動(dòng)半個(gè)單位。

3. 離散小波變換

離散小波變換（Discrete Wavelet Transform）在數(shù)值分析和時(shí)頻分析中很有用，離散小波變換是對(duì)基本小波的尺度和平移進(jìn)行離散化。

4. 梅爾頻譜和梅爾倒譜

聲譜圖往往是很大的一張圖，為了得到合適大小的聲音特征，往往把它通過梅爾標(biāo)度濾波器組（mel-scale filter banks），變換為梅爾頻譜。

人耳的音高感覺大致與聲音的基頻對(duì)數(shù)呈線性關(guān)系。在梅爾標(biāo)度下，如果兩段語音的梅爾頻率相差兩倍，則人耳可以感知到的音調(diào)大概也相差兩倍。當(dāng)頻率較小時(shí)，mel隨Hz變化較快；當(dāng)頻率很大時(shí)，mel的上升很緩慢，曲線的斜率很小。這說明了人耳對(duì)低頻音調(diào)的感知較靈敏，在高頻時(shí)人耳是很遲鈍的，梅爾標(biāo)度濾波器組啟發(fā)于此。

梅爾標(biāo)度濾波器由多個(gè)三角濾波器組成濾波器組，低頻處濾波器密集，門限值大，高頻處濾波器稀疏，門限值低。恰好對(duì)應(yīng)了頻率越高人耳越遲鈍這一客觀規(guī)律。上圖所示的濾波器形式叫做等面積梅爾濾波器（Mel-filter bank with same bank area），在人聲領(lǐng)域（語音識(shí)別，說話人辨認(rèn)）等領(lǐng)域應(yīng)用廣泛，但是如果用到非人聲領(lǐng)域，就會(huì)丟掉很多高頻信息。這時(shí)我們更喜歡的或許是等高梅爾濾波器（Mel-filter bank with same bank height）。

librosa中MEL頻譜實(shí)現(xiàn)：

而梅爾倒譜在梅爾頻譜上做倒譜分析（取對(duì)數(shù)，做DCT變換）就得到了梅爾倒譜。

5.恒Q變換

在音樂中，所有的音都是由若干八度的12平均律共同組成的，這十二平均律對(duì)應(yīng)著鋼琴中一個(gè)八度上的十二個(gè)半音。這些半音臨近之間頻率比為21/12。顯然，同一音級(jí)的兩個(gè)八度音，高八度音是低八度音頻率的兩倍。因此在音樂當(dāng)中，聲音都是以指數(shù)分布的，但我們的傅立葉變換得到的音頻譜都是線性分布的，兩者的頻率點(diǎn)是不能一一對(duì)應(yīng)的，這會(huì)指使某些音階頻率的估計(jì)值產(chǎn)生誤差。所以現(xiàn)代對(duì)音樂聲音的分析，一般都采用一種具有相同指數(shù)分布規(guī)律的時(shí)頻變換算法：恒Q變換（Constant Q transform）。

CQT指中心頻率按指數(shù)規(guī)律分布，濾波帶寬不同、但中心頻率與帶寬比為常量Q的濾波器組。它與傅立葉變換不同的是，它頻譜的橫軸頻率不是線性的，而是基于log2為底的，并且可以根據(jù)譜線頻率的不同該改變?yōu)V波窗長度，以獲得更好的性能。由于CQT與音階頻率的分布相同，所以通過計(jì)算音樂信號(hào)的CQT譜，可以直接得到音樂信號(hào)在各音符頻率處的振幅值。