音視頻編碼相關(guān)名詞詳解

視頻

PAR DAR SAR

PAR - pixel aspect ratio(像素寬高比)大多數(shù)情況為1:1,就是一個正方形像素,否則為長方形像素

DAR - display aspect ratio(顯示寬高比)就是視頻播放時,我們看到的圖像寬高的比例,縮放視頻也要按這個比例來,否則會使圖像看起來被壓扁或者拉長了似的

SAR - storage aspect ratio(采樣縱橫比)就是對圖像采集時,橫向采集與縱向采集構(gòu)成的點陣,橫向點數(shù)與縱向點數(shù)的比值。比如VGA圖像640/480 = 4:3,D-1 PAL圖像720/576 = 5:4

三者的關(guān)系PAR x SAR = DAR或者PAR = DAR/SAR.

幀率相關(guān)信息

完成時間點與幀號的轉(zhuǎn)換就需要找出合適的參數(shù)

  • tbr 一般被當成幀率。當視頻的碼率為固定碼率時,F(xiàn)Fmpeg顯示tbr為正常的碼率值。當視頻有變長碼率時,F(xiàn)Fmpeg打印的tbr為多個碼率的均值,看著像音頻流。
  • tbn代表文件層(st)的時間精度,比如:25k tbn即1S=25k,和duration相關(guān)
  • tbc代表視頻層(st->codec)的時間精度,即1S=50,和strem->duration和時間戳相關(guān)。
顏色編碼

YUV420是視頻中通常采用的顏色編碼方式,Y表示亮度,而U,V則與顏色相關(guān),而420則分別對應(yīng)著存儲相應(yīng)分量所占用的比特數(shù)之比。

碼率

影響體積,與體積成正比:碼率越大,體積越大;碼率越小,體積越小。

碼率就是數(shù)據(jù)傳輸時單位時間傳送的數(shù)據(jù)位數(shù),一般我們用的單位是kbps即千位每秒

碼率=采樣率 x 位深度 x 聲道

總比特率

通常來說,一個視頻文件包括了畫面及聲音。音頻及視頻都有各自不同的采樣方式和比特率,也就是說,同一個視頻文件音頻和視頻的比特率并不是一樣的。而我們所說的一個視頻文件碼流率大小,一般是指視頻文件中音頻及視頻信息碼流率的總和。

視頻碼率

視頻碼率就是數(shù)據(jù)傳輸時單位時間傳送的數(shù)據(jù)位數(shù),一般我們用的單位是kbps即千位每秒。通俗一點的理解就是取樣率,單位時間內(nèi)取樣率越大,精度就越高,處理出來的文件就越接近原始文件。

FPS(幀速率)

幀/秒。是指每秒鐘刷新的圖片的幀數(shù),也可以理解為圖形處理器每秒鐘能夠刷新幾次。越高的幀速率可以得到更流暢、更逼真的動畫。每秒鐘幀數(shù)(FPS)越多,所顯示的動作就會越流暢。

GOP(Group of Pictures)

GOP,意思是畫面組,一個GOP就是一組連續(xù)的畫面。MPEG編碼將畫面(即幀)分為I、P、B三種,I是內(nèi)部編碼幀,P是前向預(yù)測幀,B是雙向內(nèi)插幀。簡單地講,I幀是一個完整的畫面,而P幀和B幀記錄的是相對于I幀的變化。沒有I幀,P幀和B幀就無法解碼,這就是MPEG格式難以精確剪輯的原因,也是我們之所以要微調(diào)頭和尾的原因。GOP 越長,B 幀所占比例更高,編碼的率失真性能越高。

gop2.jpg
I,P,B幀和PTS,DTS的關(guān)系

基本概念:

I frame :幀內(nèi)編碼幀 又稱intra picture,I 幀通常是每個 GOP(MPEG 所使用的一種視頻壓縮技術(shù))的第一個幀,經(jīng)過適度地壓縮,做為隨機訪問的參考點,可以當成圖象。I幀可以看成是一個圖像經(jīng)過壓縮后的產(chǎn)物。

P frame: 前向預(yù)測編碼幀 又稱predictive-frame,通過充分將低于圖像序列中前面已編碼幀的時間冗余信息來壓縮傳輸數(shù)據(jù)量的編碼圖像,也叫預(yù)測幀;

B frame: 雙向預(yù)測內(nèi)插編碼幀 又稱bi-directional interpolated prediction frame,既考慮與源圖像序列前面已編碼幀,也顧及源圖像序列后面已編碼幀之間的時間冗余信息來壓縮傳輸數(shù)據(jù)量的編碼圖像,也叫雙向預(yù)測幀;

gop1.jpg
gop.jpg
gop3.jpg

PTS:Presentation Time Stamp。PTS主要用于度量解碼后的視頻幀什么時候被顯示出來

DTS:Decode Time Stamp。DTS主要是標識讀入內(nèi)存中的bit流在什么時候開始送入解碼器中進行解碼。

在沒有B幀存在的情況下DTS的順序和PTS的順序應(yīng)該是一樣的。

IPB幀的不同:

I frame:自身可以通過視頻解壓算法解壓成一張單獨的完整的圖片。

P frame:需要參考其前面的一個I frame 或者B frame來生成一張完整的圖片。

B frame:則要參考其前一個I或者P幀及其后面的一個P幀來生成一張完整的圖片。

兩個I frame之間形成一個GOP,在x264中同時可以通過參數(shù)來設(shè)定bf的大小,即:I 和p或者兩個P之間B的數(shù)量。

通過上述基本可以說明如果有B frame 存在的情況下一個GOP的最后一個frame一定是P.

DTS和PTS的不同:

DTS主要用于視頻的解碼,在解碼階段使用.PTS主要用于視頻的同步和輸出.在display的時候使用.在沒有B frame的情況下.DTS和PTS的輸出順序是一樣的.


音頻

PCM

PCM(Pulse Code Modulation)也被稱為 脈碼編碼調(diào)制。數(shù)字信號是對連續(xù)變化的模擬信號進行抽樣、量化和編碼產(chǎn)生的。PCM中的聲音數(shù)據(jù)沒有被壓縮。

1.jpg

你可以在cooledit里面放大這個圖片,看到實際上它就是一個波形圖。一個聲音對應(yīng)的就是一個波形圖。PCM實際上就是講這個波形圖通過按一定的時間間隔,收集起來。

PCM數(shù)據(jù)

PCM的每個樣本值包含在一個整數(shù)i中,i的長度為容納指定樣本長度所需的最小字節(jié)數(shù)。
首先存儲低有效字節(jié),表示樣本幅度的位放在i的高有效位上,剩下的位置為0,這樣8位和16位的PCM波形樣本的數(shù)據(jù)格式如下所示。

樣本大小 數(shù)據(jù)格式 最小值 最大值
8位PCM unsigned int 0 225
16位PCM int -32767 32767
音頻文件格式

專指存放音頻數(shù)據(jù)的文件的格式。存在多種不同的格式
采樣率,分辨率和聲道數(shù)目(例如立體聲為2聲道)是音頻文件格式的關(guān)鍵參數(shù)。

采樣率

聲音信號在“?!鷶?shù)”轉(zhuǎn)換過程中單位時間內(nèi)采樣的次數(shù)。采樣值是指每一次采樣周期內(nèi)聲音模擬信號的積分值。
經(jīng)常見到這樣的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等.比如:

    1. 44100HZ 16bit stereo: 每秒鐘有 44100 次采樣, 采樣數(shù)據(jù)用 16 位(2字節(jié))記錄, 雙聲道(立體聲);
    1. 22050HZ 8bit mono: 每秒鐘有 22050 次采樣, 采樣數(shù)據(jù)用 8 位(1字節(jié))記錄, 單聲道;

人對頻率的識別范圍是 20HZ - 20000HZ, 如果每秒鐘能對聲音做 20000 個采樣, 回放時就足可以滿足人耳的需求. 所以 22050 的采樣頻率是常用的, 44100已是CD音質(zhì), 超過48000的采樣對人耳已經(jīng)沒有意義。這和電影的每秒 24 幀圖片的道理差不多。

AAC

AAC是高級音頻編碼(Advanced Audio Coding)的縮寫?;?a target="_blank" rel="nofollow">MPEG-2的有損聲音編碼技術(shù)。
AAC編碼的主要擴展名有三種:

  • .aac - 使用MPEG-2 Audio Transport Stream(ADTS,參見MPEG-2)容器。
  • .mp4 - 使用了MPEG-4 Part 14(第14部分)的簡化版即3GPP Media Release 6 Basic(3gp6,參見3GP)進行封裝的AAC編碼(Nero AAC編碼器僅能輸出MPEG-4封裝的AAC)。
  • .m4a - 為了區(qū)別純音頻MP4文件和包含視頻的MP4文件而由蘋果(Apple)公司使用的擴展名,Apple iTunes對純音頻MP4文件采用了".m4a"命名。M4A的本質(zhì)和音頻MP4相同,故音頻MP4文件亦可直接更改擴展名為M4A。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • [TOC] 音視頻&流媒體 是什么促使我要寫這一篇音視頻入門文章?那是因為和一妹子打賭碼率的概念,結(jié)果輸了;對一個...
    AllenWu閱讀 5,180評論 1 24
  • 前言 說到視頻,大家自己腦子里基本都會想起電影、電視劇、在線視頻等等,也會想起一些視頻格式 AVI、MP4、RMV...
    ForestSen閱讀 23,990評論 10 203
  • 視頻編碼與封裝方式詳解 1.編碼方式和封裝格式 2.視頻編碼標準兩大系統(tǒng) MPEG-1 MPEG-2 MPEG-3...
    latthias閱讀 6,670評論 0 22
  • H264中的sps pps iOS仿微信小視頻功能開發(fā)優(yōu)化記錄【如何快速的開發(fā)一個完整的iOS直播app】(原理篇...
    CharlyZheng閱讀 1,524評論 0 2
  • 前言 總結(jié)的一些音視頻相關(guān)的知識,文末總結(jié)有傳送門。 概念 協(xié)議層(Protocol Layer):該層處理的數(shù)據(jù)...
    落影l(fā)oyinglin閱讀 5,123評論 2 49

友情鏈接更多精彩內(nèi)容