音視頻中GOP、PTS和DTS

視頻

視頻的播放過程可以簡單理解為一幀一幀的畫面按照時間順序呈現(xiàn)出來的過程,就像在一個本子的每一頁畫上畫,然后快速翻動的感覺。
但是在實際應(yīng)用中,并不是每一幀都是完整的畫面,因為如果每一幀畫面都是完整的圖片,那么一個視頻的體積就會很大,這樣對于網(wǎng)絡(luò)傳輸或者視頻數(shù)據(jù)存儲來說成本太高,所以通常會對視頻流中的一部分畫面進(jìn)行壓縮(編碼)處理。由于壓縮處理的方式不同,視頻中的畫面幀就分為了不同的類別,其中包括:I 幀、P 幀、B 幀。

I、P、B 幀

I 幀、P 幀、B 幀的區(qū)別在于:

  • I 幀(Intra coded frames):I 幀圖像采用幀內(nèi)編碼方式,即只利用了單幀圖像內(nèi)的空間相關(guān)性,而沒有利用時間相關(guān)性。I 幀使用幀內(nèi)壓縮,不使用運動補(bǔ)償,由于 I 幀不依賴其它幀,所以是隨機(jī)存取的入點,同時是解碼的基準(zhǔn)幀。I 幀主要用于接收機(jī)的初始化和信道的獲取,以及節(jié)目的切換和插入,I 幀圖像的壓縮倍數(shù)相對較低。I 幀圖像是周期性出現(xiàn)在圖像序列中的,出現(xiàn)頻率可由編碼器選擇。
  • P 幀(Predicted frames):P 幀和 B 幀圖像采用幀間編碼方式,即同時利用了空間和時間上的相關(guān)性。P 幀圖像只采用前向時間預(yù)測,可以提高壓縮效率和圖像質(zhì)量。P 幀圖像中可以包含幀內(nèi)編碼的部分,即 P 幀中的每一個宏塊可以是前向預(yù)測,也可以是幀內(nèi)編碼。
  • B 幀(Bi-directional predicted frames):B 幀圖像采用雙向時間預(yù)測,可以大大提高壓縮倍數(shù)。值得注意的是,由于 B 幀圖像采用了未來幀作為參考,因此 MPEG-2 編碼碼流中圖像幀的傳輸順序和顯示順序是不同的。

也就是說,一個I幀可以不依賴其他幀就解碼出一幅完整的圖像,而P幀、B幀不行。P幀需要依賴視頻流中排在它前面的幀才能解碼出圖像。B幀則需要依賴視頻流中排在它前面或后面的幀才能解碼出圖像。
這就帶來一個問題:在視頻流中,先到來的B幀無法立即解碼,需要等待它依賴的后面的I、P幀先解碼完成,這樣一來播放時間與解碼時間不一致了,順序打亂了,那這些幀該如何播放呢?這時就需要我們來了解另外兩個概念:DTS 和 PTS。

補(bǔ)充一個基于I 幀、P 幀、B 幀上很重要的概念:

GOP

GOP即Group of picture(圖像組),指兩個I幀之間的距離,Reference(參考周期)指兩個P幀之間的距離。一個I幀所占用的字節(jié)數(shù)大于一個P幀,一個P幀所占用的字節(jié)數(shù)大于一個B幀。所以在碼率不變的前提下,GOP值越大,P、B幀的數(shù)量會越多,平均每個I、P、B幀所占用的字節(jié)數(shù)就越多,也就更容易獲取較好的圖像質(zhì)量;Reference越大,B幀的數(shù)量越多,同理也更容易獲得較好的圖像質(zhì)量。
需要說明的是,通過提高GOP值來提高圖像質(zhì)量是有限度的,在遇到場景切換的情況時,H.264編碼器會自動強(qiáng)制插入一個I幀,此時實際的GOP值被縮短了。另一方面,在一個GOP中,P、B幀是由I幀預(yù)測得到的,當(dāng)I幀的圖像質(zhì)量比較差時,會影響到一個GOP中后續(xù)P、B幀的圖像質(zhì)量,直到下一個GOP開始才有可能得以恢復(fù),所以GOP值也不宜設(shè)置過大。
同時,由于P、B幀的復(fù)雜度大于I幀,所以過多的P、B幀會影響編碼效率,使編碼效率降低。另外,過長的GOP還會影響Seek操作的響應(yīng)速度,由于P、B幀是由前面的I或P幀預(yù)測得到的,所以Seek操作需要直接定位,解碼某一個P或B幀時,需要先解碼得到本GOP內(nèi)的I幀及之前的N個預(yù)測幀才可以,GOP值越長,需要解碼的預(yù)測幀就越多,seek響應(yīng)的時間也越長。

DTS、PTS 的概念

DTS、PTS 的概念如下所述:

  • DTS(Decoding Time Stamp):即解碼時間戳,這個時間戳的意義在于告訴播放器該在什么時候解碼這一幀的數(shù)據(jù)。
  • PTS(Presentation Time Stamp):即顯示時間戳,這個時間戳用來告訴播放器該在什么時候顯示這一幀的數(shù)據(jù)。

需要注意的是:雖然DTS、PTS是用于指導(dǎo)播放端的行為,但它們是在編碼的時候由編碼器生成的。
當(dāng)視頻流中沒有 B 幀時,通常DTS和PTS的順序是一致的。但如果有 B 幀時,就回到了我們前面說的問題:解碼順序和播放順序不一致了。
比如一個視頻中,幀的顯示順序是:I B B P,現(xiàn)在我們需要在解碼 B 幀時知道 P 幀中信息,因此這幾幀在視頻流中的順序可能是:I P B B,這時候就體現(xiàn)出每幀都有DTS和PTS的作用了。DTS 告訴我們該按什么順序解碼這幾幀圖像,PTS 告訴我們該按什么順序顯示這幾幀圖像。順序大概如下:

PTS: 1 4 2 3
DTS: 1 2 3 4
Stream: I P B B

音視頻的同步

上面說了視頻幀、DTS、PTS 相關(guān)的概念。我們都知道在一個媒體流中,除了視頻以外,通常還包括音頻。音頻的播放,也有 DTS、PTS 的概念,但是音頻沒有類似視頻中 B 幀,不需要雙向預(yù)測,所以音頻幀的 DTS、PTS 順序是一致的。
音頻視頻混合在一起播放,就呈現(xiàn)了我們常??吹降膹V義的視頻。在音視頻一起播放的時候,我們通常需要面臨一個問題:怎么去同步它們,以免出現(xiàn)畫不對聲的情況。
要實現(xiàn)音視頻同步,通常需要選擇一個參考時鐘,參考時鐘上的時間是線性遞增的,編碼音視頻流時依據(jù)參考時鐘上的時間給每幀數(shù)據(jù)打上時間戳。在播放時,讀取數(shù)據(jù)幀上的時間戳,同時參考當(dāng)前參考時鐘上的時間來安排播放。這里的說的時間戳就是我們前面說的 PTS。實踐中,我們可以選擇:同步視頻到音頻、同步音頻到視頻、同步音頻和視頻到外部時鐘。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容