簡述MP4文件中的音視頻

大家使用播放器播放MP4文件時(shí),可以看到畫面,也可以聽到聲音,這里就涉及到幾個(gè)知識點(diǎn):

  • MP4文件是什么?
  • 畫面怎么來的?
  • 聲音怎么來的?

先來講講畫面是什么。我們最容易理解的畫面就是一張圖片,一張圖片是靜止的,如果把一張張圖片拼接起來,就會(huì)形成動(dòng)態(tài)效果。微信上的動(dòng)態(tài)表情就是由一張張圖片拼接起來形成的gif動(dòng)圖。

MP4文件中的畫面就是由一幀幀的畫面組成的,每一幀就類似于一張圖片。但是有個(gè)問題,每張圖片所占用的空間比較大,如果直接把它們組合在一起,會(huì)形成一個(gè)非常大的文件,那就不方便文件的存儲(chǔ)和傳播了。所以我們需要一些方式來把這些圖片進(jìn)行壓縮,類似于把一個(gè)1M大小的txt文本文件一壓縮就可能不到1K大小了,壓縮了1000倍。這個(gè)技術(shù)在視頻領(lǐng)域就叫“編碼”,對應(yīng)的解壓過程就叫“解碼”。視頻編解碼目前最常用的就是H264技術(shù)。聲音也類似畫面,其中的編解碼一般用的是AAC。

有了這些連續(xù)的畫面和聲音,得需要有個(gè)東西或者說容器把這些東西裝起來,這個(gè)容器就是MP4。我們還會(huì)看到FLV,MKV文件,與MP4一樣也是容器,只是他們的規(guī)則有些不同而已。類似word可以把文字和圖片裝在一個(gè)文件里面,pdf也可以做相同的事情。

現(xiàn)在大部分視頻都采用H264協(xié)議,這個(gè)協(xié)議最主要的好處是高的視頻壓縮比良好的網(wǎng)絡(luò)親和性。協(xié)議很復(fù)雜,我們只說說它的幾個(gè)關(guān)鍵知識:I、P、B、SPS、PPS幀,碼率,分辨率。

我們回想一下看視頻的場景,一般情況下,一段場景內(nèi)變化的圖像都不會(huì)太多,比如直播視頻中,一般都只有主播的嘴在動(dòng),背景啊,服飾什么的都基本不會(huì)變化。參照一段時(shí)間內(nèi)圖像的統(tǒng)計(jì)結(jié)果表明,在相鄰幾幅圖像畫面中,一般有差別的像素只有10%以內(nèi)的點(diǎn),亮度差值變化不超過2%,而色度差值的變化只有1%以內(nèi)。所以對于一段變化不大圖像畫面,我們可以先編碼出一個(gè)完整的圖像幀A,隨后的B幀就不編碼全部圖像,只寫入與A幀的差別,這樣B幀的大小就只有完整幀的1/10或更??!B幀之后的C幀如果變化不大,我們可以繼續(xù)以參考B的方式編碼C幀,這樣循環(huán)下去。這段圖像我們稱為一個(gè)序列(序列就是有相同特點(diǎn)的一段數(shù)據(jù)),當(dāng)某個(gè)圖像與之前的圖像變化很大,無法參考前面的幀來生成,那我們就結(jié)束上一個(gè)序列,開始下一段序列,也就是對這個(gè)圖像生成一個(gè)完整幀A1,隨后的圖像就參考A1生成,只寫入與A1的差別內(nèi)容。如此循環(huán)......

接下來來一段比較專業(yè)化的描述:在H264中圖像以序列為單位進(jìn)行組織,一個(gè)序列是一段圖像編碼后的數(shù)據(jù)流,以I幀開始,到下一個(gè)I幀結(jié)束。一個(gè)序列的第一個(gè)圖像叫做 IDR 圖像(立即刷新圖像),IDR 圖像都是 I 幀圖像。H.264 引入 IDR 圖像是為了解碼的重同步,當(dāng)解碼器解碼到 IDR 圖像時(shí),立即將參考幀隊(duì)列清空,將已解碼的數(shù)據(jù)全部輸出或拋棄,重新查找參數(shù)集,開始一個(gè)新的序列。這樣,如果前一個(gè)序列出現(xiàn)重大錯(cuò)誤,在這里可以獲得重新同步的機(jī)會(huì)。IDR圖像之后的圖像永遠(yuǎn)不會(huì)使用IDR之前的圖像的數(shù)據(jù)來解碼。一個(gè)序列就是一段內(nèi)容差異不太大的圖像編碼后生成的一串?dāng)?shù)據(jù)流。當(dāng)運(yùn)動(dòng)變化比較少時(shí),一個(gè)序列可以很長,因?yàn)檫\(yùn)動(dòng)變化少就代表圖像畫面的內(nèi)容變動(dòng)很小,所以就可以編一個(gè)I幀,然后一直P幀、B幀了。當(dāng)運(yùn)動(dòng)變化多時(shí),可能一個(gè)序列就比較短了,比如就包含一個(gè)I幀和3、4個(gè)P幀。

I幀是關(guān)鍵幀,你可以理解為這一幀畫面的完整保留;P幀是前向預(yù)測編碼幀,表示的是這一幀跟之前的一個(gè)關(guān)鍵幀(或P幀)的差別;B幀是雙向預(yù)測內(nèi)插編碼幀,也就是B幀記錄的是本幀與前后幀的差別。一般直播場景下都會(huì)把B幀丟掉,以節(jié)省帶寬。

另外還有SPS(序列參數(shù)集)和PPS(圖像參數(shù)集)兩種類型的幀,其包含了初始化H.264解碼器所需要的信息參數(shù),包括編碼所用的profile,level,圖像的寬和高,deblock濾波器等,這兩類幀一種出現(xiàn)在H264文件前面;在直播場景下,一般會(huì)在I幀之前都發(fā)送這兩類幀,以便接收端能從中途判定流媒體的參數(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 硬件編碼相關(guān)知識(H264,H265) 閱讀人群:研究硬件編碼器應(yīng)用于iOS開發(fā)中,從0研究關(guān)于硬件編解碼,碼流中...
    小東邪啊閱讀 13,097評論 0 18
  • [TOC] 音視頻&流媒體 是什么促使我要寫這一篇音視頻入門文章?那是因?yàn)楹鸵幻米哟蛸€碼率的概念,結(jié)果輸了;對一個(gè)...
    AllenWu閱讀 5,169評論 1 24
  • 為什么要進(jìn)行編碼 因?yàn)槲唇?jīng)過編碼(壓縮)的視頻,具有極大的數(shù)據(jù)量,不利于存儲(chǔ),傳輸,實(shí)時(shí)應(yīng)用. 視頻編碼的原理 空...
    癡人會(huì)說夢閱讀 3,581評論 6 3
  • 為什么進(jìn)行壓縮編碼? 視頻是由一幀幀的圖像組成(見實(shí)例)比如一張Gif圖片其實(shí)就可以被分解成若干張單獨(dú)的圖片1.g...
    Tate_code閱讀 1,076評論 0 3
  • 視頻編碼介紹 為什么進(jìn)行壓縮編碼? 視頻是由一幀幀的圖像組成(見實(shí)例)比如一張Gif圖片其實(shí)就可以被分解成若干張單...
    coderwhy閱讀 2,553評論 3 15

友情鏈接更多精彩內(nèi)容