LiveVideoStackCon2018干貨分享(二)————編碼篇之AVS3

接上篇編碼篇之AV1

1.2 AVS3

這篇講稿的演講者是國內(nèi)視頻編碼權(quán)威馬思偉老師,但是沒有分享其PPT,所以本節(jié)全部是現(xiàn)場照片。

首先列出了視頻編碼標(biāo)準(zhǔn)發(fā)展歷程的timeline,VVC、AV1、AVS3齊頭并進(jìn)。

作者把AVS2、H.265都劃分到了第三代視頻編碼標(biāo)準(zhǔn)中,把AVS3、VVC劃分成新一代視頻編碼中,代際之間比特率減少50%。

這頁P(yáng)PT很有觀點(diǎn),視頻編碼目標(biāo)不再單一的追求極致的壓縮算法,而是多維度視頻發(fā)展方向。幀率被稱為時(shí)間分辨率,MVC被稱為視點(diǎn)數(shù),全景被稱為視場范圍,比特位數(shù)稱為采樣精度,色彩空間稱為色域,此外還在模型數(shù)據(jù)維度中提到了點(diǎn)云,為真實(shí)視頻與虛擬圖像的融合提供了參考。

視頻編碼貢獻(xiàn)者經(jīng)歷了從二十年前的高校主導(dǎo),再到十年前的企業(yè)主導(dǎo),再到現(xiàn)在互聯(lián)網(wǎng)公司主導(dǎo)的變遷。VVC都有字節(jié)跳動(dòng)的身影了,資本的力量推動(dòng)著技術(shù)的發(fā)展啊。

VTM是VVC官方參考代碼,由這頁P(yáng)PT可以看出為性能增益提高最多的技術(shù)是宏塊的劃分方式(8%)和環(huán)路濾波(4.99%),至于量化、仿射、變換、自適應(yīng)MV精度也各自貢獻(xiàn)了1~3%的性能增益。從編碼耗時(shí)角度來說,宏塊劃分和變換最為耗時(shí);從解碼耗時(shí)角度來說,自適應(yīng)濾波和仿射變換最為耗時(shí)。這能給算法優(yōu)化工程師一個(gè)優(yōu)化優(yōu)先級(jí)的參考。

先從VVC技術(shù)講起,VVC中的很多提案都是基于深度學(xué)習(xí)來做的,提案的貢獻(xiàn)者包括中國高校、高通、聯(lián)發(fā)科、HHI,主要是用CNN來輔助模式劃分決策。AV1、AVS3(下文將會(huì)介紹)亦是如此。

神經(jīng)網(wǎng)絡(luò)應(yīng)用在幀內(nèi)預(yù)測上,僅三個(gè)隱藏層全連接。

這頁P(yáng)PT是技術(shù)亮點(diǎn),QTBT的總深度是QT深度x2+BT深度(前兩層是四叉樹,第三層是二叉樹),QTBT劃分的選擇是比較耗費(fèi)時(shí)間的,因?yàn)槊糠N模式都要計(jì)算一下最終的碼率與失真,才能選出最優(yōu)的模式,用CNN可以輔助快速實(shí)現(xiàn)這一過程。

深度學(xué)習(xí)預(yù)測的最大深度(編碼碼樹的深度不是神經(jīng)網(wǎng)絡(luò)的深度)為di,所有di為0,則實(shí)際深度depth<2四叉樹二叉樹繼續(xù)遞歸向下劃分;若有一個(gè)di不是0,則無限制的四叉樹二叉樹遞歸向下劃分;其他情況則只四叉樹劃分或不劃分。詳細(xì)過程還需要讀其論文才能搞懂。但測試結(jié)果BDrate(PSNR SSIM BD-rate BD-PSNR) 應(yīng)該是越小越好,這里不僅增加而且Proposed比JVET的還多,所以不太理解。此外delta ET和NetT也是很不清楚。

以上是北大在VVC的工作,以下是AVS,從AVS工作模式可見還是想設(shè)置專利壁壘,需要IPR部門實(shí)現(xiàn)技術(shù)變現(xiàn)。

比較重磅的結(jié)論,國家檢測機(jī)構(gòu)得出AVS2比源質(zhì)量下降2.9%,HEVC比源質(zhì)量下降3%,AVS2以0.1%勝出。

AVS2的開源實(shí)現(xiàn)cavs2和x264、x265在壓縮效率上(veryslow)和編碼效率上(superfast)的對(duì)比。

AVS3標(biāo)準(zhǔn)的目標(biāo):編碼效率提升一倍;應(yīng)用:8K、VR、流媒體;計(jì)劃:2019年v1,2021年v2。

針對(duì)運(yùn)動(dòng)的優(yōu)化思路:自適應(yīng)預(yù)測劃分和自適應(yīng)運(yùn)動(dòng)預(yù)測來解決塊運(yùn)動(dòng)不擅長的非平移問題,旋轉(zhuǎn)、縮放與不規(guī)則內(nèi)容。

塊劃分是基于多樹且非對(duì)稱的劃分。

衍生預(yù)測模式更加多變。

第一階段先實(shí)現(xiàn)一種EQT,和HEVC一樣,PU、TU必須與CU一致。

同AV1一樣有了仿射運(yùn)動(dòng)補(bǔ)償。

運(yùn)動(dòng)矢量精度不再一成不變,需要自適應(yīng)去調(diào)整精度。

算法原理并不復(fù)雜,近區(qū)域高精度,遠(yuǎn)區(qū)域低精度。

對(duì)矢量精度是可選擇的,比AV1還多1/4和4兩種選擇。

先建立仿射模型,再進(jìn)行推導(dǎo)實(shí)現(xiàn)補(bǔ)償。

運(yùn)動(dòng)矢量預(yù)測在時(shí)間空間上都需要更多參考候選。

HMVP大概類似于HEVC的AMVP,在預(yù)測中有更多的參考候選。

運(yùn)動(dòng)矢量修正方面在解碼端上不同廠商會(huì)有差異化體現(xiàn)(H.264時(shí)代不同解碼器的修正算法不同,同一碼流解碼出來的效果就有細(xì)致差異)。

在幀間預(yù)測上引入了知識(shí)圖像這一概念,就像是從序列中的隨機(jī)訪問點(diǎn)(RA)提煉出來的內(nèi)容,在時(shí)間上是大跨度預(yù)測編碼。

變換演進(jìn)歷程主要是更多變換基,如各種各樣的DST、DCT。

和AV1類似,AVS3行變換列變換組合一共4組,AV1較多是16種。

變換基(變換核)的選擇是取決于inter塊的尺寸、位置以及RDO決策的。

環(huán)路濾波的演進(jìn)歷程主要是更多方向、更高精度的自適應(yīng)環(huán)路濾波器(ALF)。

對(duì)于高質(zhì)量圖像重建需要組合濾波,類似的塊可進(jìn)行相似濾波

這是除了宏塊劃分決策的第二個(gè)智能,即智能編碼,通過CNN網(wǎng)絡(luò)從重建殘差和待濾波的重建像素值中訓(xùn)練處最終濾波后的像素值,不清楚訓(xùn)練集會(huì)是什么樣。

AVS3的代碼實(shí)現(xiàn)可看出比AVS2在BDPSNR上有很大的提升(BDR-Y/U/V與BD-PSNR應(yīng)該是相反的嗎?后者是正值且越大越好,前文BDRate也有類似疑問)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容