Learned Video Compression & Video Generation

評測工具:
CompressAI
指標(biāo):
相同BPP下的,PSNR和MS-SSIM
PSNR
MS-SSIM
FPS:frame per second
BPP:bits per pixel

用神經(jīng)網(wǎng)絡(luò)做視頻壓縮(思路類似傳統(tǒng)Codec)

參考:https://github.com/Little-Podi/Learned_Compression
仍然包括傳統(tǒng)Codec中的各模塊,端到端地用神經(jīng)網(wǎng)絡(luò)來做或是混合方案

方法 主要單位 來源 論文 代碼 性能指標(biāo) --
DVC 上海交大 CVPR'19 paper 【tf code】 【torch code】 相同BPP下,PSNR優(yōu)于H.264;BPP>0.1時MS-SSIM接近H.265 首個端到端的深度學(xué)習(xí)視頻壓縮框架,在深度學(xué)習(xí)視頻壓縮領(lǐng)域常被視為基準(zhǔn)算法。所有關(guān)鍵組件,即運(yùn)動估計(jì)、運(yùn)動補(bǔ)償、殘差壓縮、運(yùn)動壓縮、量化和碼率估計(jì),都是通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)并聯(lián)合優(yōu)化的。ref
FVC 北航,北理工 CVPR'21 paper 特征空間視頻編碼(FVC)網(wǎng)絡(luò),可以通過在特征空間中執(zhí)行所有的主要操作(即運(yùn)動估計(jì)、運(yùn)動壓縮、運(yùn)動補(bǔ)償和殘差壓縮)ref
DCVC 微軟 NIPS'21 paper 【code】 相同BPP下,PSNR優(yōu)于H.265
DCVC-HEM 微軟 MM'22 paper 【code】 最高壓縮率設(shè)置下,PSNR和MS-SSIM優(yōu)于H.266
DCVC-TCM 微軟 Transactions on Multimedia, 2022 paper 【code】
DCVC-DC 微軟 MM'22 paper 【code】 基于DCVC-HEM,挖掘上下文。 基于DCVC-HEM,挖掘上下文。
Distributed DVC 港科大 ICME'23 paper 【code】
MIMT 騰訊 ICLR'23 paper

?基于低維表示的視頻壓縮

關(guān)鍵詞:autoencoder, video compression

方法 主要單位 來源 論文 代碼 性能指標(biāo) --
Rate-Distortion Autoencoders 高通 ICCV'19 paper
NVP 韓國科學(xué)技術(shù)院 NIPS'22 paper 【code】

?基于隱式表示的視頻壓縮

關(guān)鍵詞:implicit neural representation, codec
有點(diǎn)AIGC的意思

  • 傳統(tǒng)的自編碼器中的latent representation和implicit representation的區(qū)別
    • 自編碼器包括編碼器和解碼器,發(fā)送方用編碼器將輸入數(shù)據(jù)映射到低維latent representation,將低維表示發(fā)給接收方;接收方將低維表示輸入到decoder,還原出圖像。
    • implicit representation將數(shù)據(jù)的信息存儲在神經(jīng)網(wǎng)絡(luò)的權(quán)重中,直接用神經(jīng)網(wǎng)絡(luò)表示數(shù)據(jù)。發(fā)送方將視頻壓縮為模型,發(fā)送模型;接收方用prompt(幀索引等)從模型中查詢出視頻圖像。
方法 主要單位 來源 論文 代碼 性能指標(biāo) --
NeRV 馬里蘭大學(xué),Meta NIPS'21 paper 【code】
Implicit Neural Video Compression 高通 ICLR'22 paper
NVP 韓國科學(xué)技術(shù)院 NIPS'22 paper 【code】
HNeRV 馬里蘭大學(xué),Meta CVPR'23 paper 【code】 PSNR相同時,解碼速度比H.264快
優(yōu)化NeRV 三星 ICML'23 paper 同BPP下,超過NeRV
D-NeRV 馬里蘭大學(xué),Meta CVPR'23 paper 【code】 一個模型可以編碼多個視頻

視頻生成

關(guān)鍵詞:video generation
典型AIGC,但做Codec太困難(算力消耗極大,原生方案速度極慢)

方法 主要單位 來源 論文 代碼 性能指標(biāo) --
StyleGAN-V KAUST, Snap CVPR'22 paper 【code】
PVDM 韓國科學(xué)技術(shù)院,Google CVPR'23 paper 【code】 diffusion model
Stable-video-diffusion StabilityAI 官網(wǎng) paper 【code】 (960, 720)分辨率,顯存消耗60G;A100生成24幀大約需要1min。 可控性差。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容