評測工具:
CompressAI
指標(biāo):
相同BPP下的,PSNR和MS-SSIM
PSNR
MS-SSIM
FPS:frame per second
BPP:bits per pixel
用神經(jīng)網(wǎng)絡(luò)做視頻壓縮(思路類似傳統(tǒng)Codec)
參考:https://github.com/Little-Podi/Learned_Compression
仍然包括傳統(tǒng)Codec中的各模塊,端到端地用神經(jīng)網(wǎng)絡(luò)來做或是混合方案
| 方法 | 主要單位 | 來源 | 論文 | 代碼 | 性能指標(biāo) | -- |
|---|---|---|---|---|---|---|
| DVC | 上海交大 | CVPR'19 | paper | 【tf code】 【torch code】 | 相同BPP下,PSNR優(yōu)于H.264;BPP>0.1時MS-SSIM接近H.265 | 首個端到端的深度學(xué)習(xí)視頻壓縮框架,在深度學(xué)習(xí)視頻壓縮領(lǐng)域常被視為基準(zhǔn)算法。所有關(guān)鍵組件,即運(yùn)動估計(jì)、運(yùn)動補(bǔ)償、殘差壓縮、運(yùn)動壓縮、量化和碼率估計(jì),都是通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)并聯(lián)合優(yōu)化的。ref |
| FVC | 北航,北理工 | CVPR'21 | paper | 特征空間視頻編碼(FVC)網(wǎng)絡(luò),可以通過在特征空間中執(zhí)行所有的主要操作(即運(yùn)動估計(jì)、運(yùn)動壓縮、運(yùn)動補(bǔ)償和殘差壓縮)ref | ||
| DCVC | 微軟 | NIPS'21 | paper | 【code】 | 相同BPP下,PSNR優(yōu)于H.265 | |
| DCVC-HEM | 微軟 | MM'22 | paper | 【code】 | 最高壓縮率設(shè)置下,PSNR和MS-SSIM優(yōu)于H.266 | |
| DCVC-TCM | 微軟 | Transactions on Multimedia, 2022 | paper | 【code】 | ||
| DCVC-DC | 微軟 | MM'22 | paper | 【code】 | 基于DCVC-HEM,挖掘上下文。 | 基于DCVC-HEM,挖掘上下文。 |
| Distributed DVC | 港科大 | ICME'23 | paper | 【code】 | ||
| MIMT | 騰訊 | ICLR'23 | paper |
?基于低維表示的視頻壓縮
關(guān)鍵詞:autoencoder, video compression
| 方法 | 主要單位 | 來源 | 論文 | 代碼 | 性能指標(biāo) | -- |
|---|---|---|---|---|---|---|
| Rate-Distortion Autoencoders | 高通 | ICCV'19 | paper | |||
| NVP | 韓國科學(xué)技術(shù)院 | NIPS'22 | paper | 【code】 |
?基于隱式表示的視頻壓縮
關(guān)鍵詞:implicit neural representation, codec
有點(diǎn)AIGC的意思
- 傳統(tǒng)的自編碼器中的latent representation和implicit representation的區(qū)別
- 自編碼器包括編碼器和解碼器,發(fā)送方用編碼器將輸入數(shù)據(jù)映射到低維latent representation,將低維表示發(fā)給接收方;接收方將低維表示輸入到decoder,還原出圖像。
- implicit representation將數(shù)據(jù)的信息存儲在神經(jīng)網(wǎng)絡(luò)的權(quán)重中,直接用神經(jīng)網(wǎng)絡(luò)表示數(shù)據(jù)。發(fā)送方將視頻壓縮為模型,發(fā)送模型;接收方用prompt(幀索引等)從模型中查詢出視頻圖像。
| 方法 | 主要單位 | 來源 | 論文 | 代碼 | 性能指標(biāo) | -- |
|---|---|---|---|---|---|---|
| NeRV | 馬里蘭大學(xué),Meta | NIPS'21 | paper | 【code】 | ||
| Implicit Neural Video Compression | 高通 | ICLR'22 | paper | |||
| NVP | 韓國科學(xué)技術(shù)院 | NIPS'22 | paper | 【code】 | ||
| HNeRV | 馬里蘭大學(xué),Meta | CVPR'23 | paper | 【code】 | PSNR相同時,解碼速度比H.264快 | |
| 優(yōu)化NeRV | 三星 | ICML'23 | paper | 同BPP下,超過NeRV | ||
| D-NeRV | 馬里蘭大學(xué),Meta | CVPR'23 | paper | 【code】 | 一個模型可以編碼多個視頻 |
視頻生成
關(guān)鍵詞:video generation
典型AIGC,但做Codec太困難(算力消耗極大,原生方案速度極慢)
| 方法 | 主要單位 | 來源 | 論文 | 代碼 | 性能指標(biāo) | -- |
|---|---|---|---|---|---|---|
| StyleGAN-V | KAUST, Snap | CVPR'22 | paper | 【code】 | ||
| PVDM | 韓國科學(xué)技術(shù)院,Google | CVPR'23 | paper | 【code】 | diffusion model | |
| Stable-video-diffusion | StabilityAI | 官網(wǎng) | paper | 【code】 | (960, 720)分辨率,顯存消耗60G;A100生成24幀大約需要1min。 | 可控性差。 |