評測工具：
CompressAI
指標(biāo)：
相同BPP下的，PSNR和MS-SSIM
PSNR
MS-SSIM
FPS：frame per second
BPP：bits per pixel

用神經(jīng)網(wǎng)絡(luò)做視頻壓縮（思路類似傳統(tǒng)Codec）

參考：https://github.com/Little-Podi/Learned_Compression
仍然包括傳統(tǒng)Codec中的各模塊，端到端地用神經(jīng)網(wǎng)絡(luò)來做或是混合方案

方法	主要單位	來源	論文	代碼	性能指標(biāo)	--
DVC	上海交大	CVPR'19	paper	【tf code】【torch code】	相同BPP下，PSNR優(yōu)于H.264；BPP>0.1時(shí)MS-SSIM接近H.265	首個(gè)端到端的深度學(xué)習(xí)視頻壓縮框架，在深度學(xué)習(xí)視頻壓縮領(lǐng)域常被視為基準(zhǔn)算法。所有關(guān)鍵組件，即運(yùn)動估計(jì)、運(yùn)動補(bǔ)償、殘差壓縮、運(yùn)動壓縮、量化和碼率估計(jì)，都是通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)并聯(lián)合優(yōu)化的。ref
FVC	北航，北理工	CVPR'21	paper			特征空間視頻編碼（FVC）網(wǎng)絡(luò)，可以通過在特征空間中執(zhí)行所有的主要操作（即運(yùn)動估計(jì)、運(yùn)動壓縮、運(yùn)動補(bǔ)償和殘差壓縮）ref
DCVC	微軟	NIPS'21	paper	【code】	相同BPP下，PSNR優(yōu)于H.265
DCVC-HEM	微軟	MM'22	paper	【code】	最高壓縮率設(shè)置下，PSNR和MS-SSIM優(yōu)于H.266
DCVC-TCM	微軟	Transactions on Multimedia, 2022	paper	【code】
DCVC-DC	微軟	MM'22	paper	【code】	基于DCVC-HEM，挖掘上下文。	基于DCVC-HEM，挖掘上下文。
Distributed DVC	港科大	ICME'23	paper	【code】
MIMT	騰訊	ICLR'23	paper

?基于低維表示的視頻壓縮

關(guān)鍵詞：autoencoder, video compression

方法	主要單位	來源	論文	代碼	性能指標(biāo)	--
Rate-Distortion Autoencoders	高通	ICCV'19	paper
NVP	韓國科學(xué)技術(shù)院	NIPS'22	paper	【code】

關(guān)鍵詞：implicit neural representation, codec
有點(diǎn)AIGC的意思

傳統(tǒng)的自編碼器中的latent representation和implicit representation的區(qū)別
- 自編碼器包括編碼器和解碼器，發(fā)送方用編碼器將輸入數(shù)據(jù)映射到低維latent representation，將低維表示發(fā)給接收方；接收方將低維表示輸入到decoder，還原出圖像。
- implicit representation將數(shù)據(jù)的信息存儲在神經(jīng)網(wǎng)絡(luò)的權(quán)重中，直接用神經(jīng)網(wǎng)絡(luò)表示數(shù)據(jù)。發(fā)送方將視頻壓縮為模型，發(fā)送模型；接收方用prompt（幀索引等）從模型中查詢出視頻圖像。

方法	主要單位	來源	論文	代碼	性能指標(biāo)	--
NeRV	馬里蘭大學(xué)，Meta	NIPS'21	paper	【code】
Implicit Neural Video Compression	高通	ICLR'22	paper
NVP	韓國科學(xué)技術(shù)院	NIPS'22	paper	【code】
HNeRV	馬里蘭大學(xué)，Meta	CVPR'23	paper	【code】	PSNR相同時(shí)，解碼速度比H.264快
優(yōu)化NeRV	三星	ICML'23	paper		同BPP下，超過NeRV
D-NeRV	馬里蘭大學(xué)，Meta	CVPR'23	paper	【code】		一個(gè)模型可以編碼多個(gè)視頻

關(guān)鍵詞：video generation
典型AIGC，但做Codec太困難（算力消耗極大，原生方案速度極慢）

方法	主要單位	來源	論文	代碼	性能指標(biāo)	--
StyleGAN-V	KAUST, Snap	CVPR'22	paper	【code】
PVDM	韓國科學(xué)技術(shù)院，Google	CVPR'23	paper	【code】		diffusion model
Stable-video-diffusion	StabilityAI	官網(wǎng)	paper	【code】	(960, 720)分辨率，顯存消耗60G；A100生成24幀大約需要1min。	可控性差。