PVNC 論文閱讀

論文地址:https://arxiv.org/pdf/2409.00953
代碼地址:https://github.com/ge1-gao/PNVC

摘要

近年來(lái),神經(jīng)視頻壓縮在率失真性能方面展現(xiàn)出與傳統(tǒng)視頻編解碼器可競(jìng)爭(zhēng)的巨大潛力。然而,這些基于學(xué)習(xí)的視頻編解碼器存在各種問(wèn)題,例如解碼復(fù)雜度(基于自編碼器的方法)和/或系統(tǒng)延遲(基于隱式神經(jīng)表示(INR)的模型),這些問(wèn)題目前阻礙了它們?cè)趯?shí)際應(yīng)用中的部署。本文旨在開(kāi)發(fā)一種實(shí)用的神經(jīng)視頻編解碼器,提出了一種新穎的基于 INR 的編碼框架 PNVC,該框架創(chuàng)新性地結(jié)合了基于自編碼器和過(guò)擬合的解決方案。我們的方法受益于多項(xiàng)設(shè)計(jì)創(chuàng)新,包括新的基于結(jié)構(gòu)重參數(shù)化的架構(gòu)、分層質(zhì)量控制、基于調(diào)制的熵建模和尺度感知位置嵌入。PNVC支持低延遲(LD)和隨機(jī)訪問(wèn)(RA)配置,性能優(yōu)于現(xiàn)有的基于 INR 的編解碼器,與 HEVC HM 18.0(LD)相比,BD-rate 節(jié)省了近35%以上——比最先進(jìn)的基于 INR 的編解碼器之一 HiNeRV 高出近10%,比 VTM 20.0(LD)高出5%,同時(shí)保持1080p內(nèi)容的解碼速度超過(guò)20幀/秒。這代表了基于 INR 的視頻編碼向前邁出了重要一步,使其更接近實(shí)際應(yīng)用。

引言

神經(jīng)視頻壓縮技術(shù)與 H.265/HEVC 和 H.266/VVC 等標(biāo)準(zhǔn)化視頻編解碼器不同,這些標(biāo)準(zhǔn)編解碼器采用傳統(tǒng)架構(gòu)的演進(jìn)版本,性能表現(xiàn)出色;而神經(jīng)視頻壓縮技術(shù)則受益于更快的開(kāi)發(fā)周期和優(yōu)化的數(shù)據(jù)驅(qū)動(dòng)端到端架構(gòu),性能指標(biāo)正在快速提升。該研究領(lǐng)域的進(jìn)展已經(jīng)涌現(xiàn)出各種各樣的候選神經(jīng)視頻編解碼器,其中一些論文報(bào)道其率失真性能可以媲美甚至超越最新的最先進(jìn)標(biāo)準(zhǔn)編碼方法。
盡管在編碼增益方面前景廣闊,但神經(jīng)視頻編解碼器(主要是那些使用基于自編碼器骨干網(wǎng)絡(luò)的編解碼器)存在顯著的復(fù)雜性問(wèn)題,尤其是在解碼端,這使得它們資源密集且不適用于許多實(shí)際應(yīng)用。雖然常見(jiàn)的復(fù)雜度降低技術(shù),例如剪枝和量化可以緩解這些限制,但這通常會(huì)導(dǎo)致編碼效率的顯著降低。
最近,基于隱式神經(jīng)表示(INR)的編碼方法作為一種實(shí)現(xiàn)高編碼性能和低(解碼)復(fù)雜度的范式轉(zhuǎn)變解決方案,越來(lái)越受到關(guān)注。這種方法通常利用輕量級(jí)神經(jīng)網(wǎng)絡(luò),通過(guò)將坐標(biāo)直接映射到像素值來(lái)對(duì)輸入視頻數(shù)據(jù)進(jìn)行過(guò)擬合。盡管最新的基于 INR 的編解碼器在許多傳統(tǒng)和神經(jīng)視頻編解碼器上都顯示出持續(xù)的編碼增益,但它們存在一個(gè)主要局限性,即其壓縮策略是使用單一的整體模型來(lái)表示整個(gè)視頻序列或數(shù)據(jù)集。雖然這種方法可以最大限度地提高壓縮效率,但它需要在每個(gè)編碼會(huì)話中處理大量的視頻幀(例如,幾百到幾千幀),這與常用的編碼配置相沖突,因?yàn)檫@些配置通常需要靈活的系統(tǒng)延遲,例如 VVC VTM 中的低延遲和隨機(jī)訪問(wèn)模式。這個(gè)問(wèn)題使得基于隱式神經(jīng)表示的視頻編解碼器在處理較短序列時(shí)性能不佳,也阻礙了它們?cè)谠S多實(shí)際應(yīng)用中的應(yīng)用。
本文提出了一種名為 PNVC 的新型(實(shí)用)基于隱式神經(jīng)表示(INR)的視頻壓縮框架,旨在解決上述局限性,該框架能夠?qū)崿F(xiàn)靈活的編碼配置(低延遲),同時(shí)仍能獲得具有競(jìng)爭(zhēng)力的編碼性能和較低的編碼/解碼復(fù)雜度。所提出的 PNVC 基于分層骨干網(wǎng)絡(luò)構(gòu)建,該網(wǎng)絡(luò)泛化了自回歸模型,并且可以與基于內(nèi)容或基于調(diào)制的 INR 模型無(wú)縫互換。我們的方法利用了預(yù)訓(xùn)練-再過(guò)擬合策略,使模型能夠在預(yù)訓(xùn)練階段泛化到不同的內(nèi)容,同時(shí)在過(guò)擬合階段適應(yīng)特定輸入的內(nèi)容。此外,我們還開(kāi)發(fā)了一種新的重參數(shù)化方法,以及其他架構(gòu)和優(yōu)化方面的創(chuàng)新,該方法允許在訓(xùn)練期間使用不受限制的模型容量,同時(shí)確保低復(fù)雜度的推理。這種解耦使得更有效的優(yōu)化成為可能,而不會(huì)犧牲部署效率。本文的主要貢獻(xiàn)總結(jié)如下:

  1. 我們提出了一種基于隱式神經(jīng)表示(INR)的新型視頻編碼模型,該模型集成了基于自編碼器和過(guò)擬合的解決方案,具有極具競(jìng)爭(zhēng)力的編碼性能、相對(duì)較低的編碼和解碼復(fù)雜度以及靈活的編碼延遲配置。
  2. 我們?cè)O(shè)計(jì)了一種基于重參數(shù)化的新型方案(ModMixer),用于充分預(yù)訓(xùn)練和過(guò)擬合輕量級(jí)骨干網(wǎng)絡(luò),使其具有更強(qiáng)的建模能力和更多樣化的優(yōu)化方向,且無(wú)需額外的推理成本。
  3. 我們進(jìn)一步引入了幾項(xiàng)改進(jìn),包括分層質(zhì)量參數(shù)、基于調(diào)制的非對(duì)稱上下文分組分層熵模型以及尺度感知分層位置編碼,以增強(qiáng)壓縮性能。

本文提出的 PNVC 模型在低延遲和隨機(jī)訪問(wèn)配置(如許多視頻編碼標(biāo)準(zhǔn)中所定義)下均展現(xiàn)出極具競(jìng)爭(zhēng)力的率失真性能,同時(shí)避免了現(xiàn)有基于隱式神經(jīng)表示(INR)的視頻編解碼器所面臨的延遲和編碼復(fù)雜度問(wèn)題。具體而言,在 UVG 和 MCL-JCV 數(shù)據(jù)集上,本文提出的模型在 PSNR 和 MS-SSIM 指標(biāo)下,其 BD-rate 性能均顯著優(yōu)于 VTM 20.0 (LD) 和 HiNeRV。與現(xiàn)有的基于 INR 的視頻編碼器相比,該模型還具有更低的編碼延遲(系統(tǒng)延遲),并且比基于自編碼器的神經(jīng)視頻編碼模型具有更快的解碼速度。

現(xiàn)有工作不足

視頻壓縮

最近基于學(xué)習(xí)的視頻壓縮方法,盡管編碼性能具有競(jìng)爭(zhēng)力,但高計(jì)算復(fù)雜度(尤其是在解碼器端)限制了其實(shí)際應(yīng)用,而結(jié)構(gòu)化剪枝方法只能在性能顯著下降的情況下實(shí)現(xiàn)有限的復(fù)雜度降低。

隱式神經(jīng)表示

INR 學(xué)習(xí)基于坐標(biāo)的映射函數(shù),并將數(shù)據(jù)編碼到網(wǎng)絡(luò)參數(shù)中。現(xiàn)有的隱式神經(jīng)視頻表示(NeRV)模型可以分為兩類:i)基于索引的方法,以幀、圖像塊或解耦的空間/網(wǎng)格坐標(biāo)作為輸入;ii)基于內(nèi)容的方法,以特定于內(nèi)容的嵌入作為輸入。在這些情況下,視頻編碼任務(wù)被重新表述為模型壓縮問(wèn)題,利用剪枝、量化和熵約束優(yōu)化等技術(shù)。然而,在整個(gè)視頻序列或數(shù)據(jù)集上訓(xùn)練 NeRV 模型會(huì)導(dǎo)致較高的系統(tǒng)延遲,使其不適用于需要快速響應(yīng)的應(yīng)用,并且導(dǎo)致與延遲受限的編解碼器進(jìn)行比較時(shí)缺乏意義。

方法

概述

PNVC Framework.png

在提出的 PNVC 框架中,每個(gè)視頻序列被分割成長(zhǎng)度為 N 的圖像組(GOP),并獨(dú)立編碼。在每個(gè) GOP 中,幀要么被編碼為 I 幀,要么被編碼為 P/B 幀,以利用視頻中的空間和/或時(shí)間冗余。每個(gè) I 幀由編碼器 E 編碼成 L 個(gè)潛在標(biāo)記網(wǎng)格。對(duì)于每個(gè)級(jí)別,潛在標(biāo)記由縮放和偏移參數(shù)組成,并沿通道方向連接。
本文采用熵模型來(lái)沿空間、通道和層次坐標(biāo)軸以半自回歸方式估計(jì)分層潛在變量的概率質(zhì)量函數(shù)(PMF)。熵模型的參數(shù)在每個(gè)級(jí)別更新。比特流中包含分別對(duì)應(yīng)于潛在變量和權(quán)重更新的逆量化參數(shù)。這些分量針對(duì)輸入視頻幀進(jìn)行過(guò)擬合,然后進(jìn)行熵編碼,并組合成比特流。
在解碼器端,熵模型由從比特流解碼得到的預(yù)訓(xùn)練參數(shù)進(jìn)行更新。該模型用于輔助對(duì)分層潛在網(wǎng)格進(jìn)行熵解碼,然后通過(guò)反量化生成潛在表示。這些反量化后的潛在表示基于 HiNeRV 中提出的改進(jìn)的尺度感知分層分解方案進(jìn)行位置嵌入,從而可以通過(guò)時(shí)空坐標(biāo)查詢特定于內(nèi)容的變化。這里采用基于塊的表示方法,其中最小的潛在表示的每個(gè)元素對(duì)應(yīng)于原始幀的一個(gè)圖像塊?;?INR 的解碼器 D 將圖像塊級(jí)別的神經(jīng)場(chǎng)定義為 3D 坐標(biāo)的函數(shù)。它使用L個(gè)堆疊的 ModMixer 塊進(jìn)行漸進(jìn)式條件映射,其中映射的輸入是I幀的學(xué)習(xí)偏差以及 P/B 幀的參考圖像塊,輸出是重建幀的圖像塊。每個(gè)塊的中間激活值由相應(yīng)的潛在網(wǎng)格進(jìn)行調(diào)制。
每個(gè) P 幀或 B 幀的編碼流程與 I 幀類似,但額外增加了一個(gè)運(yùn)動(dòng)編碼器 Em。利用解碼幀緩沖區(qū)中最多兩個(gè)先前重建的幀(它們可以是 I 幀或 P/B 幀)以及當(dāng)前幀,多分辨率潛在網(wǎng)格由 E 生成,但每一層都以從 Em 提取的運(yùn)動(dòng)信息為條件。此外,熵模型還將解碼的參考潛在標(biāo)記以及來(lái)自更高層的重建潛在標(biāo)記作為輸入,以進(jìn)一步利用時(shí)空和層次冗余。

編碼器

本文采用 ELIC 模型作為圖像編碼器 E,將 I/P/B 幀映射到潛在表示。對(duì)于 P/B 幀,編碼器 E 通過(guò)連接運(yùn)動(dòng)編碼器 Em(改編自 SpyNet )提取的分層光流特征進(jìn)行重新調(diào)整,以融入估計(jì)的運(yùn)動(dòng)信息。E 和 Em 都經(jīng)過(guò)過(guò)擬合訓(xùn)練,以生成內(nèi)容自適應(yīng)的分層潛在表示。下一幀的過(guò)擬合訓(xùn)練以當(dāng)前幀更新后的網(wǎng)絡(luò)參數(shù)為初始值,以進(jìn)一步加快編碼過(guò)程。

量化

量化模塊采用分層質(zhì)量結(jié)構(gòu),其中根據(jù)每一幀與參考幀的距離和特定的視頻動(dòng)態(tài)特性,自適應(yīng)地重新加權(quán)允許的比特率。該參數(shù)稱為質(zhì)量參數(shù),由一個(gè)基于每個(gè) token 對(duì) GOP 級(jí)率失真權(quán)衡的估計(jì)影響的 ConvLSTM 模塊生成。該模塊在預(yù)訓(xùn)練后固定,以防止逐幀過(guò)擬合過(guò)程破壞已獲得的分層質(zhì)量結(jié)構(gòu)。對(duì)于量化,使用另一組更細(xì)粒度的通道級(jí)質(zhì)量參數(shù)。對(duì)于反量化,檢索相應(yīng)的參數(shù)并將其編碼到比特流中作為輔助信息。我們?cè)趦煞N情況下都避免使用除法,以避免數(shù)值不穩(wěn)定。標(biāo)量量化參數(shù)的更新遵循類似的過(guò)程。

熵編碼

離散化的分層潛在變量基于算術(shù)編碼進(jìn)行熵編碼。其中,概率質(zhì)量函數(shù)(PMF)由高斯分布估計(jì),每個(gè)元素的位置和尺度參數(shù)由熵網(wǎng)絡(luò)基于該元素的空間、時(shí)間和分層上下文進(jìn)行半自回歸預(yù)測(cè)。我們使用基于四叉樹(shù)的分解方法對(duì)潛在表示進(jìn)行編碼,但進(jìn)行了兩處修改。首先,我們將縮放和偏移參數(shù)的通道(它們并行進(jìn)行熵編碼)分別分成四個(gè)不均勻的組,大小比例為 1、1、2 和 4,即由于可用的上下文更多,每個(gè)解碼步驟解碼的符號(hào)數(shù)量增加了一倍。此外,我們將所有用于聚合信息的拼接操作替換為逐元素調(diào)制,我們經(jīng)驗(yàn)發(fā)現(xiàn)這種方法在信息聚合方面效率更高,并且我們部署了一個(gè)新的 ModMixer 模塊來(lái)構(gòu)建和優(yōu)化熵模型。對(duì)于熵模型的更新,我們部署了一個(gè)完全分解的非參數(shù)密度模型 π。

ModMixer

ModMixer Architecture.png

為了在不增加額外推理成本的情況下提升模型性能,我們?cè)O(shè)計(jì)了一種新穎的 ModMixer 模塊,并將其作為我們熵模型和解碼器的基本構(gòu)建塊。這種方法受到重參數(shù)化方法的啟發(fā),利用線性架構(gòu)之間的相互轉(zhuǎn)換,以訓(xùn)練時(shí)間復(fù)雜度換取推理時(shí)間效率。不失一般性,我們將任意線性層(卷積層或全連接層)Wh + b 定義為從以下通用公式代數(shù)收縮而來(lái):
詳細(xì)公式見(jiàn)原論文公式 2
與標(biāo)準(zhǔn)重參數(shù)化方法相比,該公式建立了一種更通用的視覺(jué)調(diào)整方案,更適合實(shí)例自適應(yīng)視頻壓縮的場(chǎng)景。由于仿射變換應(yīng)用于權(quán)重和偏置項(xiàng),因此它是一個(gè)包含權(quán)重和特征空間調(diào)整的超集,其中混合值可以根據(jù)需要靈活地重新轉(zhuǎn)換為特征調(diào)制(如在解碼器中)、權(quán)重更新(如在熵模型中)或任何其他形式的視覺(jué)調(diào)整。
在我們的方法中,為了利用上述重參數(shù)化思想并改進(jìn)基于INR方法中常用的全連接層(FC),我們?cè)O(shè)計(jì)了一種新的基本構(gòu)建模塊——ModMixer。每個(gè)FC層通過(guò)串行和并行的方式進(jìn)行重參數(shù)化,具體做法是使用堆疊的線性層,每個(gè)分支(每個(gè)通道組一個(gè))具有不同的深度,以有效地捕獲分層表示。此外,在FC層之前添加了一個(gè)自注意力機(jī)制風(fēng)格的token混合器,以引入推理時(shí)的空間混合。在預(yù)訓(xùn)練階段,token混合器會(huì)逐漸退化并被實(shí)例歸一化和后續(xù)的FC層吸收。具體實(shí)現(xiàn)方式是初始化一個(gè)掩碼 M 為1,并使其逐漸衰減到0:M ⊙ TokenMixer(h) + (1 ? M) ⊙ h + h。
掩碼衰減策略的靈感來(lái)源于 MSRA-EVC,這些方法利用表達(dá)能力更強(qiáng)的教師模型來(lái)指導(dǎo)較小的學(xué)生模型。在過(guò)擬合階段,我們針對(duì)預(yù)訓(xùn)練的混合權(quán)重和基函數(shù)優(yōu)化殘差更新,然后將這些更新整合到熵模型的權(quán)重更新中,或?qū)⑵淙谌虢獯a器的分層潛在網(wǎng)格中。

解碼器

解碼器 D 對(duì)基于網(wǎng)格的位置編碼進(jìn)行操作,逐步恢復(fù)空間信息,同時(shí)將高頻細(xì)節(jié)疊加到低頻元素上。我們沿用了高性能 HiNeRV 提出的分層編碼方法,該方法可以被概念化為以 2 的冪為基數(shù)的位值計(jì)數(shù)制。這種方法將每個(gè)坐標(biāo)表示為一個(gè)有序的數(shù)字集合,每個(gè)數(shù)字對(duì)應(yīng)一個(gè)層級(jí),該層級(jí)遞歸地編碼更粗粒度表示級(jí)別的殘差。具體來(lái)說(shuō),這種分層坐標(biāo)系將全局坐標(biāo) pos 分解為多個(gè)更精細(xì)的細(xì)節(jié)層級(jí)。在每個(gè)層級(jí),用于插值的局部坐標(biāo)計(jì)算如下:
詳細(xì)公式見(jiàn)原論文公式 3
我們對(duì)原始策略進(jìn)行了一項(xiàng)簡(jiǎn)單的改進(jìn),以應(yīng)對(duì)推理時(shí)補(bǔ)丁尺寸相對(duì)于模型預(yù)訓(xùn)練時(shí)尺寸的增加。分辨率的顯著提高(用 k 表示)可能會(huì)導(dǎo)致更多的微調(diào)工作。保持原始網(wǎng)格間距會(huì)導(dǎo)致整體網(wǎng)格數(shù)量增加,這可能會(huì)使分層模式的捕獲變得復(fù)雜,并增加內(nèi)存和計(jì)算需求。為了解決這個(gè)問(wèn)題,我們建議根據(jù)比例(k)對(duì)基函數(shù)進(jìn)行非線性混合和重新縮放。L 層的局部坐標(biāo)重新計(jì)算如下:
詳細(xì)公式見(jiàn)原論文公式 4
解決此約束條件可得到一組在對(duì)數(shù)尺度上均勻分布的參數(shù),詳見(jiàn)補(bǔ)充材料。上述公式的本質(zhì)是將插值壓力分配到不同的層級(jí)結(jié)構(gòu)中。低頻信號(hào)通常對(duì)分辨率變化不太敏感,因此可以承受更大的縮放而不會(huì)造成顯著的信息損失(低分辨率下網(wǎng)格劃分更稀疏)。另一方面,高頻信號(hào)則需要更謹(jǐn)慎地保留,避免過(guò)度縮放?;谏鲜龉?,解碼器的第L層由下式給出:
詳細(xì)公式見(jiàn)原論文

優(yōu)化策略

完整模型首先基于靜態(tài)訓(xùn)練數(shù)據(jù)進(jìn)行離線預(yù)訓(xùn)練,然后在推理階段進(jìn)行過(guò)擬合,以適應(yīng)待壓縮的輸入視頻序列??紤]到預(yù)訓(xùn)練參數(shù),即編碼器和解碼器之間共享的“元初始化”參數(shù),相對(duì)于該元初始化的迭代優(yōu)化參數(shù)更新與相關(guān)的輔助信息一起進(jìn)行量化,然后進(jìn)行熵編碼生成比特流。我們遵循 DCVC-DC 的方法,對(duì)多個(gè)幀的損失進(jìn)行聚合,以減少誤差傳播并建立分層質(zhì)量結(jié)構(gòu)。預(yù)訓(xùn)練過(guò)程涉及最小化每個(gè) GoP(圖像組)內(nèi)的以下率失真損失:
詳細(xì)公式見(jiàn)原論文公式 5
參照 C3 和 Cool-Chic Video,在計(jì)算 R 時(shí),分層潛在變量的量化和權(quán)重更新通過(guò)逐步退火的軟舍入并添加噪聲進(jìn)行近似;而在對(duì)它們進(jìn)行舍入以優(yōu)化失真度量時(shí),則使用直通估計(jì)器(STE)。此處使用均方誤差(MSE)作為失真度量,目標(biāo)是獲得最佳的峰值信噪比(PSNR)性能,同時(shí)使用 200 · ( 1 ? MS-SSIM(xt, x?t)) 作為失真度量對(duì) MSE 模型進(jìn)行微調(diào),訓(xùn)練額外的模型,以獲得基于 MS-SSIM 的基線。在逐幀過(guò)擬合過(guò)程中,編碼過(guò)程包括尋找分層潛在變量、網(wǎng)絡(luò)參數(shù)和量化參數(shù)的最佳值:
詳細(xì)公式見(jiàn)原論文公式 6
詳細(xì)的超參數(shù)配置信息可在補(bǔ)充材料中找到。

實(shí)驗(yàn)

訓(xùn)練集:Vimeo-90k
測(cè)試集:UVG,MCL-JCV
Baseline:
1.傳統(tǒng)編碼,HM-18.0,VTM-20.0;
2.深度編碼,VCT,DCVC-HEM,DCVC-DC;
3.隱式編碼,F(xiàn)FNeRV,HNeRV-Boost,C3,HiNeRV
測(cè)試條件:
1.LD:每個(gè)序列中只有一個(gè)幀內(nèi)編碼幀(即第一個(gè)幀),后續(xù)的 P 幀僅依賴于之前的幀進(jìn)行運(yùn)動(dòng)預(yù)測(cè)(即 GOP=1),這與 JVET CTC 中定義的一致。
2.RA:每個(gè) GOP 包含一個(gè)幀內(nèi)編碼幀和 31 個(gè) B/P 幀,最大延遲為 31 幀(即 GOP 長(zhǎng)度為 32),幀內(nèi)編碼周期為 32。這里的 RA 配置采用與 JVET CTC 規(guī)范中相同的分層 B 幀結(jié)構(gòu)。
注:這些配置不適用于其他基于INR的基準(zhǔn)測(cè)試,這些基準(zhǔn)測(cè)試會(huì)對(duì)整個(gè)序列或數(shù)據(jù)集進(jìn)行編碼。
評(píng)價(jià)指標(biāo):PSNR,MS-SSIM,模型參數(shù)量,解碼復(fù)雜度(MACs/pixel),F(xiàn)PS(Enc&Dec)
實(shí)驗(yàn)結(jié)果:詳見(jiàn)原論文。

結(jié)論

我們提出了一種基于隱式神經(jīng)表示(INR)的視頻編碼框架 PNVC,它 1)將基于自編碼器的壓縮方法與基于坐標(biāo)的隱式過(guò)擬合相結(jié)合,2)集成了離線預(yù)訓(xùn)練和在線過(guò)擬合。PNVC 支持低延遲和隨機(jī)訪問(wèn)編碼模式,并以快速的解碼速度實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的速率-失真-復(fù)雜度性能。通過(guò)包括重參數(shù)化視覺(jué)調(diào)諧、分層質(zhì)量參數(shù)、基于調(diào)制的非對(duì)稱通道劃分熵建模以及尺度自適應(yīng)分層網(wǎng)格劃分等創(chuàng)新技術(shù),PNVC 的性能優(yōu)于 VTM 20.0 (LD) 和 HiNeRV,在壓縮效率方面與 DCVC-DC 相當(dāng),并保持了低于 20 萬(wàn) MAC/pixel 的低解碼復(fù)雜度以及高于 20 FPS @1080P 的解碼速度。更重要的是,PNVC 支持靈活的延遲配置(低延遲和隨機(jī)訪問(wèn)),這提高了基于 INR 的視頻編解碼器的實(shí)用性。未來(lái)的研究可以探索利用元學(xué)習(xí)方法來(lái)加速編碼過(guò)程。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容