論文地址：https://arxiv.org/pdf/2409.00953
代碼地址：https://github.com/ge1-gao/PNVC

摘要

近年來(lái)，神經(jīng)視頻壓縮在率失真性能方面展現(xiàn)出與傳統(tǒng)視頻編解碼器可競(jìng)爭(zhēng)的巨大潛力。然而，這些基于學(xué)習(xí)的視頻編解碼器存在各種問(wèn)題，例如解碼復(fù)雜度（基于自編碼器的方法）和/或系統(tǒng)延遲（基于隱式神經(jīng)表示（INR）的模型），這些問(wèn)題目前阻礙了它們?cè)趯?shí)際應(yīng)用中的部署。本文旨在開(kāi)發(fā)一種實(shí)用的神經(jīng)視頻編解碼器，提出了一種新穎的基于 INR 的編碼框架 PNVC，該框架創(chuàng)新性地結(jié)合了基于自編碼器和過(guò)擬合的解決方案。我們的方法受益于多項(xiàng)設(shè)計(jì)創(chuàng)新，包括新的基于結(jié)構(gòu)重參數(shù)化的架構(gòu)、分層質(zhì)量控制、基于調(diào)制的熵建模和尺度感知位置嵌入。PNVC支持低延遲（LD）和隨機(jī)訪問(wèn)（RA）配置，性能優(yōu)于現(xiàn)有的基于 INR 的編解碼器，與 HEVC HM 18.0（LD）相比，BD-rate 節(jié)省了近35%以上——比最先進(jìn)的基于 INR 的編解碼器之一 HiNeRV 高出近10%，比 VTM 20.0（LD）高出5%，同時(shí)保持1080p內(nèi)容的解碼速度超過(guò)20幀/秒。這代表了基于 INR 的視頻編碼向前邁出了重要一步，使其更接近實(shí)際應(yīng)用。

引言

神經(jīng)視頻壓縮技術(shù)與 H.265/HEVC 和 H.266/VVC 等標(biāo)準(zhǔn)化視頻編解碼器不同，這些標(biāo)準(zhǔn)編解碼器采用傳統(tǒng)架構(gòu)的演進(jìn)版本，性能表現(xiàn)出色；而神經(jīng)視頻壓縮技術(shù)則受益于更快的開(kāi)發(fā)周期和優(yōu)化的數(shù)據(jù)驅(qū)動(dòng)端到端架構(gòu)，性能指標(biāo)正在快速提升。該研究領(lǐng)域的進(jìn)展已經(jīng)涌現(xiàn)出各種各樣的候選神經(jīng)視頻編解碼器，其中一些論文報(bào)道其率失真性能可以媲美甚至超越最新的最先進(jìn)標(biāo)準(zhǔn)編碼方法。
盡管在編碼增益方面前景廣闊，但神經(jīng)視頻編解碼器（主要是那些使用基于自編碼器骨干網(wǎng)絡(luò)的編解碼器）存在顯著的復(fù)雜性問(wèn)題，尤其是在解碼端，這使得它們資源密集且不適用于許多實(shí)際應(yīng)用。雖然常見(jiàn)的復(fù)雜度降低技術(shù)，例如剪枝和量化可以緩解這些限制，但這通常會(huì)導(dǎo)致編碼效率的顯著降低。
最近，基于隱式神經(jīng)表示（INR）的編碼方法作為一種實(shí)現(xiàn)高編碼性能和低（解碼）復(fù)雜度的范式轉(zhuǎn)變解決方案，越來(lái)越受到關(guān)注。這種方法通常利用輕量級(jí)神經(jīng)網(wǎng)絡(luò)，通過(guò)將坐標(biāo)直接映射到像素值來(lái)對(duì)輸入視頻數(shù)據(jù)進(jìn)行過(guò)擬合。盡管最新的基于 INR 的編解碼器在許多傳統(tǒng)和神經(jīng)視頻編解碼器上都顯示出持續(xù)的編碼增益，但它們存在一個(gè)主要局限性，即其壓縮策略是使用單一的整體模型來(lái)表示整個(gè)視頻序列或數(shù)據(jù)集。雖然這種方法可以最大限度地提高壓縮效率，但它需要在每個(gè)編碼會(huì)話中處理大量的視頻幀（例如，幾百到幾千幀），這與常用的編碼配置相沖突，因?yàn)檫@些配置通常需要靈活的系統(tǒng)延遲，例如 VVC VTM 中的低延遲和隨機(jī)訪問(wèn)模式。這個(gè)問(wèn)題使得基于隱式神經(jīng)表示的視頻編解碼器在處理較短序列時(shí)性能不佳，也阻礙了它們?cè)谠S多實(shí)際應(yīng)用中的應(yīng)用。
本文提出了一種名為 PNVC 的新型（實(shí)用）基于隱式神經(jīng)表示（INR）的視頻壓縮框架，旨在解決上述局限性，該框架能夠?qū)崿F(xiàn)靈活的編碼配置（低延遲），同時(shí)仍能獲得具有競(jìng)爭(zhēng)力的編碼性能和較低的編碼/解碼復(fù)雜度。所提出的 PNVC 基于分層骨干網(wǎng)絡(luò)構(gòu)建，該網(wǎng)絡(luò)泛化了自回歸模型，并且可以與基于內(nèi)容或基于調(diào)制的 INR 模型無(wú)縫互換。我們的方法利用了預(yù)訓(xùn)練-再過(guò)擬合策略，使模型能夠在預(yù)訓(xùn)練階段泛化到不同的內(nèi)容，同時(shí)在過(guò)擬合階段適應(yīng)特定輸入的內(nèi)容。此外，我們還開(kāi)發(fā)了一種新的重參數(shù)化方法，以及其他架構(gòu)和優(yōu)化方面的創(chuàng)新，該方法允許在訓(xùn)練期間使用不受限制的模型容量，同時(shí)確保低復(fù)雜度的推理。這種解耦使得更有效的優(yōu)化成為可能，而不會(huì)犧牲部署效率。本文的主要貢獻(xiàn)總結(jié)如下：

我們提出了一種基于隱式神經(jīng)表示（INR）的新型視頻編碼模型，該模型集成了基于自編碼器和過(guò)擬合的解決方案，具有極具競(jìng)爭(zhēng)力的編碼性能、相對(duì)較低的編碼和解碼復(fù)雜度以及靈活的編碼延遲配置。
我們?cè)O(shè)計(jì)了一種基于重參數(shù)化的新型方案（ModMixer），用于充分預(yù)訓(xùn)練和過(guò)擬合輕量級(jí)骨干網(wǎng)絡(luò)，使其具有更強(qiáng)的建模能力和更多樣化的優(yōu)化方向，且無(wú)需額外的推理成本。
我們進(jìn)一步引入了幾項(xiàng)改進(jìn)，包括分層質(zhì)量參數(shù)、基于調(diào)制的非對(duì)稱上下文分組分層熵模型以及尺度感知分層位置編碼，以增強(qiáng)壓縮性能。

本文提出的 PNVC 模型在低延遲和隨機(jī)訪問(wèn)配置（如許多視頻編碼標(biāo)準(zhǔn)中所定義）下均展現(xiàn)出極具競(jìng)爭(zhēng)力的率失真性能，同時(shí)避免了現(xiàn)有基于隱式神經(jīng)表示（INR）的視頻編解碼器所面臨的延遲和編碼復(fù)雜度問(wèn)題。具體而言，在 UVG 和 MCL-JCV 數(shù)據(jù)集上，本文提出的模型在 PSNR 和 MS-SSIM 指標(biāo)下，其 BD-rate 性能均顯著優(yōu)于 VTM 20.0 (LD) 和 HiNeRV。與現(xiàn)有的基于 INR 的視頻編碼器相比，該模型還具有更低的編碼延遲（系統(tǒng)延遲），并且比基于自編碼器的神經(jīng)視頻編碼模型具有更快的解碼速度。

現(xiàn)有工作不足

視頻壓縮

最近基于學(xué)習(xí)的視頻壓縮方法，盡管編碼性能具有競(jìng)爭(zhēng)力，但高計(jì)算復(fù)雜度（尤其是在解碼器端）限制了其實(shí)際應(yīng)用，而結(jié)構(gòu)化剪枝方法只能在性能顯著下降的情況下實(shí)現(xiàn)有限的復(fù)雜度降低。

隱式神經(jīng)表示

INR 學(xué)習(xí)基于坐標(biāo)的映射函數(shù)，并將數(shù)據(jù)編碼到網(wǎng)絡(luò)參數(shù)中。現(xiàn)有的隱式神經(jīng)視頻表示（NeRV）模型可以分為兩類：i）基于索引的方法，以幀、圖像塊或解耦的空間/網(wǎng)格坐標(biāo)作為輸入；ii）基于內(nèi)容的方法，以特定于內(nèi)容的嵌入作為輸入。在這些情況下，視頻編碼任務(wù)被重新表述為模型壓縮問(wèn)題，利用剪枝、量化和熵約束優(yōu)化等技術(shù)。然而，在整個(gè)視頻序列或數(shù)據(jù)集上訓(xùn)練 NeRV 模型會(huì)導(dǎo)致較高的系統(tǒng)延遲，使其不適用于需要快速響應(yīng)的應(yīng)用，并且導(dǎo)致與延遲受限的編解碼器進(jìn)行比較時(shí)缺乏意義。

方法

概述

PNVC Framework.png

在提出的 PNVC 框架中，每個(gè)視頻序列被分割成長(zhǎng)度為 N 的圖像組（GOP），并獨(dú)立編碼。在每個(gè) GOP 中，幀要么被編碼為 I 幀，要么被編碼為 P/B 幀，以利用視頻中的空間和/或時(shí)間冗余。每個(gè) I 幀由編碼器 E 編碼成 L 個(gè)潛在標(biāo)記網(wǎng)格。對(duì)于每個(gè)級(jí)別，潛在標(biāo)記由縮放和偏移參數(shù)組成，并沿通道方向連接。
本文采用熵模型來(lái)沿空間、通道和層次坐標(biāo)軸以半自回歸方式估計(jì)分層潛在變量的概率質(zhì)量函數(shù)（PMF）。熵模型的參數(shù)在每個(gè)級(jí)別更新。比特流中包含分別對(duì)應(yīng)于潛在變量和權(quán)重更新的逆量化參數(shù)。這些分量針對(duì)輸入視頻幀進(jìn)行過(guò)擬合，然后進(jìn)行熵編碼，并組合成比特流。
在解碼器端，熵模型由從比特流解碼得到的預(yù)訓(xùn)練參數(shù)進(jìn)行更新。該模型用于輔助對(duì)分層潛在網(wǎng)格進(jìn)行熵解碼，然后通過(guò)反量化生成潛在表示。這些反量化后的潛在表示基于 HiNeRV 中提出的改進(jìn)的尺度感知分層分解方案進(jìn)行位置嵌入，從而可以通過(guò)時(shí)空坐標(biāo)查詢特定于內(nèi)容的變化。這里采用基于塊的表示方法，其中最小的潛在表示的每個(gè)元素對(duì)應(yīng)于原始幀的一個(gè)圖像塊?；?INR 的解碼器 D 將圖像塊級(jí)別的神經(jīng)場(chǎng)定義為 3D 坐標(biāo)的函數(shù)。它使用L個(gè)堆疊的 ModMixer 塊進(jìn)行漸進(jìn)式條件映射，其中映射的輸入是I幀的學(xué)習(xí)偏差以及 P/B 幀的參考圖像塊，輸出是重建幀的圖像塊。每個(gè)塊的中間激活值由相應(yīng)的潛在網(wǎng)格進(jìn)行調(diào)制。
每個(gè) P 幀或 B 幀的編碼流程與 I 幀類似，但額外增加了一個(gè)運(yùn)動(dòng)編碼器 Em。利用解碼幀緩沖區(qū)中最多兩個(gè)先前重建的幀（它們可以是 I 幀或 P/B 幀）以及當(dāng)前幀，多分辨率潛在網(wǎng)格由 E 生成，但每一層都以從 Em 提取的運(yùn)動(dòng)信息為條件。此外，熵模型還將解碼的參考潛在標(biāo)記以及來(lái)自更高層的重建潛在標(biāo)記作為輸入，以進(jìn)一步利用時(shí)空和層次冗余。

編碼器

本文采用 ELIC 模型作為圖像編碼器 E，將 I/P/B 幀映射到潛在表示。對(duì)于 P/B 幀，編碼器 E 通過(guò)連接運(yùn)動(dòng)編碼器 Em（改編自 SpyNet ）提取的分層光流特征進(jìn)行重新調(diào)整，以融入估計(jì)的運(yùn)動(dòng)信息。E 和 Em 都經(jīng)過(guò)過(guò)擬合訓(xùn)練，以生成內(nèi)容自適應(yīng)的分層潛在表示。下一幀的過(guò)擬合訓(xùn)練以當(dāng)前幀更新后的網(wǎng)絡(luò)參數(shù)為初始值，以進(jìn)一步加快編碼過(guò)程。

量化

量化模塊采用分層質(zhì)量結(jié)構(gòu)，其中根據(jù)每一幀與參考幀的距離和特定的視頻動(dòng)態(tài)特性，自適應(yīng)地重新加權(quán)允許的比特率。該參數(shù)稱為質(zhì)量參數(shù)，由一個(gè)基于每個(gè) token 對(duì) GOP 級(jí)率失真權(quán)衡的估計(jì)影響的 ConvLSTM 模塊生成。該模塊在預(yù)訓(xùn)練后固定，以防止逐幀過(guò)擬合過(guò)程破壞已獲得的分層質(zhì)量結(jié)構(gòu)。對(duì)于量化，使用另一組更細(xì)粒度的通道級(jí)質(zhì)量參數(shù)。對(duì)于反量化，檢索相應(yīng)的參數(shù)并將其編碼到比特流中作為輔助信息。我們?cè)趦煞N情況下都避免使用除法，以避免數(shù)值不穩(wěn)定。標(biāo)量量化參數(shù)的更新遵循類似的過(guò)程。

熵編碼

離散化的分層潛在變量基于算術(shù)編碼進(jìn)行熵編碼。其中，概率質(zhì)量函數(shù)（PMF）由高斯分布估計(jì)，每個(gè)元素的位置和尺度參數(shù)由熵網(wǎng)絡(luò)基于該元素的空間、時(shí)間和分層上下文進(jìn)行半自回歸預(yù)測(cè)。我們使用基于四叉樹(shù)的分解方法對(duì)潛在表示進(jìn)行編碼，但進(jìn)行了兩處修改。首先，我們將縮放和偏移參數(shù)的通道（它們并行進(jìn)行熵編碼）分別分成四個(gè)不均勻的組，大小比例為 1、1、2 和 4，即由于可用的上下文更多，每個(gè)解碼步驟解碼的符號(hào)數(shù)量增加了一倍。此外，我們將所有用于聚合信息的拼接操作替換為逐元素調(diào)制，我們經(jīng)驗(yàn)發(fā)現(xiàn)這種方法在信息聚合方面效率更高，并且我們部署了一個(gè)新的 ModMixer 模塊來(lái)構(gòu)建和優(yōu)化熵模型。對(duì)于熵模型的更新，我們部署了一個(gè)完全分解的非參數(shù)密度模型 π。

ModMixer

ModMixer Architecture.png

為了在不增加額外推理成本的情況下提升模型性能，我們?cè)O(shè)計(jì)了一種新穎的 ModMixer 模塊，并將其作為我們熵模型和解碼器的基本構(gòu)建塊。這種方法受到重參數(shù)化方法的啟發(fā)，利用線性架構(gòu)之間的相互轉(zhuǎn)換，以訓(xùn)練時(shí)間復(fù)雜度換取推理時(shí)間效率。不失一般性，我們將任意線性層（卷積層或全連接層）Wh + b 定義為從以下通用公式代數(shù)收縮而來(lái)：
詳細(xì)公式見(jiàn)原論文公式 2
與標(biāo)準(zhǔn)重參數(shù)化方法相比，該公式建立了一種更通用的視覺(jué)調(diào)整方案，更適合實(shí)例自適應(yīng)視頻壓縮的場(chǎng)景。由于仿射變換應(yīng)用于權(quán)重和偏置項(xiàng)，因此它是一個(gè)包含權(quán)重和特征空間調(diào)整的超集，其中混合值可以根據(jù)需要靈活地重新轉(zhuǎn)換為特征調(diào)制（如在解碼器中）、權(quán)重更新（如在熵模型中）或任何其他形式的視覺(jué)調(diào)整。
在我們的方法中，為了利用上述重參數(shù)化思想并改進(jìn)基于INR方法中常用的全連接層（FC），我們?cè)O(shè)計(jì)了一種新的基本構(gòu)建模塊——ModMixer。每個(gè)FC層通過(guò)串行和并行的方式進(jìn)行重參數(shù)化，具體做法是使用堆疊的線性層，每個(gè)分支（每個(gè)通道組一個(gè)）具有不同的深度，以有效地捕獲分層表示。此外，在FC層之前添加了一個(gè)自注意力機(jī)制風(fēng)格的token混合器，以引入推理時(shí)的空間混合。在預(yù)訓(xùn)練階段，token混合器會(huì)逐漸退化并被實(shí)例歸一化和后續(xù)的FC層吸收。具體實(shí)現(xiàn)方式是初始化一個(gè)掩碼 M 為1，并使其逐漸衰減到0：M ⊙ TokenMixer(h) + (1 ? M) ⊙ h + h。
掩碼衰減策略的靈感來(lái)源于 MSRA-EVC，這些方法利用表達(dá)能力更強(qiáng)的教師模型來(lái)指導(dǎo)較小的學(xué)生模型。在過(guò)擬合階段，我們針對(duì)預(yù)訓(xùn)練的混合權(quán)重和基函數(shù)優(yōu)化殘差更新，然后將這些更新整合到熵模型的權(quán)重更新中，或?qū)⑵淙谌虢獯a器的分層潛在網(wǎng)格中。

解碼器

解碼器 D 對(duì)基于網(wǎng)格的位置編碼進(jìn)行操作，逐步恢復(fù)空間信息，同時(shí)將高頻細(xì)節(jié)疊加到低頻元素上。我們沿用了高性能 HiNeRV 提出的分層編碼方法，該方法可以被概念化為以 2 的冪為基數(shù)的位值計(jì)數(shù)制。這種方法將每個(gè)坐標(biāo)表示為一個(gè)有序的數(shù)字集合，每個(gè)數(shù)字對(duì)應(yīng)一個(gè)層級(jí)，該層級(jí)遞歸地編碼更粗粒度表示級(jí)別的殘差。具體來(lái)說(shuō)，這種分層坐標(biāo)系將全局坐標(biāo) pos 分解為多個(gè)更精細(xì)的細(xì)節(jié)層級(jí)。在每個(gè)層級(jí)，用于插值的局部坐標(biāo)計(jì)算如下：
詳細(xì)公式見(jiàn)原論文公式 3
我們對(duì)原始策略進(jìn)行了一項(xiàng)簡(jiǎn)單的改進(jìn)，以應(yīng)對(duì)推理時(shí)補(bǔ)丁尺寸相對(duì)于模型預(yù)訓(xùn)練時(shí)尺寸的增加。分辨率的顯著提高（用 k 表示）可能會(huì)導(dǎo)致更多的微調(diào)工作。保持原始網(wǎng)格間距會(huì)導(dǎo)致整體網(wǎng)格數(shù)量增加，這可能會(huì)使分層模式的捕獲變得復(fù)雜，并增加內(nèi)存和計(jì)算需求。為了解決這個(gè)問(wèn)題，我們建議根據(jù)比例（k）對(duì)基函數(shù)進(jìn)行非線性混合和重新縮放。L 層的局部坐標(biāo)重新計(jì)算如下：
詳細(xì)公式見(jiàn)原論文公式 4
解決此約束條件可得到一組在對(duì)數(shù)尺度上均勻分布的參數(shù)，詳見(jiàn)補(bǔ)充材料。上述公式的本質(zhì)是將插值壓力分配到不同的層級(jí)結(jié)構(gòu)中。低頻信號(hào)通常對(duì)分辨率變化不太敏感，因此可以承受更大的縮放而不會(huì)造成顯著的信息損失（低分辨率下網(wǎng)格劃分更稀疏）。另一方面，高頻信號(hào)則需要更謹(jǐn)慎地保留，避免過(guò)度縮放?；谏鲜龉?，解碼器的第L層由下式給出：
詳細(xì)公式見(jiàn)原論文

優(yōu)化策略

完整模型首先基于靜態(tài)訓(xùn)練數(shù)據(jù)進(jìn)行離線預(yù)訓(xùn)練，然后在推理階段進(jìn)行過(guò)擬合，以適應(yīng)待壓縮的輸入視頻序列?？紤]到預(yù)訓(xùn)練參數(shù)，即編碼器和解碼器之間共享的“元初始化”參數(shù)，相對(duì)于該元初始化的迭代優(yōu)化參數(shù)更新與相關(guān)的輔助信息一起進(jìn)行量化，然后進(jìn)行熵編碼生成比特流。我們遵循 DCVC-DC 的方法，對(duì)多個(gè)幀的損失進(jìn)行聚合，以減少誤差傳播并建立分層質(zhì)量結(jié)構(gòu)。預(yù)訓(xùn)練過(guò)程涉及最小化每個(gè) GoP（圖像組）內(nèi)的以下率失真損失：
詳細(xì)公式見(jiàn)原論文公式 5
參照 C3 和 Cool-Chic Video，在計(jì)算 R 時(shí)，分層潛在變量的量化和權(quán)重更新通過(guò)逐步退火的軟舍入并添加噪聲進(jìn)行近似；而在對(duì)它們進(jìn)行舍入以優(yōu)化失真度量時(shí)，則使用直通估計(jì)器（STE）。此處使用均方誤差（MSE）作為失真度量，目標(biāo)是獲得最佳的峰值信噪比（PSNR）性能，同時(shí)使用 200 · ( 1 ? MS-SSIM(xt, x?t)) 作為失真度量對(duì) MSE 模型進(jìn)行微調(diào)，訓(xùn)練額外的模型，以獲得基于 MS-SSIM 的基線。在逐幀過(guò)擬合過(guò)程中，編碼過(guò)程包括尋找分層潛在變量、網(wǎng)絡(luò)參數(shù)和量化參數(shù)的最佳值：
詳細(xì)公式見(jiàn)原論文公式 6
詳細(xì)的超參數(shù)配置信息可在補(bǔ)充材料中找到。

實(shí)驗(yàn)

訓(xùn)練集：Vimeo-90k
測(cè)試集：UVG，MCL-JCV
Baseline：
1.傳統(tǒng)編碼，HM-18.0，VTM-20.0；
2.深度編碼，VCT，DCVC-HEM，DCVC-DC；
3.隱式編碼，F(xiàn)FNeRV，HNeRV-Boost，C3，HiNeRV
測(cè)試條件：
1.LD：每個(gè)序列中只有一個(gè)幀內(nèi)編碼幀（即第一個(gè)幀），后續(xù)的 P 幀僅依賴于之前的幀進(jìn)行運(yùn)動(dòng)預(yù)測(cè)（即 GOP=1），這與 JVET CTC 中定義的一致。
2.RA：每個(gè) GOP 包含一個(gè)幀內(nèi)編碼幀和 31 個(gè) B/P 幀，最大延遲為 31 幀（即 GOP 長(zhǎng)度為 32），幀內(nèi)編碼周期為 32。這里的 RA 配置采用與 JVET CTC 規(guī)范中相同的分層 B 幀結(jié)構(gòu)。
注：這些配置不適用于其他基于INR的基準(zhǔn)測(cè)試，這些基準(zhǔn)測(cè)試會(huì)對(duì)整個(gè)序列或數(shù)據(jù)集進(jìn)行編碼。
評(píng)價(jià)指標(biāo)：PSNR，MS-SSIM，模型參數(shù)量，解碼復(fù)雜度（MACs/pixel），F(xiàn)PS（Enc&Dec）
實(shí)驗(yàn)結(jié)果：詳見(jiàn)原論文。

結(jié)論

我們提出了一種基于隱式神經(jīng)表示（INR）的視頻編碼框架 PNVC，它 1）將基于自編碼器的壓縮方法與基于坐標(biāo)的隱式過(guò)擬合相結(jié)合，2）集成了離線預(yù)訓(xùn)練和在線過(guò)擬合。PNVC 支持低延遲和隨機(jī)訪問(wèn)編碼模式，并以快速的解碼速度實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的速率-失真-復(fù)雜度性能。通過(guò)包括重參數(shù)化視覺(jué)調(diào)諧、分層質(zhì)量參數(shù)、基于調(diào)制的非對(duì)稱通道劃分熵建模以及尺度自適應(yīng)分層網(wǎng)格劃分等創(chuàng)新技術(shù)，PNVC 的性能優(yōu)于 VTM 20.0 (LD) 和 HiNeRV，在壓縮效率方面與 DCVC-DC 相當(dāng)，并保持了低于 20 萬(wàn) MAC/pixel 的低解碼復(fù)雜度以及高于 20 FPS @1080P 的解碼速度。更重要的是，PNVC 支持靈活的延遲配置（低延遲和隨機(jī)訪問(wèn)），這提高了基于 INR 的視頻編解碼器的實(shí)用性。未來(lái)的研究可以探索利用元學(xué)習(xí)方法來(lái)加速編碼過(guò)程。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

PVNC 論文閱讀

PVNC 論文閱讀

摘要

引言

現(xiàn)有工作不足

視頻壓縮

隱式神經(jīng)表示

方法

概述

編碼器

量化

熵編碼

ModMixer

解碼器

優(yōu)化策略

實(shí)驗(yàn)

結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

PVNC 論文閱讀

摘要

引言

現(xiàn)有工作不足

視頻壓縮

隱式神經(jīng)表示

方法

概述

編碼器

量化

熵編碼

ModMixer

解碼器

優(yōu)化策略

實(shí)驗(yàn)

結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av