新一代視頻編碼標(biāo)準(zhǔn)VVC和AVS3的進(jìn)展及關(guān)鍵技術(shù)特色等介紹

晴耕雨讀夜觀星 2020-09-15

展開全文

本次我將從以下四個方面為大家分享有關(guān)最新一代VVC與AVS3視頻編碼標(biāo)準(zhǔn)的進(jìn)展及關(guān)鍵技術(shù)特色等內(nèi)容，希望可以為大家?guī)碛袃r值的幫助。

1. 視頻編碼標(biāo)準(zhǔn)發(fā)展歷程

上圖展示了視頻編碼國際標(biāo)準(zhǔn)的發(fā)展歷程，我們可以看到目前主要是以VVC、AV1與AVS3為主流發(fā)展趨勢。

1.1 視頻編碼標(biāo)準(zhǔn)的定義

我們可以看到上圖展示的視頻編碼流程，視頻數(shù)據(jù)輸入至編碼系統(tǒng)首先會進(jìn)行預(yù)處理工作，預(yù)處理后進(jìn)行編碼。編碼完成后的數(shù)據(jù)會傳輸至解碼模塊并在完成解碼之后進(jìn)行預(yù)處理，最后輸出目標(biāo)視頻。這里需要注意的是我們對視頻編碼標(biāo)準(zhǔn)的定義是對其中解碼部分的定義，也就是定義碼流的語法語義和解析解碼過程。我們需要在制定標(biāo)準(zhǔn)的過程中通過技術(shù)篩選擇優(yōu)選擇技術(shù)加入標(biāo)準(zhǔn)中從而避免解碼過程的冗雜與低效，降低解碼過程的復(fù)雜程度。也就是說可以在編碼流程等其他環(huán)節(jié)完成的工作就不應(yīng)當(dāng)被加入解碼流程中，如濾波等作為后處理可提高主客觀性能水平。標(biāo)準(zhǔn)制定是一個技術(shù)協(xié)調(diào)統(tǒng)一優(yōu)化的過程，無論是國際標(biāo)準(zhǔn)的制定還是我們以學(xué)術(shù)為目的的討論都會引入一種技術(shù)競爭機(jī)制，選擇最好的技術(shù)放入標(biāo)準(zhǔn)之中。

1.2 高效壓縮標(biāo)準(zhǔn)的意義

那么現(xiàn)在我們需要更加高效地壓縮標(biāo)準(zhǔn)嗎？答案是毋庸置疑的。按照提升規(guī)律，編碼效率每提升50%以上就會成為新一代標(biāo)準(zhǔn)，如早前的H.261、HAV1等其性能基本持平所以我們將其稱為第一代，而像AVS和H.264等比前一代提升50%就可稱其為第二代，至于AVS2、H.265等相對于第二代的提升達(dá)到50%我們就將其稱為第三代?，F(xiàn)在我們正在探索的AV3/VVC/H.266則為最新一代的壓縮標(biāo)準(zhǔn)。我們需要更高效壓縮標(biāo)準(zhǔn)原因可以通過Jevons悖論來解釋：業(yè)界對節(jié)約煤炭研究不會降低煤炭需求，反而會因為提升了煤炭使用效率而加大對煤炭的需求。我們將這個理論過渡到壓縮標(biāo)準(zhǔn)上來說，雖然我們嘗試通過更好的壓縮標(biāo)準(zhǔn)提高壓縮效率降低帶寬壓力，實際上壓縮效率的提高會進(jìn)一步刺激視頻用的需求不斷增長，整體來看就是更高效的壓縮標(biāo)準(zhǔn)推動了視頻行業(yè)的持續(xù)發(fā)展。

1.3 多位度視頻發(fā)展方向

我相信在未來4K/8K超高清、全景視頻等先進(jìn)視頻應(yīng)用會得到進(jìn)一步發(fā)展。隨著視頻應(yīng)用的不斷演進(jìn)，更高效的視頻編碼解決方案也會不斷被提出。圖中展示的全景視頻、3D面部捕捉等都會幫助我們進(jìn)一步提升視頻應(yīng)用的用戶體驗。我相信視頻行業(yè)會得到長足發(fā)展，現(xiàn)在的標(biāo)準(zhǔn)在未來也會被更佳先進(jìn)的標(biāo)準(zhǔn)所取代。

2. VVC國際標(biāo)準(zhǔn)進(jìn)展情況

大家現(xiàn)在聽到VVC、266新一代國際標(biāo)準(zhǔn)這些名詞等都已不再新鮮，實際上對于新一代標(biāo)準(zhǔn)的討論已多達(dá)12次會議，其中有包括快手在內(nèi)的許多中國公司參與VVC標(biāo)準(zhǔn)的制定。追溯中國參與確立國際視頻編碼標(biāo)準(zhǔn)，最早可以追溯至1996年MPEG中國代表團(tuán)參與MPEG標(biāo)準(zhǔn)的制定工作。雖然在1996年之前中國對國際標(biāo)準(zhǔn)制定的影響力有限，但在1996年之后有許多中國高校參與其中，有力促進(jìn)了我國相關(guān)行業(yè)的發(fā)展?？吹竭@么多中國企業(yè)參與其中我倍感榮幸，雖然我們在探索AVS，但同時我們也鼓勵廣大同仁參與國際標(biāo)準(zhǔn)的制訂工作。

2.1 VTM關(guān)鍵技術(shù)

上圖展示了VTM的諸多關(guān)鍵技術(shù)，其中藍(lán)色與紅色高亮的技術(shù)所帶來的性能提升非常顯著。當(dāng)然我們對關(guān)鍵技術(shù)的考量離不開后端配套設(shè)施的跟進(jìn)，我們在科學(xué)制定標(biāo)準(zhǔn)是一定需要在復(fù)雜度與性能間實現(xiàn)良好平衡，依靠技術(shù)的力量控制二者使其達(dá)到理想情況。我們使用的VTM2.0軟件并將其性能提升用Random access量化，可以看到BDR-Y的性能提升為23%。將其結(jié)合圖中左側(cè)表格中的工具所帶來的性能提升十分可觀。這里需要注意的是，雖然表格中未高亮部分的工具所帶來的性能提升在1%以下，但由于這些技術(shù)的編解碼復(fù)雜度波動比較小，可顯著降低復(fù)雜度，后期選擇合適技術(shù)時我們也能考慮這些在復(fù)雜度上表現(xiàn)較好的工具。

2.2 新特色：從信號處理到深度學(xué)習(xí)

大家知道最近深度學(xué)習(xí)成為行業(yè)熱門，人工智能開始為各行各業(yè)帶來顯著優(yōu)化，深度學(xué)習(xí)同樣也可以被用于優(yōu)化視頻編碼。傳統(tǒng)的視頻編碼主要基于信號處理實現(xiàn)預(yù)測、變換等，而現(xiàn)在我們更多采用統(tǒng)計分析、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)使視頻編碼登上一個全新的階段。神經(jīng)網(wǎng)絡(luò)可以在編碼領(lǐng)域大秀拳腳，同樣標(biāo)準(zhǔn)制定也受其影響。大家可以從右側(cè)的表單中看到現(xiàn)在許多企業(yè)與高校在參與標(biāo)準(zhǔn)制定過程中將神經(jīng)網(wǎng)絡(luò)納入考量范圍。

1）神經(jīng)網(wǎng)絡(luò)與預(yù)測編碼

我們可以借助神經(jīng)網(wǎng)絡(luò)實現(xiàn)幀率預(yù)測、劃分等重要工作，神經(jīng)網(wǎng)絡(luò)用與預(yù)測編碼主要需要包括輸出層在內(nèi)的四層網(wǎng)絡(luò)傳統(tǒng)方法主要借助濾波器基于信號處理實現(xiàn)優(yōu)化；而神經(jīng)網(wǎng)絡(luò)則是將節(jié)點數(shù)、相鄰像素數(shù)等指標(biāo)輸入神經(jīng)網(wǎng)絡(luò)從而重構(gòu)原始信號使其稱為符合編碼要求的信號，通過反復(fù)的訓(xùn)練尋求最優(yōu)指標(biāo)并確定為參數(shù)，在此之后這個訓(xùn)練完成的網(wǎng)絡(luò)就可被用于幀率預(yù)測。除了幀率預(yù)測，神經(jīng)網(wǎng)絡(luò)也可以實現(xiàn)濾波等功能，但由于這一部分的研究仍需要進(jìn)一步完善，后續(xù)還需配套硬件的跟進(jìn)才能實現(xiàn)理想效果。從標(biāo)準(zhǔn)制定的角度來看，我們需要跟多的時間優(yōu)化完善神經(jīng)網(wǎng)絡(luò)才能使其符合寫入標(biāo)準(zhǔn)的嚴(yán)格要求。

2）神經(jīng)網(wǎng)絡(luò)與劃分模式?jīng)Q策

談到使用神經(jīng)網(wǎng)絡(luò)實現(xiàn)劃分，我們需要明確不同劃分模式需要哪些技術(shù)調(diào)整。這里我們的目標(biāo)是基于四叉樹與六叉樹實現(xiàn)64x64的劃分。具體步驟為首先提取整體劃分深度特征來預(yù)測劃分程度，也就是判斷采用128×128進(jìn)行預(yù)測還是64×64進(jìn)行預(yù)測。如果選擇128x128作為預(yù)測那么其深層次的預(yù)測準(zhǔn)確度會大打折扣，而32x32的預(yù)測與128x128之間相差太遠(yuǎn)同樣造成預(yù)測不準(zhǔn)確，因此我們選擇基于64×64進(jìn)行深度劃分預(yù)測，我們希望這種選擇可以有效降低網(wǎng)絡(luò)預(yù)測有偏差時對性能的影響。第二張圖右側(cè)列表展示的相關(guān)性能指標(biāo)提升。

3. AVS標(biāo)準(zhǔn)回顧及應(yīng)用情況

AVS標(biāo)準(zhǔn)的確立最早可以追溯至2002年的DVD專利事件，正是因為此事件推動了AVS標(biāo)準(zhǔn)的產(chǎn)生。經(jīng)過幾十年的發(fā)展AVS對推動技術(shù)創(chuàng)新、規(guī)范專利政策、推動行業(yè)生態(tài)建設(shè)做出了卓越貢獻(xiàn)。從開始的盜版橫行到現(xiàn)在的各種專利聯(lián)盟日趨規(guī)范音視頻產(chǎn)業(yè)年產(chǎn)值達(dá)到數(shù)萬億，人們對技術(shù)與產(chǎn)業(yè)價值的追求是全行業(yè)永恒的話題。無論是AVS標(biāo)準(zhǔn)還是國際標(biāo)準(zhǔn)，其目的都是推動技術(shù)創(chuàng)新的積聚與經(jīng)濟(jì)價值的最大化。

AVS的管理模式在其被提出時就有相關(guān)規(guī)范，主要由技術(shù)研發(fā)、包括專利池與專利授權(quán)在內(nèi)的知識產(chǎn)權(quán)管理、產(chǎn)業(yè)聯(lián)盟三部分組成。這種模式在十幾年前具有非凡的創(chuàng)新意義，即使在今天看來也是十分先進(jìn)的理念?，F(xiàn)在AVS上百位工作組會員與產(chǎn)業(yè)聯(lián)盟成員為整個標(biāo)準(zhǔn)提供有力支撐，幫助其持續(xù)優(yōu)化發(fā)展。

上圖展示的AVS在過去十六年經(jīng)歷的發(fā)展過程，從2002年AVS確立到2003年第一代標(biāo)準(zhǔn)AVS1基本完成，再到隨后中國高清電視廣播使用AVS標(biāo)準(zhǔn)，2012年啟動AVS2標(biāo)準(zhǔn)的制定，2015年完成AVS2標(biāo)準(zhǔn)的制訂，2016年AVS被批準(zhǔn)為國家標(biāo)準(zhǔn)并成為廣電行業(yè)標(biāo)準(zhǔn)，最近的2018年3月份AVS3正式啟動。

從AVS的標(biāo)準(zhǔn)歷程中我們可以看到，可以說在過去十六年AVS的發(fā)展取得了很好的成績。

落實在應(yīng)用上，中央電視臺已在2018年10月啟動了基于AVS2標(biāo)準(zhǔn)的4K超高清頻道的播出。并且全國各地相繼有地方電視臺開通4K電視頻道，進(jìn)一步加快了技術(shù)轉(zhuǎn)化為市場效益。

如果我們對比AVS2與HEVC便不難發(fā)現(xiàn)，無論是在主觀質(zhì)量還是用戶體驗上AVS2都略勝一些。

在編碼其優(yōu)化方面，上圖展示的實驗結(jié)果來自于我的學(xué)生優(yōu)化的AVS2編碼器，商用AVS編碼器的性能還要高于上述結(jié)果。右上圖我們可以看到AVS2的各項性能指標(biāo)與其他標(biāo)準(zhǔn)下的編碼性能對比可以說是不相上下， AVS2與x265相同性能條件下AVS2編碼速度快一倍。

AVS標(biāo)準(zhǔn)在軟硬件復(fù)雜度上的性能指標(biāo)較為優(yōu)秀，這也使其受到全行業(yè)的大力推廣。上圖展示的AVS2 4K廣播應(yīng)用的發(fā)展歷程，可以看到全行業(yè)都對AVS2抱有強(qiáng)烈的興趣并積極參與推廣建設(shè)，這極大提高了AVS2的普及速度與應(yīng)用范圍。

4. AVS新一代標(biāo)準(zhǔn)關(guān)鍵技術(shù)

4.1 概述

2017年12月份我們啟動了新一代標(biāo)準(zhǔn)AVS3的確立工作，2018年3月份開始第一次提案征集。預(yù)計在未來的2019年3月份發(fā)布第一版AVS3，其主要在編解碼復(fù)雜度控制上做出顯著優(yōu)化并預(yù)計帶來30% 的性能提升；2021年發(fā)布第二版，達(dá)到相對于第一版50%的效率提升并實現(xiàn)其在8K、VR、流媒體視頻等領(lǐng)域的應(yīng)用；最終我們希望實現(xiàn)的是在第二版基礎(chǔ)上高達(dá)一倍的性能提升。從技術(shù)角度來看，我們的思路主要分為傳統(tǒng)與智能兩部分，傳統(tǒng)部分仍然為塊劃分、運動預(yù)測、變換、濾波等傳統(tǒng)策略，而在智能部分我們會劃時代地使用基于神經(jīng)網(wǎng)絡(luò)的工具實現(xiàn)濾波、率失真優(yōu)化等功能。

上圖展示的是過去一段時間AVS3的會議進(jìn)展與關(guān)鍵技術(shù)情況，到目前為止我們實現(xiàn)了相對于AVS2 10%的性能提升。

4.2 最新進(jìn)展

現(xiàn)在AVS3標(biāo)準(zhǔn)的框架主要基于傳統(tǒng)部分建立，其中有包含擴(kuò)展四叉樹、二叉樹劃分在內(nèi)的塊劃分，包含仿射運動預(yù)測、自適應(yīng)運動矢量精度、基于歷史信息的運動矢量預(yù)測與大跨度預(yù)測編碼在內(nèi)的預(yù)測，包括基于位置的幀間殘差與幀內(nèi)預(yù)測多核在內(nèi)的變換還有基于神經(jīng)網(wǎng)絡(luò)的濾波。

1）預(yù)測劃分

我們現(xiàn)在所有的標(biāo)準(zhǔn)都是基于塊劃分實現(xiàn)的，隨著標(biāo)準(zhǔn)的不斷迭代，劃分的效率也不斷提升。其本質(zhì)在于通過更高效的劃分降低預(yù)測誤差。這里我們努力實現(xiàn)的為自適應(yīng)運動預(yù)測與復(fù)雜視頻的內(nèi)容高效處理，經(jīng)過預(yù)測之后的圖像內(nèi)容有些平滑過渡有些帶有邊緣或紋理；若對其統(tǒng)一進(jìn)行某一種變換效率勢必會降低，我們期待通過自適應(yīng)算法將進(jìn)一步提升整個過程的效率，自適應(yīng)的前提是我們需要將變換量化并考慮自身濾波對視頻圖像內(nèi)容特性的適應(yīng)。隨著技術(shù)的演變，塊劃分方案的不斷迭代意味著劃分方案的不斷改進(jìn)，如正在進(jìn)行的采用MTT實現(xiàn)的多種樹型劃分，其本質(zhì)為使用更精細(xì)的劃分方案解決更復(fù)雜的圖像內(nèi)容從而實現(xiàn)理想的效果。

AVS-M4409的劃分過程基本上基于VCC的三叉樹劃分，同時包括了二叉樹與四叉樹。

而AVS-M4472則是二叉樹層遞歸劃分。除此之外AVS-M4472的編碼單元CU、預(yù)測單元PU、變換單元TU大小一致。

接下來發(fā)展到了AVS-M4477則采用了衍生預(yù)測模式，使用非對稱二分和對稱四分模式，并且在四叉樹或二叉樹的葉子結(jié)點上不可遞歸，使用RDO決策變換形狀，實現(xiàn)良好性能更高效率的劃分。

最后的AVS-M4489所運用的擴(kuò)展的四叉樹劃分結(jié)構(gòu)EQT是我們最新采用的一種劃分模式，此劃分同二叉樹層級一直并可遞歸，其CU、PU、TU大小一致，我相信還有更加高效的劃分模式等待我們探索。

2）運動預(yù)測

在運動預(yù)測方面，第一代、第二代標(biāo)準(zhǔn)所使用的預(yù)測方案對平移運動效果較好，一旦運動狀態(tài)變得復(fù)雜則容易失效；于是在第三代我們采用了合并模式，基于平移運動與向量塊信息的組合更高效準(zhǔn)確預(yù)測物體運動；而現(xiàn)在正在探索的仿射運動預(yù)測又把對復(fù)雜運動預(yù)測的效率提升至新的水平，我們也將其視為研究的目標(biāo)。

我們現(xiàn)在所看到的運動矢量精度都是基于適量像素實現(xiàn)，出于對復(fù)雜度的控制我們需要一種較為理想的方案確定運動矢量精度。

其解決方案是在離預(yù)測運動矢量近的區(qū)域采用高精度運動矢量如1/8、1/4像素精度，而在離預(yù)測運動矢量遠(yuǎn)的區(qū)域采用低精度如1/2甚至整像素精度，從而有效提高運動矢量的編碼效率。比如這里在這個小的窗口里邊，運動比較預(yù)測比較接近，就用高精度的，到了窗口外邊就用粗精度了，在AVS里邊是做1/2和1/4這么一個切分這樣的，可以有效降低編碼復(fù)雜度的同時進(jìn)一步提升編碼效率。

在AVS3中有1/2、1/4、1、2、4 五種可選運動矢量精度，可以進(jìn)一步提升編碼效率。

相對于傳統(tǒng)的平移運動，仿射運動補(bǔ)償可以根據(jù)上圖左側(cè)方形頂點上的運動矢量推導(dǎo)其中每一個小方塊的運動矢量并求解運動仿射參數(shù)，從而實現(xiàn)相對于傳統(tǒng)仿射運動更加高效的預(yù)測。

第一代標(biāo)準(zhǔn)采用了空域多候選預(yù)測的方式實現(xiàn)運動矢量預(yù)測，在后續(xù)幾代中加入了空時域預(yù)測模式?，F(xiàn)在我們正在探索加入更多候選預(yù)測運動矢量以帶來編碼增益。

AVS-M4488采用了由已編碼塊信息建立候選運動矢量預(yù)測列表HMVP，通過多個塊的運動矢量構(gòu)建多個列表并移除冗余候選添加新的候選，并在編碼/解碼過程中維持HMVP的候選列表，可以有效提高運動矢量預(yù)測的編碼效率。

還有對Skip、direct模式的運動矢量進(jìn)行更精細(xì)更準(zhǔn)確的調(diào)整，也能帶來明顯的編碼效率提升。

將編碼與傳輸結(jié)合實現(xiàn)大跨度預(yù)測編碼是我們正在探索的一件較為超前的方案。我們將時間上大跨度的知識圖像作為幀間預(yù)測的參考圖像，在系統(tǒng)層描述參考關(guān)系，在壓縮層修改高層語法語義，并基于類似P2P傳輸原理實現(xiàn)視頻內(nèi)容之間的跨序列參考。此工作需要系統(tǒng)層的傳輸支持，大跨度預(yù)測編碼可以帶來30%以上的壓縮效率提升。

3）變換

第一代標(biāo)準(zhǔn)使用的變換模式為DCT，隨后的第二代標(biāo)準(zhǔn)則采用了ABT。DCT在相關(guān)性較強(qiáng)時較為適用，而第三代標(biāo)準(zhǔn)所使用的TU與DST則更適應(yīng)信號的復(fù)雜特征變化，現(xiàn)在我們正在探索的變換方案為多核變換。

幀內(nèi)預(yù)測變換這塊，行列變換組合的變換形式，早期AVS也做過很多的相關(guān)的研究，通過率失真優(yōu)化來選擇變換。

幀間殘差變換是基于位置變化的，在不同塊的位置其參數(shù)特性也有所區(qū)別。我們可以選擇性變換從而進(jìn)一步提高變換的編碼效率實現(xiàn)性能提升。

4）環(huán)路濾波

在第一代標(biāo)準(zhǔn)中沒有環(huán)路濾波而只是將其作為后處理的一部分。在第二代標(biāo)準(zhǔn)中我們使用了對塊邊界的Deblock環(huán)路濾波，從H265這塊，引入了SAO，原理上就是從幾種邊緣看一看是不是有了較大的量化失真，給它加一個補(bǔ)償，降低量化失真；這時候也還有有另外一中環(huán)路濾波就是ALF，對于這一塊兒關(guān)于濾波器的形狀研究更多，加了好多濾波器形狀，去進(jìn)一步提高這個濾波器效果去，這是濾波部分的一個演變。

關(guān)于濾波，我們還探索了非局部結(jié)構(gòu)相似濾波，其主要是依據(jù)統(tǒng)計局部多個像素發(fā)生失真得出的規(guī)律特性推斷更優(yōu)的全局優(yōu)化策略。雖然此方案復(fù)雜度較高但效果明顯，全局優(yōu)化處理能夠帶來明顯的效率提升?？赡苣壳叭譃V波方案還難以被標(biāo)準(zhǔn)采用，我們?nèi)栽谔剿鞲玫娜譃V波方案。

關(guān)于智能編碼與智能濾波部分。由于濾波是比較獨立的模塊，傳統(tǒng)濾波主要輸入重構(gòu)的圖像即可，在這里我們同時輸入了相關(guān)編碼信息之后發(fā)現(xiàn)還能進(jìn)一步提高濾波性能，這說明濾波性能提升空間還是比較可觀的。

上圖展示的是AVS3 TAVS2.1的性能測試結(jié)果，可以看到AVS3相對于H.265已有10%以上的性能提升，預(yù)期第一階段將達(dá)到30%，我們對AVS3未來的發(fā)展充滿信心。

我們可以看到新一代視頻編解碼標(biāo)準(zhǔn)的進(jìn)步十分顯著，效率提升非常明顯，我們相信新一代視頻編碼標(biāo)準(zhǔn)具有蓬勃生命力。AVS標(biāo)準(zhǔn)在技術(shù)創(chuàng)新、專利政策與生態(tài)建設(shè)方面都有較為全面的布局，新一代AVS標(biāo)準(zhǔn)未來可期。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

新一代視頻編碼標(biāo)準(zhǔn)VVC和AVS3的進(jìn)展及關(guān)鍵技術(shù)特色等介紹