MPEGl和MPEG2數(shù)字視頻編碼標(biāo)準(zhǔn)

lvgs 2006-07-24

展開全文

本文的目的在于給出有關(guān)MPEGl和MPEG2視頻編碼算法及標(biāo)準(zhǔn)的概述、以及它們在視頻通信中的作用。論文的正文是這樣安排的：首先回顧了與MPEG視頻壓縮標(biāo)準(zhǔn)有關(guān)的那些基本概念和技術(shù)：接著較詳細(xì)地敘述了MPEGl和MPEG2的視頻編碼算法；最后的內(nèi)容為標(biāo)準(zhǔn)中與其應(yīng)用有關(guān)的一些特征。

MPEG視頻壓縮算法的基本原理

　　一般說來，在幀內(nèi)以及幀與幀之間，眾多的視頻序列均包含很大的統(tǒng)計冗余度和主觀冗余度。視頻源碼的最終目標(biāo)是：通過挖掘統(tǒng)計冗余度和主觀冗余度，來降低存儲和傳送視頻信息所需的比特率；并采用嫡編碼技術(shù)，以便編制出“最小信息組”一個實用的編碼方案，是在編碼特性(具有足夠質(zhì)量的高壓縮)與實施復(fù)雜性之間的一種折衷。對于MPEG壓縮算法的開發(fā)來講，計及到這些標(biāo) 準(zhǔn)的壽命周期應(yīng)考慮到現(xiàn)代超大規(guī)模集成電路技術(shù)的能力，這一點是最重要的。根據(jù)應(yīng)用的要求，我們也許會想到視頻數(shù)據(jù)的“無損失”編碼和“有損失”編碼“無損失”編碼的目的在于：在保持原圖像質(zhì) 量(即解碼后的圖像質(zhì)量等同于編碼前的圖像質(zhì)量)情況下，來減少需要存儲和傳送的圖像或視頻數(shù)據(jù)。與此相反，“有損失”編碼技術(shù)(該技術(shù)跟MPEG—l和MPEG2視頻標(biāo)準(zhǔn)未來的應(yīng)用有關(guān)) 的目的是，去符合給定的存儲和傳送比特串。重要的一些應(yīng)用包括；利用限定的帶寬或很窄的帶寬，通過通信頻道采傳送視頻信息；有效地存儲視頻信息。在這些應(yīng)用中，高的視頻壓縮是以降低視頻質(zhì)量的辦法來實施的，即跟編碼以前的原始圖像相比，解碼后的圖像“客觀”質(zhì)量有所降低(也就是取原始圖像和再現(xiàn)圖像之間的均方差，作為評定客觀圖像質(zhì)量的標(biāo)準(zhǔn))頻道的目標(biāo)比特率越低；那么視頻所必須進(jìn)行的壓縮率就越大，通?？刹煊X的編碼人工產(chǎn)物也越多。有損失編碼技術(shù)的最終目的是：在指定的目標(biāo)比特串條件下，獲取最佳的圖像標(biāo)準(zhǔn)。這里應(yīng)服從“客觀”或“主觀”上的最佳標(biāo)準(zhǔn)。這里應(yīng)該指出，圖像的降級程度(指客觀降低以及可察覺到的人工產(chǎn)物的數(shù)量)取決于壓縮技術(shù)的復(fù)雜性——對于結(jié)構(gòu) 簡單的畫面和視頻活動少的圖像來講，就是采用簡單的壓縮技術(shù)，也許能獲得根本不帶可察覺人工產(chǎn)物的良好的再現(xiàn)圖像

(A)MPEG視頻編碼器源模式

　　MPEG數(shù)字視頻編碼技術(shù)實質(zhì)上是一種統(tǒng)計方法。在時間和空間方向上，視頻列通常包含統(tǒng)計冗余度。MPEG壓縮技術(shù)所依賴的基本統(tǒng)計特性為像素之間(interpel)的相關(guān)性，這里包含這樣一個設(shè)想：即在各連續(xù)幀之間存在簡單的相關(guān)性平移運動。這里假定：一個特殊畫面上的像素量值，可以(采用幀內(nèi)編碼技術(shù))根據(jù)同幀附近像素來加以預(yù)測，或者可以(采用幀間技術(shù))根據(jù)附件幀中的像素來加以預(yù)測。直覺告訴我們：在某些場合，如一個視頻序列鏡頭變化時，各附近幀中像素之間的時間相關(guān)性就很小，甚至消失 —這時，該視頻鏡頭就成為一組無相關(guān)牲的靜止畫面的組合。在這種情況下，可采用幀內(nèi)編碼技術(shù)來開發(fā)空間相關(guān)性，來實現(xiàn)有效的數(shù)據(jù)壓縮，MPEG壓縮算法采用離散余弦變換(DCT)編碼技術(shù)，以8×8像素的畫面塊為單位，有效地開發(fā)同一面面各附近像索之間的空間相關(guān)性。然而，若附近幀中各像素間具有較大的相關(guān) 性時，也就是說兩個連續(xù)幀的內(nèi)容很相似或相同時，就可以采用應(yīng) 用時間預(yù)測(幀間的運動補償預(yù)測)的幀間DPCM編碼技術(shù)。在多種MPEG視頻編碼方案中，若將時間運動補償預(yù)測路剩余空間信息的變換碼自適應(yīng)地結(jié)合起來，就能實現(xiàn)數(shù)據(jù)的高壓縮(視頻的 DPCM/DCT混合編碼) 圖1給出了一個畫面的帕內(nèi)像素問相關(guān)性特性的舉例，這里采用了一個非常簡單，但很有價值的統(tǒng)計模式。這個假設(shè)的簡單模式已包括了許多“典型”畫面的一些基本的相關(guān)特性，也就是指相鄰像素間的高度相關(guān)性，以及隨著像素間距的增大相關(guān)性的單值衰減特性。我們以后將利用這一模式來展示變換區(qū)域編碼的一些特性。一些“典型”畫面的像素間的空間相關(guān)性，是應(yīng)用具有高度像素間相關(guān)性的AR(1)GaussMarkov畫面模式來加以計算的。變量X和Y分別表示像素之間在畫面水平和垂直方向上的距離。

(B)二次取樣和內(nèi)插法

　　幾乎所有本論文中所敘述的視頻編碼技術(shù)，在編碼之前，均大量地進(jìn)行了二次取樣和量化工序。二次取樣的基本概念是想減少輸入視頻的Dimension 水平Dimension和或垂直Dimension)，并在進(jìn) 行編碼處理之前先對像素進(jìn)行編號。值得注意的是：在有些應(yīng)用場合，在時間方向上也對視頻進(jìn)行二次取樣，以便在編碼之前降低幀頻。在接收機端，已解碼圖像是通過內(nèi)插法來加以顯示的。這一方法可以認(rèn)為是一種最簡單的壓縮技術(shù)，這種壓縮技術(shù)利用了人眼特有的生理特姓，因而去除了視頻數(shù)據(jù)中的含有的主觀冗余度—即與色度信號的變化相比，人眼對亮度信號的變化更靈敏。故眾多 MPEG編碼方案首先將畫面分成YUV與量信號(一個亮度分量和二個色度分量)接著，相對于亮度分量，對色度分量進(jìn)行二次取樣，對于一些特殊應(yīng)用，有一個Y：U：V比率(即對于MPEG—2 標(biāo)準(zhǔn)，采用4：1：1或4：2：2.

(C）運動補償預(yù)測

　　運動補償預(yù)測是一個有力的工具，以便減小幀間的時間冗余度；并作為用于時間DPCM編碼的預(yù)測技術(shù)，這一工具在MPEGl 和MPEG2視頻編碼標(biāo)準(zhǔn)中得到廣泛應(yīng)用。運動補償概念是以對視頻幀間運動的估算為基礎(chǔ)的，也就是說，若視頻鏡頭中所有物體均在空間上有一位移，那么用有限的運動參數(shù)(如對于像素的平移運動，可用運動矢量來描述)來對幀間的運動加以描述。在這一簡單例子中，一個來自前編碼幀的運動補償預(yù)測像素，就能給出一個有效像素的最佳預(yù)測。通常，預(yù)測誤差和運動矢量均傳送至接收機。然而，將一個運動信息對每一個編碼畫面像素進(jìn)行編碼，這既不值得也沒有這個必要。由于一些運動矢量之間的空間相關(guān)性通常較高，有時可以這樣認(rèn)為：一個運動矢量代表一個相鄰像素塊的運動。為了做到這一點，畫面一般劃分成一些不連接的像素塊(在 MPEGl和MPEG2標(biāo)準(zhǔn)中一個像素塊為16×16像素)，對于每一個這樣的像素塊，只對一個運動矢量進(jìn)行估算、編碼和傳送(圖2)。在MPEG壓縮算法中，運動補償預(yù)測技術(shù)用來減少幀間的時間冗余度，只對預(yù)測誤差畫面(原始畫面與運動補償預(yù)測畫面之間的差別)加以編碼?？偟膩碚f，由于采用依據(jù)于前編碼幀的預(yù)測，待編碼的運動補償幀間誤差圖像中像素之間的相關(guān)性就差了。用于運動補償?shù)膲K匹配法：在待編碼的第N有效幀中，為每一個畫面塊估算一個運動矢量(mv)該運動矢量針對前已編碼的第N—l幀中同樣大小的一個參照畫面塊。運動補償預(yù)測誤差是這樣計算的：在帶有前幀參照塊中運動飄移對應(yīng)物的面面塊中，減去一個像素。

(D)變換或編碼

　　二十年來，人們已對變換編碼進(jìn)行了大量的研究，它已成為用于靜止畫面編碼和視頻編碼的一種非常流行的壓縮方法。變換編碼的目的在于去掉幀內(nèi)或幀間誤差圖像內(nèi)容的相關(guān)性，對變換系數(shù)進(jìn) 行編碼，不是對畫面的原始像素進(jìn)行編碼。為此，輸入畫面被分成不連接的b像素的畫面塊(即N×N像素)。以一個線性、可分離的和單元前向變換為基礎(chǔ)，本變換可表示為一個矩陣操作，采用一個N×N變換矩陣A，采獲取N×N變換系數(shù)C。 C＝AbAt 這里AT表示變換矩陣A的一種移項式。注意：這種變換是可逆的，原因是，采用線性和可分離的反向變換，可以再現(xiàn)原始的N×N個 b像素的畫面塊. b=AtCa 利用許多可能的方法，應(yīng)用于較小的由8×8像素組成的畫面塊的離散余弦變換(DCT)已成為一種最佳的變換，用于靜止畫面和視頻編碼。事實上，由于基于DCT的方法具有較高的抗相關(guān)性能，并能獲得快速DCT算法，適用于實時應(yīng)用，已在大多數(shù)畫面和視頻編碼標(biāo)準(zhǔn)中加以使用。VLSI技術(shù)的運行速率適合較廣泛的視頻應(yīng)用范圍，故已商業(yè)化。變換編碼的主要目的是使盡量多的變換系數(shù)足夠的小，使它仍無效(從統(tǒng)計和主觀測量角度來看)。同時，應(yīng)盡量減小系數(shù)之間的統(tǒng)計相關(guān)性，目的在于減少對剩余系數(shù)進(jìn)行編碼所需的比特數(shù) 量。圖3示出了幀內(nèi)DCT系數(shù)8×8像素塊的方差(能量)，這里是以圖1中已討論過的簡單的統(tǒng)計模式設(shè)想為基礎(chǔ)的。此處，每一個系數(shù)的方差，表示了系數(shù)(大量幀的乎均值)的可變性。與方差大的系數(shù)相比，方差小的系數(shù)在畫面像素塊再現(xiàn)時意義就不大了。如圖3中所示，一般來說，為了獲得畫面像素塊的有用的近似再現(xiàn)，只要將少量DCT系數(shù)傳送給接收機就行。然而，那些最高有效位 DCT系數(shù)集中在左上角(低DCT系數(shù))，面隨著距離的增加，系數(shù) 的有效牲就逐步下降。這意味著：與較低位的系數(shù)相比，較高位的 DCT系數(shù)在畫面像素塊再現(xiàn)時的重要性就差一些。采用運動補償預(yù)測，DCT變換的結(jié)果是，使DCT定義域中的時間DPCM信號實現(xiàn) 筒單的再現(xiàn)—這實質(zhì)上繼承了這種相似的統(tǒng)計相關(guān)性，如以DCT 定義域中的這個DPCM信號來再現(xiàn)圖2中的幀內(nèi)信號(雖然能量有所減少)—這就是為什么為了使幀間壓縮獲得成功MPEG算法要采用DCT編碼的原因圖3圖示了DCT系數(shù)的方差分布情況，典型地計算了大量的畫面塊而獲得的平均值。DCT系數(shù)方差計算是以圖1中的統(tǒng)計模式為基礎(chǔ)的。U和V分別該8×8塊中水平和垂直畫面變換域變量。大多數(shù)總方差集中在DCDC了系數(shù)周圍(U＝0，v＝0) DCT跟離散傅里葉變換很接近，而認(rèn)識到以下這點是重要的，即可以對DCT系數(shù)加以頻率說明，使其更接近于DFTo在畫面塊內(nèi)，低位的Dcr系數(shù)與較低的空間頻率有關(guān)而高位的DCT系數(shù) 與較高的頻率有關(guān)。這一特性在MPEG編碼方案中被加以應(yīng)用，以便去除畫面數(shù)據(jù)中所包含的主觀冗余度，這一切是以人類視覺系統(tǒng) 標(biāo)準(zhǔn)為基礎(chǔ)的。由于跟較高空間頻率有關(guān)的再現(xiàn)誤差比較，觀眾對較低空間頻率的再現(xiàn)誤差更加敏感，故在給定比特率情況后，為了要改進(jìn)解碼畫面的視覺質(zhì)量往往根據(jù)視覺(感覺量化)對系數(shù)進(jìn) 行頻率自適應(yīng)加權(quán)(量化) 上述兩種技術(shù)—時間運動補償預(yù)測和變換域編碼—的結(jié) 合，被認(rèn)為是MPEG編碼標(biāo)準(zhǔn)的關(guān)鍵點 MPEG算法的第三個特點是這兩種技術(shù)的處理是較小的畫面塊(典型情況是：在16×16 像素上進(jìn)行運動補償，在8×8像素上進(jìn)行DCT編碼)。由于這個原因，MPEG編碼算法通常又叫作基于畫面塊的DPCM/DCT混合算法.

MPEG-1：一個通用標(biāo)準(zhǔn)-一個應(yīng)用于數(shù)字存儲媒體
（最高速率達(dá)1．5Mb／s)的活動圖像和伴音的編碼標(biāo)準(zhǔn)

由MPEG—1開發(fā)出來的視頻壓縮技術(shù)的應(yīng)用范圍很廣，包括從CD—ROM上的交互系統(tǒng)，到電信網(wǎng)絡(luò)上的視頻傳送 MPEG1視頻編碼標(biāo)準(zhǔn)被認(rèn)為是一個通用標(biāo)準(zhǔn)。為了支持多種應(yīng)用，可有用戶來規(guī)定多種多樣的輸人參數(shù)，包括靈活的圖像尺寸和幀頻。MPEG推薦了一組系統(tǒng)規(guī)定的參數(shù)：每一個MPEG—l兼容解碼器至少必須能夠支持視頻源參數(shù)，最佳可達(dá)電視標(biāo)準(zhǔn)：包括每行最小應(yīng)有720個像素，每個圖像起碼應(yīng)有576行，每秒最少不低于 30幀，及最低比特率為1．86Mb／s，標(biāo)準(zhǔn)視頻輸入應(yīng)包括非隔行掃描視頻圖像格式。應(yīng)該指出：但并不是說，MPEGl的應(yīng)用就限制于這一系統(tǒng)規(guī)定的參數(shù)組。根據(jù)JPiG和H。261活動，已開發(fā)出MPEG—l視頻算法。當(dāng) 時的想法是：盡量保持與CCITT H．261標(biāo)準(zhǔn)的共同性，這樣，支持兩個標(biāo)準(zhǔn)的做法就似乎可能。當(dāng)然，MPEGl主要目標(biāo)在于多媒體CD—ROM的應(yīng)用，這里需要由編碼器和解碼器支持的附加函數(shù) 牲。由MPEGl提供的重要特性包括：基于幀的視頻隨機存取，通過壓縮比特流的快進(jìn)/快退搜索，視頻的反向重放，及壓縮比特流的編輯能力。

(A)基本的MPEG—1幀間編碼方案

基本MPEGl(及MPEG2)視頻壓縮技術(shù)的基礎(chǔ)為：宏模塊結(jié) 構(gòu)、運動補償及宏模塊的有條件再補給。如圖49所示，MPEG—1 編碼算法以幀內(nèi)編碼模式(I圖像)對視頻序列的第一幀進(jìn)行編碼。每一個下一幀采用幀間預(yù)測法(P圖像)進(jìn)行編碼——僅僅采用來自前面最近的已編碼I或P幀的數(shù)據(jù)，來進(jìn)行預(yù)測，MPEG—l算法對基于畫面塊視頻序列的幀加以處理。視頻序列中的每一個彩色輸入幀被分割成多個非重迭的“宏模塊”，如圖4b所示。每一個宏模塊包含4個亮度塊(Y1，Y2，Y3，Y4)及兩個色度塊(U，V)，每個宏模塊的尺寸為8*8像素，這些數(shù)據(jù)塊來自于亮度帶和共址的色度帶。在Y：U：V亮度與色度像素之間的取樣比為4：1：1 以最近的前幀為基礎(chǔ)，采用運動補償預(yù)測法來對P圖像加以編碼。每一幀被分割成不連接的“宏模塊”(MB)。圖4b對于每一個宏模塊，對有關(guān)4個亮度塊(Y 3，Y2，Y3， Y4)和兩個彩色決(U，V)的信總均加以編碼。每個包含8×8個像素。基本的混合型DPCM/DCT MPEGl編碼器和解碼器結(jié)構(gòu)的方塊圖示于圖5之中。視頻序列第1幀(I圖像)以幀內(nèi)(INTRA) 模式加以編碼不參照任何一個過去幀或未來幀。在編碼器處，DCT 被加到每一個8×8亮度塊和色度塊上，在DC了輸出之后，該64個 DCT系數(shù)中的每一個系數(shù)被均勻量化(Q)，在宏模塊中被用來對 DCT系數(shù)進(jìn)行量化的量化器步長，傳送給接收機。‘量化之后，最低位DO系數(shù)(DC系數(shù))的處理方法跟保留(remaining)系數(shù) (AC系數(shù))的處理方法是不一樣的，DC系數(shù)表示分量模塊的平均亮度，可用微分DC預(yù)測法對DC系數(shù)加以編碼。保留DCT系數(shù)及它們位置的非零量化器值被Z字形掃描，并采用可變長度編碼 (VLC)表對其進(jìn)行掃描寬度嫡編碼。圖5一個基本混合型DC了／DPCM 編碼器和解碼器結(jié)構(gòu)的方?jīng)Q圖圖6中表示出了系數(shù)Z字形掃描的概念。因為要利用系數(shù)將這個兩維的畫面信號變換成一個單維的比特流，故在量化DCT域二維信號掃描之后，進(jìn)行的是可變長度碼—字分配工序。并沿著掃描行和兩個連續(xù)非零系數(shù)之間的距離(行程)，對這些非零AC系數(shù)量化器值(長度)加以檢測。采用僅傳送—個VLC碼字的方法，對每一個連續(xù)(行程、長度)對進(jìn)行編碼，Z字形掃描的目的在于：在跟蹤高頻系數(shù)之前先去跟蹤低頻DCT系數(shù)(包含最大的能量) 圖6在8×8塊內(nèi)，已量化DCT系數(shù)的Z字形掃描。僅僅對非零量化DCT系數(shù)加以編碼。圖中指出了非零DCT系數(shù)可能的位置 Z字形掃描的做法要想做到按系數(shù)的有效性去跟蹤DCT系數(shù) 參看圖3，最低位的DCT系數(shù)(0，0)包含了這些決中的最大部分的能量，這些能量集中在較低位的DCT系數(shù)周圍解碼器執(zhí)行反向操作，首先從比特流中提取可變長度編碼字 (VLD)并加以解碼，以便為每一個畫面塊獲取非零DCT系數(shù)的位置和量化器值。隨著一個畫面塊所有非零DCT系數(shù)的再現(xiàn)(Q) 及隨后獲得的反DCT(DCT—1)，就得到量化塊像素值。通過對整個比特流的處理，就對所有的畫面塊進(jìn)行了解碼，并加以了再現(xiàn)。為了對P圖像進(jìn)行編碼，前面的I圖像的第N—l幀，存儲在設(shè)置在編碼器和解碼器內(nèi)的幀存儲器中。在宏模塊中執(zhí)行運動補償 (MC)—對于即將進(jìn)行編碼的那個宏模塊，在第N幀與第N—1 幀之間，僅對一個運動矢量進(jìn)行估算。這些運動矢量被編碼及傳送至接收機。運動補償預(yù)測誤差是這樣計算的：即在帶有前幀運動飄移對應(yīng)物的宏模塊中減去一個像素。然后是將8×8DCT加入到包含在該宏模塊內(nèi)的每一個8×8塊中，接著是對DCT系數(shù)進(jìn)行量化 (Q)，并進(jìn)行掃描寬度編碼和炳編碼(VLC)o這里需用一個視頻緩沖器；以確保編碼器能產(chǎn)生一個常量的目標(biāo)比特率輸出。對于幀內(nèi) 每一個宏模塊來講，量化步進(jìn)(SZ)是可以調(diào)整的，以便獲得給定的目標(biāo)比特率，并避免緩沖器出現(xiàn)溢流和下溢現(xiàn)象。解碼器采用反向處理，以便在接收機中再生第N幀的一個宏模塊。對包含在視頻解碼器緩沖器(VB)中的可變長度字(VLD) 進(jìn)行解碼之后，就能再現(xiàn)(Q和DCT—1操作)預(yù)測誤差像素值。來自包含在幀存儲器(FS)中的前第N—1曲的運動補償像素，被加入到預(yù)測誤差之中，以恢復(fù)第N幀的那一宏模塊。在圖7a一圖7d中9采用了一個典型的測試序列，描述了采用運動補償預(yù)測編碼視頻的好處，而該預(yù)測是以MPEG編碼器中的前第N—1再現(xiàn)幀為依據(jù)的。用7a示出在N時間上將要進(jìn)行編碼的一個幀，圖7b示出了在N—1時間上的再現(xiàn)幀，其存儲在設(shè)置在編碼器和解碼器中的幀存儲器(FS)內(nèi)。采用編碼器運動估算方法已對圖7b中所示的塊運動矢量(mv，參照圖2)加以估算，并能預(yù)測第 N幀中每個宏模塊的平移運動的位移(參照第N—1幀)。圖7b出示了這個純幀差信號(第N幀減去第N—1幀)，若在編碼過程根本不采用運動補償預(yù)測，那么就能獲得這個幀差信號——即假定所有運動矢量為零。圖7d出示了：當(dāng)采用圖7b的運動矢量來進(jìn)行預(yù)測時的運動補償幀差信號。很明顯，跟圖7c中的純幀差編碼相比，采用運動補償，大大減縮了這個將要被編碼的殘差信號。圖7：(a)在N時間上將要被編碼的幀：(b)在P4—1時間上的幀，用來預(yù)測第N幀的內(nèi)容(注意：四面中所示的運動矢量，并不是存儲在編碼器和解碼器內(nèi)的再現(xiàn)畫面的一部分；(c)沒采用運動補償所獲取的預(yù)測誤差畫面——假設(shè)所有的運動矢量均為零； (d)若采用運動補償預(yù)測，將要進(jìn)行編碼的預(yù)測誤差畫面.

(B)條件再補給

　　MPEG1編碼算法所支持有一個基本特點是，如需要時(即與前幀同一個宏模塊相：比，宏模塊內(nèi)容已有變更時)，可以在解碼器中更新宏模塊的信息(條件宏模塊再補給)在較低比特率要實行規(guī)頻序列的有效編碼的關(guān)鍵，是選擇合適的預(yù)測模式，以實現(xiàn)條件再補給，MPEG標(biāo)準(zhǔn)主要區(qū)分有三種不同的宏模塊編碼類型(MB 類型)：跳躍MB：來自前幀的預(yù)測，運動矢量為零。根本無宏模塊信息被進(jìn)行編碼，及被傳送至接收機。幀間MB：根據(jù)前幀，采用運動補償預(yù)測。傳送MB類型及MB 地址；如需要，也傳送運動矢量、DCT系數(shù)及量化步長。幀內(nèi)MB：根本不采用來自前幀的預(yù)測(僅僅采用幀內(nèi)預(yù)測) 僅僅向接收機傳送MB類型、MB地址、DCT系數(shù)及量化步長。

(C)特殊的存儲媒體功能

　　為了從存儲媒體中存取視頻，MPEG1視頻壓縮算法設(shè)計成能支持一些重要功能，如隨機存取有及快進(jìn)(FF)和快倒(FR)重放等功能?？紤]到對存儲媒體的需求比及進(jìn)一步探索運動補償和運動內(nèi)描的優(yōu)越性，由MPEGl引入B圖像(雙向預(yù)測測/雙向內(nèi)掃圖像)概念。這一概念示于圖8，對象為視頻序列中的一組連接圖像。圖像有三種類型：幀內(nèi)圖像(I圖像)編碼時，不參照視頻序列中的其它圖像，已在圖4中介紹過，I圖像允許存取點進(jìn)行隨機存取，并對比特流進(jìn)行FF／FR功能，不過只能進(jìn)行低壓縮。幀內(nèi)預(yù)測圖像(P圖像)編碼時要參照挨差最近的前一個已編碼的I圖像或P 圖像，通常采用運動補償，以提高編碼效率。由于通常用P圖像作為參照物來預(yù)測未來幀或過去幀，故P圖像不提供用于隨機存取或編輯的合適的存取點。雙向預(yù)測／內(nèi)描的圖像(B圖像)備用過去幀和未來幀作為參照物。為了實現(xiàn)高壓縮，可以依據(jù)挨得最近的過去、未來的P圖像或I，圖像，來實施運動補償。B圖像本身永不會當(dāng)作參照物來加以使用。圖8在MPEGl視頻序列中所采用的I圖像(I)、P圖像(P) 和B圖像(B)，依據(jù)兩個最近的已編碼幀(I圖像或P圖像)采用運動補償預(yù)測，可以對B圖像進(jìn)行編碼。為了適應(yīng)不同應(yīng)用的需求，視頻序列內(nèi)圖像編碼類型的安排具有靈活性。圖中指出了預(yù)測的方向。使用者在安排視頻序列中的圖像類型時具有很大的靈活性，以適應(yīng)各種不同應(yīng)用的需求。作為總的原則，僅僅采用I圖像(IIIIII.....)編碼的視頻序列，具有最好的隨機存取、FF／FR和編輯功能，但只能實現(xiàn)低壓縮。已編碼的,帶有一個常規(guī)修正的I圖像及無B圖像的序列(即IPPPPPPIPPP......)，能實現(xiàn)中度壓縮，具有一定程度的隨機存取及FF／FR功能。所有這三種圖像類型的結(jié)合，能做到高壓縮，具有較好的隨機存取和FF／FR功能，但大大增加了編碼延遲時間。這一延遲也許在一些應(yīng)用場合是不允許的，如視頻電話、視頻會議。

(D)速率控制

　　MPEGl編碼算法所支持的一個重要特點是，通過調(diào)節(jié)量化 DCT系數(shù)的量化器步長(sz)(見圖5)，為了滿足特殊應(yīng)用的要求，可以調(diào)節(jié)比特率(因而也調(diào)節(jié)了再現(xiàn)視頻信號的質(zhì)量) DCT 系數(shù)的粗量化能對具有高的視頻信號進(jìn)行存儲或傳送，但會產(chǎn)生較大的編碼人工產(chǎn)物，這取決于量化等級 MPEGI標(biāo)準(zhǔn)允許編碼器為每一個已編碼宏模塊選擇不同的量化器值——這樣，可以對需要改進(jìn)畫面質(zhì)量的位置上分配比特，具有很大的靈活性。另外，還能產(chǎn)生常量和變量比特率，用于壓縮視頻的存儲或?qū)崟r傳送。壓縮的視頻信息從實質(zhì)上來講本來就是可變的。通常是由連續(xù) 視頻幀的變化的內(nèi)容所引起的，必須對由編碼器產(chǎn)生的可變比特流緩沖于視頻緩沖器中，如圖5所示。進(jìn)入到編碼器VB的輸入在時間上是可變的，而輸出是一個恒定比特流。在解碼器，VB輸入比特流是恒定的，用于解碼的輸出是可變的 MPEG編碼器和解碼器采用同樣尺寸的緩沖器，以避免產(chǎn)生再現(xiàn)誤差。編碼器中的速率控制算法，依據(jù)視頻內(nèi)容和活動程度，調(diào)節(jié)量化器的步長(SZ)，以保證視頻緩沖器永不溢流——同時，應(yīng)保持緩沖器盡可能的滿，以盡量提高畫面質(zhì)量。理論上講，采用大的視頻緩沖器，可以避免緩沖器出現(xiàn)溢流現(xiàn)象。然而，除大型緩沖器價格昂貴外，對于要求在編碼器與解碼器之間的延遲小的應(yīng)用場合，大型緩沖器還存在另外一些缺點，如對話或視頻的實時傳送。如果由于采用了視頻緩沖器來產(chǎn)生一個恒定的比特率輸出，編碼器比特流是平坦的，那么在編碼處理跟在解碼器視頻再現(xiàn)時間之間就會引入一個延遲。通常，緩沖器越大，所引入的延遲時間越長 MPEG已規(guī)定了最小的視頻緩沖器的尺寸，它需要獲得所有解碼器運作的支持。該數(shù)值等同于VB尺寸的最大值，編碼器用它來產(chǎn)生比特流。然而，為了減少延遲或編碼器的復(fù)雜性，在編碼器選擇一個虛擬緩沖器尺寸值是可能的，該值比需要得到解碼器支持的最小VB尺才要小。在發(fā)送視頻比特流之前，先將該虛擬緩沖器尺才值傳送給解碼器。用于壓縮視頻的速率控制算法不屬于MPEG—1標(biāo)準(zhǔn)，這就留給實施者去開發(fā)有效的戰(zhàn)略方法。應(yīng)著重指出：制造廠商以指定比特率去壓縮視頻所選擇的速率控制算法的效率，對在解碼器再現(xiàn)的視頻的可視質(zhì)量有非常大的影響。

(E）隔行視頻源的編碼

　　用于MPEG—1的標(biāo)準(zhǔn)化視頻輸人格式是非隔行制。然而，對 MPEG1來講，隔行彩色電視(525行，29．97幀/每秒及625行， 25幀/秒)編碼是一個重要的應(yīng)用?；诟粜性吹街鹦兄虚g格式的轉(zhuǎn)換，MPEGl已對Rec．601數(shù)字彩色電視信號的編碼提出一個建議。從本質(zhì)上講，只對每一個隔行視頻輸入幀中的一個水平二次取樣場進(jìn)行編碼，即二次取樣頂(top)場。在接收機,根據(jù)已解碼的和水乎內(nèi)插的奇數(shù)場，采預(yù)測偶數(shù)場，加以顯示。在編碼之前所必須的預(yù)處理及編碼之后所需的后處理，均在MPEGl國際標(biāo)準(zhǔn)文件的信息附錄中有詳細(xì)敘述.

MPEG2標(biāo)準(zhǔn)：用于活動圖像和伴音的通用編碼

　　世界范圍的MPEGl正在開發(fā)一個重要的及成功的視頻編碼標(biāo) 準(zhǔn)，有關(guān)產(chǎn)品不斷增多，并開始商品化。成功的關(guān)鍵因素在于標(biāo)準(zhǔn) 的通用結(jié)構(gòu)，能支持廣泛的應(yīng)用及應(yīng)用的特別參數(shù)。然而，在1991 年，MPEG繼續(xù)它的標(biāo)準(zhǔn)化努力，進(jìn)入第二階段(MPEG—2)，為 MPEG—l最初沒有包括在內(nèi)或尚未想到的應(yīng)用，提供了一種視頻編碼方法。特別是，已對MPEG—2提出一個要求，即它所提供的視頻質(zhì)量，不能低于NTSC／PAL，最高應(yīng)可達(dá)到CCIR601質(zhì)量。正在出現(xiàn)的一些應(yīng)用，如數(shù)字有線電視分配、通過ATM的網(wǎng)絡(luò)數(shù) 據(jù)庫業(yè)務(wù)、數(shù)字VTR應(yīng)用以及衛(wèi)星和地面數(shù)字廣播分配等，由于新的MPEG—2標(biāo)準(zhǔn)化階段結(jié)果提高了圖像質(zhì)量，均能從中受益。已與ITU—TSGl5專家組(ATM視頻編碼專題)聯(lián)合，開展了研究工作。1994年，發(fā)布了MPEG—2的草案國際標(biāo)準(zhǔn)(與ITU—T H．262建議書相同)該標(biāo)準(zhǔn)的技術(shù)規(guī)格打算應(yīng)具有通用性—所以，該標(biāo)準(zhǔn)的目的在于，應(yīng)有助于比特流在不同應(yīng)用、傳輸和存儲媒體之間的互換。從本質(zhì)上說，MPEG—2可以視為是一組MPEG—1的最高級編碼標(biāo)準(zhǔn)，并設(shè)計或能向后跟MPEG—1相兼容—每一個MPEG —2兼容解碼器能對有效的MPEG—1比特流進(jìn)行解碼。為了滿足多種不同應(yīng)用的需求，許多視頻編碼算法被綜合于單個句法之中。為獲得足夠的性能和質(zhì)量，MPEG—2已增添了新的編碼特性，已開發(fā)出來的預(yù)測模式，是為了支持隔行視頻的有效編碼。此外，還引進(jìn)了可分等級的視頻編碼擴展，以提供另外的功能，如數(shù)字電視和HDTV的嵌入式編碼，沒出現(xiàn)傳輸誤差時質(zhì)量的緩慢降低。然而，整個句法的實施，對于大部分應(yīng)用來講也許是不實際的，MPEG—2已引進(jìn)了“型”和“層”的概念，來規(guī)定設(shè)備之間的一致性，并不支持整個句法的實施。型和層提供了定義句法子集的方法，以及對特殊比特流進(jìn)行解碼所需的解碼器功能。表2和表 3中表明了這種概念。作為一般法規(guī)，每一個型定義一組新的算法，作為最高級組加在下一個型中的算法上。層規(guī)定了參數(shù)的范圍，在實施中得到支持 (即畫面尺寸、幀頻和比特率)主型(MAINProfile)的MPEG—2 核心算法的特點是，對于逐行和隔行視頻源均為非可分等級編碼。并希望：大部分MPEG—2實施過程至少應(yīng)符合位于主層(MAIN LEvel)的主型，該主型支持?jǐn)?shù)字視頻的非可分等級編碼，并擁有近似的數(shù)字電視參數(shù)—最大的取樣密度，每幀576行，每行720個取樣；最高的幀頻30幀/秒；最高的比特率15Mb／s。

(A）MPEG—2非可分等級編碼模式

　　在主型中所定義的MPEG—2算法，是MPEG—I編碼方案的直接擴展，以適應(yīng)隔行視頻的編碼，同時保留了MPEG—1所提供的所有功能。與MPEG—1標(biāo)準(zhǔn)一樣，MPEG—2編碼算法的基礎(chǔ) 為通用的混合DCT／DPCM編碼方案，如圖5所示，并并入了宏模塊結(jié)構(gòu)、運動補償和編碼模式，以便執(zhí)行宏模塊的條件再補給。I圖像、P圖像和B圖像的概念，在MPEG—2中全部保留，以獲得有效的運動頸測及有助于隨機存取功能的實現(xiàn)。注意： MPEG—2單型(SIMPLEFrofile)中所定義的算法9基本上跟主型中的算法相同，不一樣的地方是，在編碼器根本不存在B圖像預(yù)測模式。故B圖像解碼所需要的額外的實施復(fù)雜性和另外的幀存儲器，對于MPEG—2解碼器來說不必要的，而只要求MPEG—2解碼器符合該單型就行。場圖像和幀圖像：MPEG—2已介紹了幀圖像和場圖像的概念，也介紹了特殊的幀預(yù)測和場預(yù)測模式，以適應(yīng)逐行和隔行視頻的編碼。對于隔行序列來講，假設(shè)編碼器輸入是由一系列奇數(shù)(頂)場和偶數(shù)(底)場所組成，而奇數(shù)場與偶數(shù)場在時間相隔—場的時間。一幀中兩場是分別編碼的，在這種情況下，每一場被分離成相鄰的不重疊的宏模塊，并對場進(jìn)行DCT處理。另一種方法是，將兩場看成為一幀(幀圖像)，與一般的逐行視頻序列編碼相類似，一起進(jìn)行編碼。在這里，頂場和底場的連續(xù)行就簡單地匯合組成幀。注意：在單一的視頻序列中，幀圖像和場圖像均能被使用圖9場圖像概念和可能的場預(yù)測舉例。頂場和底場是分別編碼的。采用以那個前編碼頂場為依據(jù)的運動補償場間預(yù)測，來對每一個底場進(jìn)行編碼。而頂場編碼采用的是運動補償場間預(yù)測，依據(jù)是前編碼頂場或者是前編碼底場。這一概念可以加以延伸，以并入B 圖像。場和幀預(yù)測：MPEG—2已介紹了一些新的運動補償場預(yù)測模式，以便有效地對場圖像和幀圖像加以編碼。圖9中簡單描述了這種新概念的一個例子，這里出示的是一個隔行視頻序列，只會有三個場圖像，不帶B圖像。在場預(yù)測中，是采用來自一個或多個前解碼場的數(shù)據(jù)，來對每一場單獨進(jìn)行預(yù)測的，也就是說，對于頂場來說，測是根據(jù)一個前解碼頂場(采用運動補償預(yù)測)或?qū)儆谕?圖像的前解碼底場來獲取的。一般來說，若場間根本沒有運動時，寧愿采用依賴于同一圖像解碼場的場間預(yù)測。采用哪一個參照場來進(jìn)行預(yù)測，這一信息隨著比特流被發(fā)送出去。在場圖像中，所有預(yù)測均為場預(yù)測。幀預(yù)測作出幀圖像的預(yù)測，依據(jù)于一個或多個前解碼幀。在幀圖像中，可以采用場預(yù)測，也可以采用幀預(yù)測；可以一個宏模塊一個宏模塊地，來選擇所喜愛的那種預(yù)測模式。然而必須值得，頸測所依賴的那些場和幀，它們本身也許曾作為場圖像或者幀像，已完成了解碼工序 MPEG—2已介紹了一些新的運動補償模式，以便有效地探索場間的時間冗長余度，名稱叫做“雙主”(Dual Prime)預(yù)測，運動補償基于16×8畫面塊。這些方法的討論已超出本文的范疇。色度格式：MPEG—2已規(guī)定了補充的Y：V：V亮度和色度二次取樣比率格式，以促進(jìn)最高視頻質(zhì)量需求的應(yīng)用。除了已得到 MPEG—1所支持4：2：0格式外，MPEG—2的規(guī)格已擴展至4：2：2格式，符合演播全視頻編碼應(yīng)用的要求.

(B)MPEG—2可分等級編碼的擴展

　　MPEG—2已對可分級性方法進(jìn)行了標(biāo)準(zhǔn)化，這些方法所支持的應(yīng)用范圍，已超出基本主型編碼算法所支持的應(yīng)用范圍。可分級編碼的目的在于，在不同業(yè)務(wù)之間能提供互操作性，能較靈活地支持具有不同顯示功能的各種接收機。有的接收機既沒有能力或者也不要求再現(xiàn)視頻的全部清晰度，那么就可以只對分層比特流的子集進(jìn)行解碼，以較低的空間或時間清晰度，或者較低的質(zhì)量，來顯示視頻圖像?？煞旨壘幋a的另一個重要目的是可提供分層視頻比特流，它適合用于按優(yōu)先順序的傳輸。這里主要的難點在于，在出現(xiàn) 額道誤差情況下，如基于ATM傳輸網(wǎng)絡(luò)中單元的丟失，或地面數(shù) 字廣播的同頻道干擾，這時如何可靠地來傳送視頻信號。能靈活地支持多種清晰度，這一功能對于DHTV跟標(biāo)準(zhǔn)清晰度電視(SDTV)相互配合運作來講十分重要，這里問題是HDTV接收機應(yīng)跟SDTV產(chǎn)品相兼容。對HDTV源進(jìn)行了可分級編碼，就能實現(xiàn)這一兼容性，這就能避免很浪費地將兩個單獨的比特流分別地傳輸給HDTV和SDTV接收機。可分級編碼的其它一些重要應(yīng) 用，包括視頻數(shù)據(jù)庫瀏覽以及在多媒體環(huán)境中視頻的多清晰度重放。圖10顯示了多級視頻編碼方案的一般原理。這里提供了兩層，每一層支持著一個不同級上的視頻，即將輸入視頻信號降級成為一種較低清晰度視頻(在空間上或時間上降低取樣率)，就能實現(xiàn)多清晰度的顯示。可對降低視頻進(jìn)行編碼，進(jìn)入基層比特流，這樣也降低了比特率。可用升級再現(xiàn)的基層視頻(在空間上或時間上提高取樣率)來對原始輸入視頻信號加以預(yù)測。預(yù)測測誤差經(jīng)編碼進(jìn)入一個增強層比特流。若接收機沒能力或不需要顯示視頻信號的全部質(zhì)量，那就可以只對基層比特流加以解碼，以再現(xiàn)降級的視頻信號。這里著重指出：如只對較低比特率的基層進(jìn)行解碼，那么最高清晰度視頻的顯示，質(zhì)量也可能有所降低。對于每一層均分配有一個合適比特率的視頻，可以對其進(jìn)行可分級編碼，以滿足傳輸頻道或存儲媒體對帶寬的特殊需求。這一功能被認(rèn)為對于瀏覽視頻數(shù)據(jù)庫和經(jīng)不同網(wǎng)絡(luò)的視頻傳輸?shù)葮I(yè)務(wù)是有用的。在MPEG—2的標(biāo)準(zhǔn)化階段，發(fā)現(xiàn)下面的想法是不可能實現(xiàn)的，去開發(fā)一個通用的可分級編碼方案，以適應(yīng)已想到的所有各種應(yīng)用的需求。有些應(yīng)用被限制于低的裝置復(fù)雜性，另外一些要求非常高的編碼效率。結(jié)果是MPEG—2已對三種可分級編碼方案進(jìn)行了標(biāo) 準(zhǔn)化：SNR(質(zhì)量)可量測性、空間可量測性及時間可量測性—— 每一種方案的目標(biāo)在于有助于滿足特殊應(yīng)用的需求。這些可分級性方法可將算法擴展到主型定義的非可分級方案?？梢詫⒉煌目煞?級姓方法結(jié)合于一個混合編碼方案之中，也就是說，將空間可分級性和時間可分級性方法結(jié)合于一個混合層編碼方案之中，這樣，擁有不同空間清晰度和幀頻的各種業(yè)務(wù)之間的互操體性就能得到支持。將空間可分級性與SNR可分級性相結(jié)合，就能夠獲得HDTV 與SDTV業(yè)務(wù)之間的互操作性，并對頻道誤差有一定的恢復(fù)功能 MPEG—2句法最多可支持三個不同的可分級層。空間可分級性已經(jīng)開發(fā)完成，以便在接收機顯示不同的空間清晰度—從基層能夠再現(xiàn)空間清晰度較低的視頻，這一功能對于許多應(yīng)用均是有用的，包括對HDTV／TV系統(tǒng)采用嵌入式編碼，這樣就允許從數(shù)字TV業(yè)務(wù)向具有較高空間清晰度的HDTV業(yè)務(wù)過渡。這一算法的依據(jù)是用于逐行掃描畫面編碼的一種標(biāo)準(zhǔn)錐形方法，空間可分級性能夠靈活的支持很寬范圍的空間清晰度，但給主要編碼方案增添了很大的裝置復(fù)雜性。 SNR可分級性：該方法已基本開發(fā)成功，對于按優(yōu)先排列傳輸媒體來說，SNR可分級性能使視頻質(zhì)量下降時比較緩慢(質(zhì)量可分級性)，如果基層能避免受到傳輸誤差的影響，那么只要對基層信號加以解碼，就能獲得質(zhì)量衰減緩慢的視頻。用來實現(xiàn)質(zhì)量緩慢衰減的算法，它基于一種頻率(DCT域)可分級性技術(shù)。圖11中的兩個層以同樣的空間清晰度對視頻信號加以圖編碼，11a和圖llb 示出了SNR可分級性編碼器和解碼器可能的實施方法。該方法的實施，也就是主型MPEG—2的一種簡明的擴展，能夠獲得極佳的編碼效率。在基層，DCT系數(shù)被低級量化和發(fā)送，以便在低比特率情況下來獲取適中的圖像質(zhì)量。非量化DCT系數(shù)跟來自基層、量化步長較小的量化系數(shù)之間存在差值，而增強層就對這一差值進(jìn)行編碼，加以發(fā)送。在解碼器，通過對較低層和較高層比特流進(jìn)行解碼，就能再現(xiàn)最高質(zhì)量的視頻信號。利用這一方法，也可能在接收機中獲取空間清晰度較低的視頻圖像。如果解碼器從基層比特流選用最低的N×N DCT系數(shù)，就可用非標(biāo)準(zhǔn)反向DCT系數(shù)(尺寸為N×N)來再現(xiàn)空間清斷度已降低了的視頻圖像。然而，這個最低層已降級的視頻易于發(fā)生漂移現(xiàn) 象，這取決于編碼器和解碼器的操作運行。已開發(fā)的時間可分級性方法的目的跟空間可分級性的相類似—具有一個適用于立體顯示功能接收機的分層比特流，立體視頻就能得到支持。以由基層發(fā)送出來的、從對面觀看到的編碼圖像為依據(jù)，來預(yù)測增強層的立體視頻的一個圖像(左視圖像)，這樣就實現(xiàn)了分層工序。當(dāng)在ATM，地面廣播或者磁記錄環(huán)境中出現(xiàn)傳輸或頻道誤差時，數(shù)據(jù)分配的作用在于促進(jìn)誤差隱蔽功能。由于這一做法完全可以作為任一單層編碼方案的后處理和預(yù)處理技術(shù)采用，它與MPEG —2的標(biāo)準(zhǔn)化工作尚未正式完成，但在MPEG—2DIS文件的信息附錄中，已注明了有關(guān)這一做法的資料來源。該算法依賴于DCT 系數(shù)的分離，跟SNR可分類性方法相類似，與其它可分級編碼方案相比較，這一算法實施起來較為簡單。為了提供誤差保護(hù)，比特流中的已編碼DCT系數(shù)，在帶有不同誤差的兩個層中被分離和發(fā)送。