繼成功定義MPEG-1和MPEG-2之後,MPEG的專家們又即將推出新的ISO/IEC標準MPEG 4。MPEG-4旨在為視音頻數據的通信、存取與管理提供一個靈活的框架與一套開放的編碼工 具。這些工具將支持大量的應用功能(新的和傳統的)。尤為引人注目的是,MPEG-4提供 的多種視音頻(自然的與合成的)的編碼模式使圖像或視音頻中對象的存取大為便利。這種 視頻、音頻對象的存取,常被稱作基於內容的存取。基於內容的檢索是它的一種特殊形式。
實際上,數字化電視(自然的內容)、交互式圖形應用(合成的內容,如PC遊戲、虛擬 環境、GUI等)及WWW(內容的分布與存取)這三個領域的成功促進了MPEG-4的誕生。MPEG-4將提供多個標準化技術元素,以促進上述三個領域中各種形式的內容製作、分布與存取 的集成。
總的來說,MPEG-4是通用標準,這種通用性集中體現在它所支持的應用、比特率、分辨率、質量和服務上。然而從標準的進展狀況來看,MPEG-4把對基於內容的應用(Content Based Application,CBA)的支持放在了非常重要的地位,這種支持是多層麵的。
1.MPEG-4圖像與視頻標準的目標和功能
在MPEG-4圖像與視頻標準中,視頻表示工具的目標是為多媒體環境下的紋理、圖像和視頻數據的有效存儲、傳輸及管理提供標準化的核心技術,尤其強調這些工具對圖像和視頻內容的原子單位(稱為視頻對象VO)的編解碼能力,要能對任意形狀的視頻對象進行有效的表示,以支持所謂基於內容的功能集。一個講話者(不包括背景)可視為一個VO,這個講話者又可通過與其它AVO複合構成場景。另外,MPEG-4還支持MPEG-1和MPEG-2中已有的大多 數功能,包括對標準的矩形圖像序列的有效壓縮(支持多種數據格式、幀率、比特率和多層 次的時間、空間及服務的伸縮度)。傳統的矩形圖在MPEG-4中被看作是VO的一種特例。
為達到這樣一個“寬廣的”目標,而不局限於過窄的應用麵中,MPEG-4把各種應用中 相似的功能分門別類集中起來,以工具和算法的形式解決這些問題,包括:
·圖像和視頻的有效壓縮;
·紋理的有效壓縮(用於二維與三維網格上的紋理映射);
·隱含的二維網格的有效壓縮;
·控製網格運動的時變幾何參數的有效壓縮;
·對各種可視對象的有效隨機存取;
·對圖像和視頻序列的擴展操縱管理功能;
·圖像和視頻基於內容的編碼;
·紋理、圖像和視頻基於內容的可伸縮性;
·空間、時間和質量可伸縮性;
·在易錯(Error Prone)環境下的魯棒性。
上述大部分功能(除第一條外)很容易使人聯想到內容的製作、分布與存取。事實上, MPEG-4設定的很多特有的功能目標是由基於內容的應用抽取、提煉出來的。
2.MPEG-4圖像與視頻標準的技術結構
圖2是MPEG-4圖像與視頻標準目前所提供的比特率和功能的初步分類。下麵對比特率與 功能集之間的關係進行討論,以便對各技術及其相應功能在標準中所處的位置有更清晰的認識。
底部的VLBV(Very Low Bit rate Video)內核為在超低比特率(5k~64kb/s)環境下運作 的應用提供算法和工具,支持低分辨率(低於CIF格式)和低幀速(低於15Hz)的圖像序列。VLBV支持的麵向應用的基本功能包括:
·為實時多媒體通信應用提供傳統矩形圖像序列的VLBV編碼方法,這些方法以高壓縮比、高容錯度、低延遲和低複雜度為顯著特征。
·為VLBV多媒體數據庫存取應用中的“隨機存取”、“快進”、“快退”提供支持。
上述功能在較高比特率時同樣受到支持。這時,輸入信號的時空分辨率增高(有時達到ITU-R Rec.601的分辨率),但仍采用與VLBV內核相同或類似的技術和工具。高比特率的動 態範圍為64kb/s~4Mb/s。這一範圍內的典型應用是具有數字電視質量信號的廣播及交互式 檢索。為支持這些較高比特率的應用,MPEG-4中規定了編碼隔行信號工具。
基於內容的功能集支持內容(即場景中的物理對象VO)的單獨編碼和解碼。MPEG-4的 這一特性為交互性提供了有力的底層機製支持,也為在壓縮域對圖像或視頻的VO內容進行靈 活的表示和管理提供了有利條件。這種支持使接收端無需做進一步的圖像分割或變換,為實 時應用提供了便利。
另外,對於自然與合成視頻數據的混合編碼(如虛擬環境的展示),基於內容的編碼功 能允許把若幹不同來源的VO與合成的對象(如虛擬背景)合在一起。
3.傳統編碼與基於內容編碼的統一
MPEG-4圖像與視頻標準統一支持傳統矩形和任意形狀圖像與視頻的編解碼。圖3解釋了 這一思想。
傳統的圖像和視頻編碼采用類似於MPEG-1/2的技術,包括運動預測/補償及隨後的紋理 編碼。對於基於內容的應用,輸入的圖像序列可能具有任意形狀和位置。這時,傳統的途徑 可以通過附加編碼形狀和透明信息來擴展。形狀可以用8位透明分量表示(一個VO由多個其 它對象構成時)或用一個二值掩模描述。另外,通過對場景中每個物體采用適當的和精細的 基於對象的運動預測工具,可以大大提高某些視頻序列的壓縮比。這是基於內容編碼方法的 一個重要優點。
總的來說,對於MPEG-4,擴展的基於內容的編碼可視為傳統的VLBV內核或HBV工具由矩 形輸入向任意形狀輸入的邏輯延伸。在基於內容的編碼中,一些附加的元素被補充到由VLBV 和HBV內核提供的工具中,在這個意義上,基於內容的編碼是VLBV和HBV內核的超集。