一、數字視頻的采樣格式及數字化標準
模擬視頻的數字化包括不少技術問題,如電視信號具有不同的製式而且采用複合的YUV信號方式,而計算機工作在RGB空間;電視機是隔行掃描,計算機顯示器大多逐行掃描;電視圖像的分辨率與顯示器的分辨率也不盡相同等等。因此,模擬視頻的數字化主要包括色彩空間的轉換、光柵掃描的轉換以及分辨率的統一。
模擬視頻一般采用分量數字化方式,先把複合視頻信號中的亮度和色度分離,得到YUV或YIQ分量,然後用三個模/數轉換器對三個分量分別進行數字化,最後再轉換成RGB空間。
(一)、數字視頻的采樣格式
根據電視信號的特征,亮度信號的帶寬是色度信號帶寬的兩倍。因此其數字化時可采用幅色采樣法,即對信號的色差分量的采樣率低於對亮度分量的采樣率。用Y:U:V來表示YUV三分量的采樣比例,則數字視頻的采樣格式分別有4:1:1、4:2:2和4:4:4三種。電視圖像既是空間的函數,也是時間的函數,而且又是隔行掃描式,所以其采樣方式比掃描儀掃描圖像的方式要複雜得多。分量采樣時采到的是隔行樣本點,要把隔行樣本組合成逐行樣本,然後進行樣本點的量化,YUV到RGB色彩空間的轉換等等,最後才能得到數字視頻數據。
(二)、數字視頻標準
為了在PAL、NTSC和 SECAM電視製式之間確定共同的數字化參數,國家無線電谘詢委員會(CCIR)製定了廣播級質量的數字電視編碼標準,稱為CCIR 601標準。在該標準中,對采樣頻率、采樣結構、色彩空間轉換等都作了嚴格的規定,主要有:
1、采樣頻率為f s=13.5MHz
2、分辨率與幀率
3、根據f s的采樣率,在不同的采樣格式下計算出數字視頻的數據量:這種未壓縮的數字視頻數據量對於目前的計算機和網絡來說無論是存儲或傳輸都是不現實的,因此在多媒體中應用數字視頻的關鍵問題是數字視頻的壓縮技術。
(三)、視頻序列的SMPTE表示單位
通常用時間碼來識別和記錄視頻數據流中的每一幀,從一段視頻的起始幀到終止幀,其間的每一幀都有一個唯一的時間碼地址。根據動畫和電視工程師協會SMPTE(Society of Motion Picture and Television Engineers)使用的時間碼標準,其格式是:小時:分鍾:秒:幀,或 hours:minutes:seconds:frames。 一段長度為00:02:31:15的視頻片段的播放時間為2分鍾31秒15幀,如果以每秒30幀的速率播放,則播放時間為2分鍾31.5秒。
根據電影、錄像和電視工業中使用的幀率的不同,各有其對應的SMPTE標準。由於技術的原因NTSC製式實際使用的幀率是29.97fps而不是30fps,因此在時間碼與實際播放時間之間有0.1%的誤差。為了解決這個誤差問題,設計出丟幀(drop-frame)格式,也即在播放時每分鍾要丟2幀(實際上是有兩幀不顯示而不是從文件中刪除),這樣可以保證時間碼與實際播放時間的一致。與丟幀格式對應的是不丟幀(nondrop-frame)格式,它忽略時間碼與實際播放幀之間的誤差。
二、視頻壓縮編碼的基本概念
視頻壓縮的目標是在盡可能保證視覺效果的前提下減少視頻數據率。視頻壓縮比一般指壓縮後的數據量與壓縮前的數據量之比。由於視頻是連續的靜態圖像,因此其壓縮編碼算法與靜態圖像的壓縮編碼算法有某些共同之處,但是運動的視頻還有其自身的特性,因此在壓縮時還應考慮其運動特性才能達到高壓縮的目標。在視頻壓縮中常需用到以下的一些基本概念:
(一)、有損和無損壓縮:在視頻壓縮中有損(Lossy )和無損(Lossless)的概念與靜態圖像中基本類似。無損壓縮也即壓縮前和解壓縮後的數據完全一致。多數的無損壓縮都采用RLE行程編碼算法。有損壓縮意味著解壓縮後的數據與壓縮前的數據不一致。在壓縮的過程中要丟失一些人眼和人耳所不敏感的圖像或音頻信息,而且丟失的信息不可恢複。幾乎所有高壓縮的算法都采用有損壓縮,這樣才能達到低數據率的目標。丟失的數據率與壓縮比有關,壓縮比越小,丟失的數據越多,解壓縮後的效果一般越差。此外,某些有損壓縮算法采用多次重複壓縮的方式,這樣還會引起額外的數據丟失。
二)、幀內和幀間壓縮:幀內(Intraframe)壓縮也稱為空間壓縮(Spatial compression)。當壓縮一幀圖像時,僅考慮本幀的數據而不考慮相鄰幀之間的冗餘信息,這實際上與靜態圖像壓縮類似。幀內一般采用有損壓縮算法,由於幀內壓縮時各個幀之間沒有相互關係,所以壓縮後的視頻數據仍可以以幀為單位進行編輯。幀內壓縮一般達不到很高的壓縮。
采用幀間(Interframe)壓縮是基於許多視頻或動畫的連續前後兩幀具有很大的相關性,或者說前後兩幀信息變化很小的特點。也即連續的視頻其相鄰幀之間具有冗餘信息,根據這一特性,壓縮相鄰幀之間的冗餘量就可以進一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時間壓縮(Temporal compression),它通過比較時間軸上不同幀之間的數據進行壓縮。幀間壓縮一般是無損的。幀差值(Frame differencing)算法是一種典型的時間壓縮法,它通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數據量。
(三)、對稱和不對稱編碼:對稱性(symmetric)是壓縮編碼的一個關鍵特征。對稱意味著壓縮和解壓縮占用相同的計算處理能力和時間,對稱算法適合於實時壓縮和傳送視頻,如視頻會議應用就以采用對稱的壓縮編碼算法為好。而在電子出版和其它多媒體應用中,一般是把視頻預先壓縮處理好,爾後再播放,因此可以采用不對稱(asymmetric)編碼。不對稱或非對稱意味著壓縮時需要花費大量的處理能力和時間,而解壓縮時則能較好地實時回放,也即以不同的速度進行壓縮和解壓縮。一般地說,壓縮一段視頻的時間比回放(解壓縮)該視頻的時間要多得多。例如,壓縮一段三分鍾的視頻片斷可能需要10多分鍾的時間,而該片斷實時回放時間隻有三分鍾。
目前有多種視頻壓縮編碼方法,但其中最有代表性的是MPEG數字視頻格式和AVI數字視頻格式。