1、PCM編碼
PCM 脈衝編碼調製是Pulse Code Modulation的縮寫。前麵的文字我們提到了PCM大致的工作流程,我們不需要關心PCM最終編碼采用的是什麼計算方式,我們隻需要知道PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的Audio CD就采用了PCM編碼,一張光盤的容量隻能容納72分鍾的音樂信息。
2、WAVE
這是一種古老的音頻文件格式,由微軟開發。WAV是一種文件格式,符合 PIFF Resource Interchange File Format規範。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有支持ACM規範的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示範,因為AVI和WAV在文件結構上是非常相似的,不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV,但這不表示WAV隻能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,隻要安裝好了相應的Decode,就可以欣賞這些WAV了。
在Windows平台下,基於PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由於本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基於PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。
2、MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關的軟件產品層出不窮,而且更多的硬件產品也開始支持MP3,我們能夠買到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮的格式的生存與流傳。MP3發展已經有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國Fraunhofer IIS研究院和湯姆生公司合作發展成功。MP3可以做到12:1的驚人壓縮比並保持基本可聽的音質,在當年硬盤天價的日子裏,MP3迅速被用戶接受,隨著網絡的普及,MP3被數以億計的用戶接受。MP3編碼技術的發布之初其實是非常不完善的,由於缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。隨著新技術的不斷導入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進。
VBR:MP3格式的文件有一個有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說播放器可以不用預讀文件的全部內容就可以播放,讀到哪裏播放到哪裏,即使是文件有部分損壞。雖然mp3可以有文件頭,但對於mp3格式的文件卻不是很重要,正因為這種特性,決定了MP3文件的每一段每一幀都可以單獨的平均數據速率,而無需特別的解碼方案。於是出現了一種叫VBR(Variable bitrate,動態數據速率)的技術,可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質的前提下最大程度的限製了文件的大小。這種技術的優越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配bitrate,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術並沒有一出現就顯得光彩奪目。
聽覺模型的導入:專家們通過長期的聲學研究,發現人耳存在遮蔽效應。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻成了噪聲源,根據這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息複雜度,增加壓縮比,而不明顯的降低音質。這種遮蔽被稱為同時遮蔽效應。但聲音A被聲音B遮蔽,如果A處於B為中心的遮蔽範圍內,遮蔽會更明顯,這個範圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
office:office" />
頻率(Hz) | 臨界帶寬(Hz) | 頻率(Hz) | 臨界帶寬(Hz) |
50 | 80 | 1850 | 280 |
150 | 100 | 2150 | 320 |
350 | 100 | 2500 | 380 |
450 | 110 | 3400 | 550 |
570 | 120 | 4000 | 700 |
700 | 140 | 4800 | 900 |
840 | 150 | 5800 | 1100 |
1000 | 160 | 7000 | 1300 |
1170 | 190 | 8500 | 1800 |
1370 | 210 | 10500 | 2500 |
1600 | 240 | 13500 | 3500 |