音頻基礎知識和編碼原則

1.基本概念

1）比特率：表示編碼（壓縮）的音頻數據每秒需要表示多少比特，單位通常為kbps。

2) 響度和強度：聲音的主觀屬性。響度表示聲音聽起來有多響亮。響度主要隨聲音的強度而變化，但也受頻率的影響。一般而言，純中頻聲音優於純低頻和高頻聲音。

3）採樣和採樣率：採樣是將連續時間信號轉換為離散數字信號。採樣率是指每秒採集的樣本數量。

奈奎斯特採樣法則：當採樣率大於或等於連續信號最高頻率分量的2倍時，採樣信號可用於完美地重建原始連續信號。

2.常見的音頻格式

1）WAV格式是微軟開發的一種聲音文件格式，也叫波形聲音文件。它是最早的數字音頻格式，被Windows平台及其應用廣泛支持，壓縮率低。

2）MIDI是Musical Instrument Digital Interface的縮寫，也稱Musical Instrument Digital Interface，是數字音樂/電子合成樂器的統一國際標準。它定義了計算機音樂程序、數字合成器和其他電子設備交換音樂信號的方式，並規定了連接不同製造商的電子樂器到計算機的電纜與硬件和設備之間的數據傳輸協議，可以模擬多種音樂的聲音。儀器。 MIDI 文件是 MIDI 格式的文件，一些命令存儲在 MIDI 文件中。將這些指令發送到聲卡，聲卡會根據指令合成聲音。

3）MP3的全稱是MPEG-1 Audio Layer 3，1992年併入MPEG規範。MP3可以壓縮音質高、採樣率低的數字音頻文件。最常見的應用。

4）MP3Pro由瑞典編碼技術公司開發，包含兩大技術：一是編碼技術公司獨有的解碼技術，二是MP3專利持有人法國湯姆森多媒體公司與德國弗勞恩霍夫聯合研發的解碼技術由電路協會。 MP3Pro 可以在基本不改變文件大小的情況下，提高原始 MP3 音樂音質。它可以在以較低比特率壓縮音頻文件的同時，最大程度地保持壓縮前的音質。

5）MP3Pro由瑞典編碼技術公司開發，包含兩大技術：一是編碼技術公司獨有的解碼技術，二是MP3專利持有人法國湯姆森多媒體公司與德國弗勞恩霍夫聯合研發的解碼技術由電路協會。 MP3Pro 可以在基本不改變文件大小的情況下，提高原始 MP3 音樂音質。它可以在以較低比特率壓縮音頻文件的同時，最大程度地保持壓縮前的音質。

6）WMA（Windows Media Audio）是微軟在互聯網音視頻領域的傑作。 WMA 格式通過減少數據流量但保持音質來實現更高的壓縮率。壓縮率一般可以達到1:18。此外，WMA 還可以通過 DRM（數字版權管理）來保護版權。

7) RealAudio 是 Real Networks 推出的一種文件格式。最大的特點是可以實時傳輸音頻信息，尤其是在網速較慢的情況下，依然可以流暢的傳輸數據，所以RealAudio主要適用於網絡在線播放。目前的RealAudio文件格式主要有RA（RealAudio）、RM（RealMedia、RealAudio G2）、RMX（RealAudio Secured）等，這些文件的共同點是音質隨著網絡帶寬的不同而變化。在大多數人聽到流暢的聲音的前提下，帶寬越寬的聽眾可以獲得更好的音質。

8) Audible 有四種不同的格式：Audible1、2、3、4。Audible.com 網站主要在互聯網上銷售有聲讀物，並通過四種 Audible.com 專用音頻格式之一為其銷售的商品和文件提供保護. 每種格式主要考慮使用的音頻源和收聽設備。格式 1、2 和 3 使用不同級別的語音壓縮，而格式 4 使用較低的採樣率和與 MP3 相同的解碼方法。由此產生的聲音更清晰，可以更有效地從互聯網上下載。 Audible 使用他們自己的桌面播放工具，即 Audible Manager。使用此播放器，您可以播放存儲在 PC 上或傳輸到便攜式播放器的 Audible 格式文件。

9）AAC實際上是Advanced Audio Coding的縮寫。 AAC 是由 Fraunhofer IIS-A、杜比和 AT&T 聯合開發的一種音頻格式。它是 MPEG-2 規範的一部分。 AAC 使用的算法與 MP3 不同。 AAC結合其他功能來提高編碼效率。 AAC的音頻算法在壓縮能力上遠超以往的一些壓縮算法（如MP3等）。它還支持多達 48 個音軌、15 個低頻音軌、更高的採樣率和比特率、多語言兼容性以及更高的解碼效率。總之，AAC可以在比MP30文件小3%的前提下提供更好的音質。

10) Ogg Vorbis 是一種新的音頻壓縮格式，類似於 MP3 等現有音樂格式。但一個區別是它是完全免費的、開放的並且沒有專利限制。 Vorbis 是這種音頻壓縮機制的名稱，而 Ogg 是一個打算設計一個完全開放的多媒體系統的項目的名稱。 VORBIS 也是有損壓縮，但它使用更先進的聲學模型來減少損失。因此，以相同比特率編碼的 OGG 聽起來比 MP3 更好。

11）APE是一種無損壓縮音頻格式，在不降低音質的前提下，體積壓縮到傳統無損格式WAV文件的一半。

12) FLAC是Free Lossless Audio Codec的縮寫，是一組著名的免費音頻無損壓縮編碼，其特點是無損壓縮。

3.音頻編碼的基本原理

語音編碼專用於減少傳輸所需的信道帶寬，同時保持輸入語音的高質量。

語音編碼的目的是設計一種低複雜度的編碼器，以盡可能低的比特率實現高質量的數據傳輸。

1）靜音閾值曲線：人耳只有在安靜的環境中才能聽到各種頻率聲音的閾值。

2) 臨界頻段

由於人耳對於不同的頻率具有不同的分辨率，因此MPEG1 / Audio根據不同的編碼層和不同的採樣頻率將22khz內的可感知頻率範圍劃分為23〜26個關鍵頻帶。下圖列出了理想關鍵頻帶的中心頻率和帶寬。從圖中可以看出，人耳對低頻的分辨率更高

3）頻域的掩蔽效應：幅值較大的信號會掩蔽頻率相近而幅值較小的信號，如下圖所示：

4) 時域的掩蔽效果：在短時間內，如果出現兩個聲音，SPL（聲壓級）較大的聲音會掩蔽SPL較小的聲音。時域遮蔽效果分為前向遮蔽（pre-masking）和後向遮蔽（post-masking）。掩膜後的時間會更長，大約是掩膜前的10倍。

時域掩蔽效應有助於消除預迴聲。

4. 編碼的基本手段

1) 量化器和量化器

量化和量化器：量化將離散時間的連續信號轉換為離散時間的離散信號。常見的量化器有：統一量化器，對數量化器和非統一量化器。量化過程追求的目標是最小化量化誤差並最小化量化器的複雜性（兩者本身是矛盾的）。

（A）統一量化器：最簡單，最差的性能，僅適用於電話語音。

（B）對數量化器：它比統一量化器複雜，易於實現，其性能優於統一量化器。

（C）非均勻量化器：根據信號的分佈，設計量化器。在信號密集的地方執行詳細的量化，在信號稀疏的地方執行粗略的量化。

2) 語音編碼器

語音編碼器有三種類型：（a）波形編碼器；（b）聲碼器；（c）混合編碼器。

波形編碼器旨在構建包括背景噪聲表的模擬波形。作用於所有輸入信號，它將產生高質量的樣本並消耗高比特率。聲碼器將不會重新生成原始波形。這組編碼器將提取一組參數，將其發送到接收端以導出語音生成模型。聲碼器的語音質量不夠好。混合編碼器，結合了波形編碼器和聲音檢測器的優點。

2.1波形編碼器

波形編碼器的設計通常與信號無關。因此，它適合於各種信號的編碼，而不僅限於語音。

1) 時域編碼

a）PCM：脈衝編碼調製，是最簡單的編碼方法。它僅僅是信號的離散化和量化，並且經常使用對數化。

b）DPCM：差分脈衝編碼調製，僅編碼樣本之間的差異。前一個或多個樣本用於預測當前樣本值。用於進行預測的樣本越多，預測值越準確。真實值和預測值之間的差稱為殘差，這是編碼的對象。

c）ADPCM：自適應差分脈衝編碼調製，自適應差分脈衝編碼。即，在DPCM的基礎上，根據信號的變化適當地調整量化器和預測器，使得預測值更接近真實信號，殘差較小，並且壓縮效率較高。

（2）頻域編碼

頻域編碼是將信號分解為一系列不同的頻率元素並執行獨立的編碼。

a）子帶編碼：子帶編碼是最簡單的頻域編碼技術。它是一種將原始信號從時域轉換到頻域，然後將其劃分為幾個子帶，並分別對其進行數字編碼的技術。它使用帶通濾波器（BPF）組將原始信號劃分為幾個（例如m個）子帶（稱為子帶）。使每個子帶通過等效於單邊帶幅度調製的調製特性，將每個子帶移至接近零頻率，分別通過BPF（總共m個），然後以規定的速率傳輸每個子帶（奈奎斯特速率）對子帶輸出信號進行採樣，並且採樣值通常經過數字編碼，並設置了m個數字編碼器。將每個數字編碼信號發送到多路復用器，最後輸出子帶編碼數據流。

對於不同的子帶，可以使用不同的量化方法，並且可以根據人耳感知模型將不同數量的比特分配給子帶。

b）變換編碼：DCT編碼。

5.聲碼器

通道聲碼器：利用人耳對相位的不敏感度。

同態聲碼器：可以有效地處理合成信號。

共振峰聲碼器：語音信號的大多數信息位於共振峰的位置和帶寬上。

線性預測聲碼器：最常用的聲碼器。

6. 混合編碼器

波形編碼器試圖保留編碼信號的波形，並可以以中等比特率（32 kbps）提供高質量的語音，但是不能應用於低比特率的場合。聲碼器試圖產生與編碼的信號在聽覺上相似的信號，並且可以以低比特率提供可理解的語音，但是所得語音聽起來不自然。混合編碼器結合了兩者的優點。

RELP：在線性預測的基礎上，對殘差進行編碼。其機制是：僅發送一小部分殘差，並在接收端重建所有殘差（複製基帶的殘差）。

MPC：多脈衝編碼，可消除殘差的相關性，並用於補償聲碼器將語音分為有聲和無聲的簡單分類，而沒有中間狀態的缺陷。

CELP：碼本激勵線性預測，它使用聲道預測和音高預測器的級聯來更好地近似原始信號。