FMUSER更輕鬆地傳輸視頻和音頻!

[電子郵件保護] WhatsApp的+ 8618078869184
語言

    音頻處理1基礎知識

     

    音頻


    指人耳可以聽到的,頻率在20 Hz到20 kHz之間的聲波。

    如果您在計算機上添加相應的聲卡-我們經常說的聲卡,我們可以記錄所有聲音,並且聲音的聲學特性(例如聲音的音量)可以作為文件存儲在計算機的硬盤上磁盤。 相反,我們也可以使用某個音頻程序來播放存儲的音頻文件,以恢復先前記錄的聲音。

     

    1音頻文件格式
    音頻文件格式具體是指存儲音頻數據的文件的格式。 有許多不同的格式。

    獲取音頻數據的一般方法是以固定的時間間隔對音頻電壓進行採樣(量化),並以一定的分辨率存儲結果(例如,CDDA的每個採樣為16位或2個字節)。 採樣間隔可以具有不同的標準。 例如,CDDA每秒使用44,100次; DVD每秒使用48,000或96,000次。 因此,[採樣率],[分辨率]和[聲道]數量(例如,用於立體聲的2聲道)是音頻文件格式的關鍵參數。

     

    1.1損失與無損
    根據數字音頻的生產過程,音頻編碼只能無限接近自然信號。 至少目前的技術只能做到這一點。 任何數字音頻編碼方案都是有損的,因為它無法完全恢復。 在計算機應用中,保真度最高的是PCM編碼,PCM編碼廣泛用於材料保存和音樂欣賞。 它用於CD,DVD和我們常見的WAV文件中。 因此,按慣例,PCM已成為一種無損編碼,因為PCM代表了數字音頻中的最佳保真度。

     

    音頻文件格式有兩種主要類型:

    無損格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)
    有損格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC

     


    2參數介紹


    2.1採樣率


    指每秒獲取的聲音樣本數。 聲音實際上是一種能量波,因此也具有頻率和振幅的特徵。 頻率對應於時間軸,振幅對應於電平軸。 波浪是無限平滑的,弦可以看作是由無數個點組成的。 由於存儲空間相對有限,因此必須在數字編碼過程中對字符串的點進行採樣。

     

    採樣過程是提取某個點的頻率值。 顯然,在一秒鐘內提取的點越多,獲得的頻率信息就越多。 為了恢復波形,採樣頻率越高,聲音質量越好。 恢復越真實,但同時佔用更多資源。 由於人耳的分辨率有限,因此無法分辨出太高的頻率。 通常使用22050的採樣頻率,44100已經是CD聲音質量,超過48,000或96,000的採樣對人耳不再有意義。 這類似於電影中每秒24幀。 如果是立體聲,則樣本加倍,文件幾乎加倍。

     

    根據奈奎斯特採樣理論,為保證聲音不失真,採樣頻率應在40kHz左右。 我們不需要知道這個定理是如何產生的。 我們只需要知道,這個定理告訴我們,如果我們想要準確地記錄一個信號,我們的採樣頻率必須大於或等於音頻信號最大頻率的兩倍。 請記住,它是最大頻率。

     

    在數字音頻領域,常用的採樣率是:

    8000 Hz-手機使用的採樣率,足以使人說話
    手機使用的11025 Hz採樣率
    無線電廣播中使用的22050 Hz採樣率
    miniDV數碼攝像機,DAT,32000 Hz採樣率(LP模式)
    44100 Hz音頻CD,也通常用作MPEG-1音頻(VCD,SVCD,MP3)的採樣率
    商用PCM錄音機使用的47250 Hz採樣率
    miniDV,數字電視,DVD,DAT,電影和專業音頻中使用的數字聲音的採樣率為48000 Hz
    商用數字記錄儀使用的50000 Hz採樣率
    96000 Hz或192000 Hz-DVD音頻,某些LPCM DVD音頻軌道,BD-ROM(藍光盤)音頻軌道和HD-DVD(高清晰度DVD)音頻軌道使用的採樣率


    2.2採樣位數
    採樣位數也稱為採樣大小或量化位數。 它是用於測量聲音波動的參數,即聲卡的分辨率,或者可以理解為由聲卡處理的聲卡的分辨率。 值越大,分辨率越高,錄製和播放的聲音越真實。 聲卡的位是指聲卡在收集和播放聲音文件時使用的數字聲音信號的二進制數字。 聲卡的位客觀地反映了數字聲音信號對輸入聲音信號的描述的準確性。 常見的聲卡主要是8位和16位。 如今,市場上所有主流產品都是16位及以上的聲卡。

     

    每個採樣數據記錄振幅,採樣精度取決於採樣位數:

    1個字節(即8位)只能記錄256個數字,這意味著幅度只能劃分為256個級別。
    2個字節(即16位)可以小到65536,這已經是CD標準;
    4個字節(即32位)可以將幅度細分為4294967296電平,這實際上是不必要的。
    2.3通道數
    即,聲道的數量。 普通的單聲道和立體聲(雙聲道)現在已發展為四聲道環繞聲(四聲道)和5.1聲道。

     

    2.3.1單聲道
    單聲道是聲音再現的一種相對原始的形式,而早期的聲卡則更常使用它。 單聲道聲音只能使用一個揚聲器發出聲音,有些聲音也被處理為兩個揚聲器以輸出相同的聲道。 當通過兩個揚聲器播放單聲道信息時,我們可以清楚地感覺到聲音來自兩個揚聲器。 無法確定從揚聲器中部傳輸到我們耳朵的聲源的具體位置。

     

    2.3.2立體聲
    雙耳聲道有兩個聲音聲道。 原理是,當人們聽到聲音時,他們可以根據左耳和右耳之間的相位差來判斷聲源的特定位置。 在錄音過程中將聲音分配給兩個獨立的通道,以達到良好的聲音定位效果。 該技術在音樂欣賞中特別有用。 聆聽者可以清楚地區分各種樂器的來源,從而使音樂更具想像力,更接近現場體驗。

     

    當前最常用兩種聲音。 在卡拉OK中,一個用於播放音樂,另一個用於歌手的聲音。 在VCD中,一種用普通話配音,另一種用粵語配音。

     

    2.3.3四音環繞
    四聲道環繞聲定義了四個發聲點,左前,右前,左後和右後,聽眾被這些環繞。 還建議添加一個低音炮,以增強低頻信號的播放處理(這就是4.1聲道揚聲器系統如今廣受歡迎的原因)。 就整體效果而言,四聲道系統可以為聽眾帶來來自多個不同方向的環繞聲,可以獲得在各種不同環境中的聽覺體驗,並為用戶帶來全新的體驗。 如今,四聲道技術已廣泛集成到各種中高端聲卡的設計中,成為未來發展的主流趨勢。

     

    2.3.4 5.1頻道
    5.1頻道已在各種傳統劇院和家庭影院中廣泛使用。 一些更著名的錄音壓縮格式,例如Dolby AC-3(杜比數字),DTS等,都是基於5.1聲音系統的。 “ .1”通道是經過特殊設計的低音炮通道,可以產生頻率響應範圍為20至120 Hz的低音炮。 實際上,5.1音響系統來自4.1環繞聲,不同之處在於它增加了一個中央單元。 該中央單元負責傳輸80Hz以下的聲音信號,有助於在觀看電影時增強人聲,並將對話集中在整個聲場的中間,以提高整體效果。

     

    目前,許多在線音樂播放器(例如QQ音樂)已提供5.1聲道音樂以供試用和下載。

     

    2.4框架
    音頻幀的概念不如視頻幀清晰。 幾乎所有的視頻編碼格式都可以簡單地將幀視為已編碼的圖像。 但是,音頻幀與編碼格式有關,該編碼格式由每種編碼標準實現。

     

    例如,在PCM(未編碼的音頻數據)的情況下,它根本不需要幀的概念,並且可以根據採樣率和採樣精度進行播放。 例如,對於具有44.1kHZ採樣率和16位採樣精度的雙音頻,您可以計算出比特率是44100162bps,每秒音頻數據是固定的44100162/8字節。

     

    amr框架相對簡單。 它規定音頻的每20ms是一幀,音頻的每一幀都是獨立的,並且可以使用不同的編碼算法和不同的編碼參數。

     

    mp3幀要復雜一些,包含更多信息,例如採樣率,比特率和各種參數。

     

    2.5週期
    音頻設備一次處理所需的幀數,音頻設備的數據訪問和音頻數據的存儲均基於此單位。

     

    2.6交錯模式
    數字音頻信號的存儲方法。 數據存儲在連續的幀中,即首先記錄幀1的左聲道樣本和右聲道樣本,然後開始記錄幀2。

     

    2.7非隔行模式
    首先,記錄一個週期內所有幀的左通道樣本,然後記錄所有右通道樣本。

     

    2.8比特率(bit rate)
    比特率也稱為比特率,它是指音樂每秒播放的數據量。 單位由位表示,即二進制位。 bps是比特率。 b是位(位),s是秒(秒),p是每(每),一個字節等效於8個二進制位。 也就是說,以這樣的方式計算4分鐘的歌曲128bps的文件大小:(128/8)460 = 3840kB = 3.8MB,1B(Byte)= 8b(bit),通常mp3在128位左右是有益的速度,大概是3-4 BM。

     

    在計算機應用中,保真度最高的是PCM編碼,廣泛使用 用於材料保存和音樂欣賞。 CD、DVD 和我們常見的 WAV 文件都在使用。 因此,按照慣例,PCM 已經成為一種無損編碼,因為 PCM 代表了數字音頻中最好的保真度級別。 這並不意味著PCM可以保證信號的絕對保真度。 PCM 只能達到最大的無限接近。

     

    計算PCM音頻流的比特率是一項非常簡單的任務,即採樣率值×採樣大小值×通道數bps。 一個WAV文件,採樣率為44.1KHz,採樣大小為16bit,並且具有雙通道PCM編碼,其數據速率為44.1K×16×2 = 1411.2Kbps。 我們常見的音頻CD使用PCM編碼,而CD的容量只能保存72分鐘的音樂信息。

     

    雙通道PCM編碼的音頻信號在176.4秒鐘內需要1KB的空間,而在10.34分鐘內需要約1M的空間。 對於大多數用戶來說,這是不可接受的,尤其是那些喜歡在計算機上聽音樂的用戶。 磁盤佔用率只有兩種方法,下採樣索引或壓縮。 不建議降低採樣指數,因此專家們開發了各種壓縮方案。 最原始的是DPCM,ADPCM,最著名的是MP3。 因此,數據壓縮後的編碼率遠低於原始編碼。

     

    2.9計算示例
    例如,“ Windows XP startup.wav”的文件長度為424,644字節,格式為“ 22050HZ / 16位/立體聲”。

    然後其每秒的傳輸速率(比特率,也稱為比特率,採樣率)為22050162 = 705600(bps),轉換為字節單位為705600/8 = 88200(每秒字節),播放時間:424644(總字節) / 88200(每秒字節數)≈4.8145578(秒)。

     

    但這還不夠準確。 標準PCM格式的WAVE文件(* .wav)至少具有42個字節的標頭信息,在計算播放時間時應將其刪除,因此:(424644-42)/(22050162/8)≈4.8140816(秒)。 這更準確。

     

    3 PCM音頻編碼
    PCM 代表脈衝編碼調製。 在PCM過程中,對輸入的模擬信號進行採樣、量化和編碼,二進制編碼數代表模擬信號的幅度; 接收端然後將這些代碼恢復為原始模擬信號。 即數字音頻的A/D轉換包括三個過程:採樣、量化和編碼。

     

    語音PCM的採用率為8kHz,採樣位數為8bit,因此語音數字編碼信號的編碼率為8bits×8kHz = 64kbps = 8KB / s。

     

    3.1音頻編碼原理
    具有一定電子基礎的任何人都知道傳感器收集的音頻信號是模擬量,但是我們在實際傳輸過程中使用的是數字量。 這涉及將模擬轉換為數字的過程。 模擬信號必須經過採樣,量化和編碼三個過程,才能實現語音數字化的脈衝編碼調製(PCM,Pulse Coding Modulation)技術。

     

    轉換過程


    3.1.1採樣
    採樣是從模擬信號中提取採樣(採樣率)的過程,該頻率大於信號帶寬的2倍(Lequist採樣定理),並在時間軸上將其轉換為離散採樣信號。
    採樣率:每秒從連續信號中提取以形成離散信號的樣本數,以赫茲(Hz)表示。


    樣品:
    例如,音頻信號採樣率是8000hz。
    可以理解,上圖中的樣本對應於圖中的電壓隨時間的變化曲線為1秒,然後為較低的1 2 3…10,因為應該有1-8000點,即1秒分為8000個部分,然後依次取出它們對應於該8000點時間的電壓值。

     

    3.1.2定量
    儘管採樣信號是時間軸上的離散信號,但它仍然是模擬信號,並且其採樣值在一定範圍的值內可以具有無限數量的值。 必須採用``舍入''方法對樣本值進行``舍入'',以便將特定值範圍內的樣本值從無限數量的值更改為有限數量的值。此過程稱為量化。

     

    採樣位數:指用於描述數字信號的位數。
    8位(8位)代表2到8次冪= 256,16位(16位)代表2到16次冪= 65536;

     

    樣品:
    例如,音頻傳感器收集的電壓範圍是0-3.3V,採樣數是8bit(位)
    也就是說,我們將3.3V / 2 ^ 8 = 0.0128作為量化精度。
    我們將3.3v除以0.0128作為步進Y軸,如圖3所示,1 2…8變為0 0.0128 0.0256…3.3 V
    例如,採樣點的電壓值為1.652V(介於1280.128和1290.128之間)。 我們將其舍入為1.65V,相應的量化級別為128。

     

    3.1.3編碼
    量化的採樣信號被轉換成一系列按照採樣順序排列的十進制數字代碼流,即十進制數字信號。 一個簡單而有效的數據系統是二進制代碼系統。 因此,十進制數字代碼應轉換為二進制代碼。 根據十進制數字代碼的總數,可以確定二進制編碼所需的位數,即字長(採樣位數)。 將量化樣本信號轉換為具有給定字長的二進制代碼流的過程稱為編碼。

     

    樣品:
    那麼上面的1.65V對應於128的量化級別。相應的二進制系統是10000000。也就是說,對採樣點進行編碼的結果是10000000。當然,這是一種不考慮正負值的編碼方法。 ,並且有許多類型的編碼方法需要對特定問題進行特定分析。 (PCM音頻格式編碼是A-law 13多義線編碼)

     

    3.2 PCM音頻編碼
    PCM信號未經過任何編碼和壓縮(無損壓縮)。 與模擬信號相比,它不容易受到傳輸系統的混亂和失真的影響。 動態範圍廣,音質也不錯。

     

    3.2.1 PCM編碼
    所使用的編碼是A律13折線編碼。
    有關詳細信息,請參閱:PCM語音編碼

     

    3.2.2通道
    聲道可分為單聲道和立體聲(雙聲道)。

    PCM的每個樣本值都包含在整數i中,i的長度是容納指定樣本長度所需的最小字節數。

     

    樣本量數據格式最小值最大值
    8位PCM無符號整數0
    16位PCM int -32767 32767

     

    對於單聲道聲音文件,採樣數據是8位短整數(short int 00H-FFH),並且採樣數據按時間順序存儲。


    兩聲道立體聲文件,每個採樣數據是一個16位整數(int),高八位(左聲道)和低八位(右聲道)分別代表兩個聲道,採樣數據按時間順序排列按備用順序存款。
    採樣位數為16位時也是如此,存儲與字節序有關。


    PCM數據格式
    所有網絡協議都使用大端方式來傳輸數據。 因此,big endian方法也稱為網絡字節順序。 當兩個具有不同字節順序的主機進行通信時,必須先將它們轉換為網絡字節順序,然後再發送數據,然後再進行傳輸。

     

    4G.711
    在一般的PCM中,模擬信號在被數字化之前要經過一些處理(例如幅度壓縮)。 一旦數字化,通常會進一步處理PCM信號(例如數字數據壓縮)。

     

    G.711 是一種標準的多媒體數字信號(壓縮/解壓)算法調製來自 ITU-T 的脈衝代碼。 它是一種數字化模擬信號的採樣技術,尤其是音頻信號。 PCM每秒對信號採樣8000次,8KHz; 每個樣本為 8 位,共 64Kbps (DS0)。 抽樣水平的編碼有兩種標準。 北美和日本使用 Mu-Law 標準,而其他大多數國家使用 A-Law 標準。

     

    A律和U律是PCM的兩種編碼方法。 A-law PCM用於歐洲和我國,Mu-law用於北美和日本。 兩者之間的區別在於量化方法。 A法則使用12位量化,而u法則使用13位量化。 採樣頻率為8KHz,並且都是8位編碼方法。

     

    簡單理解:PCM是音頻設備收集的原始音頻數據。 G.711和AAC是兩種不同的算法,可以將PCM數據壓縮到一定比例,從而節省網絡傳輸的帶寬。

     

     

     

     

    列出所有問題

    暱稱

    電子郵件

    問題

    我們的其他產品:

    專業調頻電台設備包

     



     

    酒店IPTV解決方案

     


      輸入電子郵件以獲取驚喜

      fmuser.org

      es.fmuser.org
      it.fmuser.org
      fr.fmuser.org
      de.fmuser.org
      af.fmuser.org ->荷蘭語
      sq.fmuser.org ->阿爾巴尼亞人
      ar.fmuser.org ->阿拉伯語
      hy.fmuser.org - >亞美尼亞
      az.fmuser.org ->阿塞拜疆
      eu.fmuser.org ->巴斯克
      be.fmuser.org ->白俄羅斯語
      bg.fmuser.org - >保加利亞
      ca.fmuser.org ->加泰羅尼亞語
      zh-CN.fmuser.org ->中文(簡體)
      zh-TW.fmuser.org - >中國(繁體)
      hr.fmuser.org ->克羅地亞語
      cs.fmuser.org ->捷克
      da.fmuser.org ->丹麥語
      nl.fmuser.org - >荷蘭
      et.fmuser.org ->愛沙尼亞語
      tl.fmuser.org ->菲律賓
      fi.fmuser.org ->芬蘭語
      fr.fmuser.org - >法國
      gl.fmuser.org ->加利西亞語
      ka.fmuser.org ->喬治亞
      de.fmuser.org ->德語
      el.fmuser.org - >希臘
      ht.fmuser.org ->海地克里奧爾語
      iw.fmuser.org ->希伯來語
      hi.fmuser.org ->印地語
      hu.fmuser.org - >匈牙利
      is.fmuser.org ->冰島語
      id.fmuser.org ->印尼語
      ga.fmuser.org ->愛爾蘭
      it.fmuser.org - >意大利
      ja.fmuser.org ->日語
      ko.fmuser.org ->韓文
      lv.fmuser.org ->拉脫維亞
      lt.fmuser.org - >立陶宛
      mk.fmuser.org ->馬其頓語
      ms.fmuser.org ->馬來語
      mt.fmuser.org ->馬耳他語
      no.fmuser.org - >挪威
      fa.fmuser.org ->波斯語
      pl.fmuser.org ->波蘭語
      pt.fmuser.org ->葡萄牙語
      ro.fmuser.org - >羅馬尼亞
      ru.fmuser.org ->俄語
      sr.fmuser.org ->塞爾維亞語
      sk.fmuser.org ->斯洛伐克
      sl.fmuser.org - >斯洛文尼亞
      es.fmuser.org ->西班牙語
      sw.fmuser.org ->斯瓦希里語
      sv.fmuser.org ->瑞典語
      th.fmuser.org - >泰國
      tr.fmuser.org ->土耳其語
      uk.fmuser.org ->烏克蘭語
      ur.fmuser.org ->烏爾都語
      vi.fmuser.org - >越南
      cy.fmuser.org ->威爾士語
      yi.fmuser.org - >意第緒語

       
  •  

    FMUSER更輕鬆地傳輸視頻和音頻!

  • 聯繫

    地址:
    305廣州市環浦路273號匯蘭大廈510620室

    電子郵件:
    [電子郵件保護]

    電話/ WhatApps:
    + 8618078869184

  • 分類

  • 訂閱成為第一個收到我們最新消息的人。

    名字或全名

    Email

  • 貝寶的解決方案  西聯匯款中國銀行
    電子郵件:[電子郵件保護]   WhatsApp:+8618078869184 Skype:sky198710021 跟我聊天
    版權所有2006-2020技術支持 www.fmuser.org

    聯繫我們