小狐狸事務所: Praat 語音分析筆記 (二) : 錄音與存檔匯入

2019年12月2日星期一

Praat 語音分析筆記 (二) : 錄音與存檔匯入

本篇繼續介紹如何使用 Praat 錄製語音以及匯入語音檔, 使用 Praat 分析語音之前須取得語音來源, Praat 本身提供錄音功能, 也可以直接開啟既有的語音檔進行分析. 本系列前一篇文章參考 :

# Praat 語音分析筆記 (一) : 簡介與軟體下載

二錄音與物件之檔案操作

2.1 電腦的音訊介面

在個人電腦上做語音分析的第一步是取得語音來源, 語音在物理上是類比 (Analog) 訊號, 傳統錄音帶便是以磁化的磁條來儲存類比語音信號. 由於電腦無法直接處理類比訊號, 如果要使用電腦來進行語音聲學分析, 首先必須將類比語音予以數位化, 成為電腦裡面的一個數位語音檔. 這個過程稱為類比至數位轉換 (Analog to Digital Conversion).

反過來說, 當電腦要播放聲音檔時, 由於喇叭 (speaker) 的運作原理是類比的 (以音盆震動來發聲), 因此必須將聲音檔還原成類比信號才能驅動, 這個過程稱為數位至類比轉換 (Digital to Analog Conversion).

在桌上型電腦上負責這個聲音數位至類比, 以及類比至數位互轉工作的就是 PC 上的音效卡 (sound card), 它有三個輸出入孔 :

SPK OUT (輸出至喇叭)
MIC IN (麥克風輸入)
LINE IN (其他裝置音源輸入)

MIC IN 與 LINE IN 的差別在於信號的大小, 如果使用麥克風直接在電腦上錄音, 則麥克風須插在 MIC IN 孔; 如果是透過錄音筆或錄音機播放語音, 則其 3.5mm 音源輸出要接到電腦的 LINE IN 插孔而非 MIC IN, 因為 MIC IN 接收的是小信號 (麥克風輸出的是微弱的小信號), 而 LINE IN 接收的是大信號 (例如錄音筆或錄音機的耳機輸出), 電氣規格的匹配上 (例如輸入阻抗與電壓位準) 有所不同. 從錄音機播放聲音到電腦時要注意其音量不可太大, 否則可能會因電壓峰值超過上限而造成音訊失真.

筆電的音效卡只提供一個 3.5mm 複合式的耳麥輸出入孔, 可以直接用耳麥進行錄音與播放; 但這種複合式插孔只適合二合一的耳麥使用, 亦即筆電的喇叭將不會有聲音, 如果要從筆電喇叭播放聲音, 則可購買 USB 音效卡, 它會將耳機與麥克風分開 (具有兩個插孔, 一個是 MIC, 一個是 Earphone), 只要使用其 MIC 插麥克風錄音即可, 這樣播放聲音時就會從筆電喇叭播放出來了.

筆電用的 USB 音效卡 (錄音與播放分離)

2.2 使用 Praat 內建錄音功能錄音

Praat 內建錄音程式可錄單聲與雙聲道語音, 但在這之前須先確定錄音音量不是在靜音狀態, 否則將錄不到聲音. 以 Windows 10 筆電為例, 以滑鼠右鍵點右下角工具列的喇叭圖示, 點選 "開啟音效設定" :

拉到最底下點選 "進階聲音選項" :

在上方 "應用程式音量和裝置喜好設定" 中調整 "主音量" 滑桿即可設定錄音音量, 一般設為 10~30 即可, 其中輸入即為筆電內建的麥克風 :

以上檢查主要是為了確定主音量不要被設成 0 (靜音) 而已, 如果主音量被設成 0 的話, 用 Praat 錄音時會錄不到任何聲音.

接下來就可以用 Praat 來錄音了. 執行 Praat.exe 程式, 點選上方選單的 "New/Record Momo Sound" 來錄製單聲道聲音 (語音分析通常只需要單聲道即可, 不需要 stereo 立體聲雙聲道) :

按左下角的 "Record" 按鈕即開始對著麥克風錄音 :

錄完按 "Stop" 鈕停止錄音, 在右邊的 "Name" 輸入框裡輸入語音名稱 (預設為 untitled), 右邊的 "Sampling Frequency" 用預設的 44000 Hz (此為 CD 等級) 即可, 然後按 "Save to list & Close" 鈕關閉錄音視窗 :

這時物件視窗就會出現一個聲音物件了 :

按右方的 "View & Edit" 鈕會開啟 Sound Editor (聲音編輯器) 視窗 :

Sound Editor 視窗是 Praat 分析最主要的視窗, Praat 大部分的分析功能都整合在此, 主要分為上下兩部分, 上面是波形視窗, 顯示聲音隨時間變化的實際形狀, 縱軸顯示聲波的振幅大小, 單位是電壓毫伏特 (mV). 上圖為 "This is a book" 的波形, 看起來似乎有五個音節, 實際上最後一個是 "k" 的氣音.

下半部是寬頻聲譜圖 (spectrogram), 疏密的灰階圖為每一個時間片段的頻譜 (spectrum) 隨時間堆疊而成, 縱軸單位為頻率 (Hz, 每秒振動幾次), 從疏密可以看出聲波的能量分布在那些頻帶, 顏色暗的地方為能量集中之處, 顏色淡的地方能量較小. 藍色的曲線則是標示語音的音高 (pitch), 表示聲帶振動的頻率. 關於 Sound Editor 的操作方法將在下一篇說明.

如果要修改 Object 視窗中聲音物件的名稱, 可先點選一個聲音物件, 然後按底下的 "Rename" 鈕, 在彈出的 Rename Object 視窗中的 "New name" 欄中輸入新的物件名稱, 例如將上面的 sound1 改為 this_is_a_book :

按 "Copy" 鈕可複製點選之聲音物件, 按 "Remove" 則可刪除所點選之物件.

2.3 將聲音物件儲存為檔案

錄好的聲音物件可以儲存為外部檔案保存, 因為只要將 Object 視窗關閉, 在物件視窗中的所有物件都會消失不見. 按 Object 視窗上方的 "Save" 選單, 點選 "Save as WAV file" :

如果聲音物件名稱為 sound1, 那麼預設檔名就是 sound1.wav, 也可以自行修改為例如 this_is_a_book.wav 較好辨認 :

WAV 檔是未壓縮的原始聲音數位檔, 因此長時間錄音的檔案大小會很大.

2.4 匯入聲音檔

除了直接錄音建立聲音物件外, 也可以從硬碟中匯入已有之聲音檔, 例如上面所儲存的 sound1.wav 檔, 按 Object 視窗上面的 "Open" 選單, 點選 "Read from file" :