通知:美亞柏科江蘇電子數據取證服務中心成立,提供司法鑒定咨詢、電子數據檢驗檢測,勘驗協助、技術支持等服務,電話:18651607829

中國數據恢復協會 數據恢復與存儲安全研發中心 [ 咨詢免費 檢測免費 ] 24小時電話: 13813824669 技術部:025-83608636(白天)  RAID專家:13813824669

站內搜索

聯系我們

  • 276570401
  • 025-83608636
  • 18651607829
當前位置:首頁 > 西數新聞 > IT技術文章 IT技術文章
現代語音信號處理之語譜圖(spectrogram)
語譜圖就是語音頻譜圖,一般是通過處理接收的時域信號得到頻譜圖,因此只要有足夠時間長度的時域信號就可。(時間長度為保證頻率分辨率)qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
專業點講,那是頻譜分析視圖,如果針對語音數據的話,叫語譜圖。語譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數據能量。由于是采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
可是為什么采用二維平面來表示三維信息呢?這個是有歷史原因的。在數字技術發展以前,人們可視化研究語音數據的方法是把數據通過頻率濾波器,然后各個頻率的數據驅動相應的類似針式打印的設備按頻率高低順序記錄在一卷紙上,信號的強弱由記錄在紙上的灰度來表示。記錄紙按照一定的速度旋轉,即相當于在不同的時間里記錄下語音數據。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
語譜圖還分為窄帶語譜圖和寬帶語譜圖。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
“窄帶”,顧名思義,帶寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。“寬帶”,正好相反。至于“橫豎條紋”,窄帶語譜圖的帶寬窄,那么在頻率上就“分得開”,即能將語音各次諧波“看得很清楚”,即表現為“橫線”。“橫”就體現出了頻率分辨率高。分辨率可以直觀的看做“分開能力”。“頻率分辨率”高就是在頻率上將各次諧波分開的能力高,表現為能分辨出各次諧波的能力高,頻率分辨率越高,越容易分辨各次諧波。類似的,寬帶語譜圖的時寬窄,那么在時間上就“分得開”,即能將語音在時間上重復的部分“看得很清楚”,即表現為“豎線”。“豎”就體現出了時間分辨率高。時間分辨率越高,譜圖上的豎線看得越清楚。圖1和圖2分別示出了一條語音句子的窄帶語譜圖和寬帶語譜圖。短時窗長度分別是20ms和2ms。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖1是一條語音及其窄帶語譜圖。上圖是語音時間波形,下圖是上圖的窄帶語譜圖qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖2同一條語音及其寬帶語譜圖。上圖是語音時間波形,下圖是上圖的寬帶語譜圖qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖1虛框框住的部分就是一條橫條紋,整個譜圖中有非常多的這種橫條紋。圖2虛框框住的部分,在小圖中清晰的顯示出了一條一條的“豎線”,被框住的有27條豎線。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
信號的語譜圖qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
語音中設計窗函數,窗函數性質大同小異,這里以窗函數為對象進行分析。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
對于時域的窗函數:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
其表達式為:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
對應的傅里葉變換:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
表達式為:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
可見信號的時寬越大(?。?,信號的頻帶寬度越?。ù螅?,對于矩形窗,有著帶寬B與時寬乘積為這樣的特性,其他窗函數也有著類似的性質。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
MATLAB仿真舉例:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
x=zeros(1,2000);%序列長度指定為2000qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
x(100:140)=1;%矩形窗為40個點qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
y=fft(x);qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
y=abs(y);qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
plot(1:length(x),fftshift(y)/max(y),'k','linewidth',2)qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
title('頻譜響應函數')qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
1qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
2qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
3qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
4qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
5qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
6qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
根據上面的分析,信號長度定為2000(即2*pi的長度)的話,矩形窗為40,要滿足時寬與帶寬乘積為2000不變,理論上帶寬應為50,一下的結果圖驗證了上面的理論:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
由于語音信號具有短時平穩特性,因此對其分析時,要進行加窗處理,借助上面的分析,可以看出,窗長如果選擇短一些的話,就是時寬較小,對應的帶寬就要大一些,在這種情況下得到的就是寬帶語譜圖,反之則得到窄帶語譜圖。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
窄帶語譜圖qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
對于一段語音進行分析(語音內容為0 1 2 3 4 5 6 7 8 9),語音采樣率為8000Hz,取窗長為512個數據點,幀移為窗長的1/4,即128個數據點。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
得到如下結果圖:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
從結果圖中可以清楚看到諧波的結構,頻率分辨率非常好,但是時間上的分辨率就不理想。對于上述語音,畫出其頻率特性:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
語音低頻部分(紅線)體現了聲道的特性,窄帶語譜圖,頻率分辨率太過精細,不能很好體現出共振峰的大致位置,即反映不出基波的變化特性。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
寬帶語譜圖qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
對于一段語音進行分析(語音內容為0 1 2 3 4 5 6 7 8 9),語音采樣率為8000Hz,取窗長為128個數據點,幀移為窗長的1/4,即32個數據點。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
得到如下結果圖:qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
與窄帶語譜圖相反,寬帶語譜圖的時間分辨率很好,頻率分辨率較低,不能很好反映聲音的紋理特性,反映了頻譜的時變特性,能很好分辨出共振峰的大致位置,但分辨不清諧波結構。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
從窄帶語譜圖和寬帶語譜圖看基音頻率和共振峰qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
基音周期表示聲帶的震動周期,每隔這么長時間(震動周期),有一個氣流通過,“每隔”就體現了周期性,這就是基音周期,那么譜圖上就應該有這個頻率的信號分量,而且這個頻率的幅度(能量)不應該很小,因為每隔一段時間“就有”一團能量通過聲帶。所以基音頻率所在的成分在窄帶語譜圖上應該是所有橫條紋中頻率范圍較低的那條。在圖1中,用虛線框框住的部分就表示基音頻率成分,與其在同一水平線上的條紋都表示該時刻的基音頻率成分,這條條紋對應的縱軸刻度值就表示基音頻率。從圖1小圖可估計基音頻率大約在250Hz左右,基音頻率略有波動,0.5s處大約是240Hz。其他橫條紋就是各次諧波,這些諧波中有些地方顏色比同時刻其附近其他橫條紋顏色要深,這些顏色深的條紋表示共振峰。有些時刻,顏色較局部附近深的條紋不止一條,這些深色條紋組成了各次共振峰,如第一、第二、第三共振峰。圖2,寬帶語譜圖的基音頻率和共振峰就不清晰了。但是其仍可以看出基音周期,圖2小圖具有明顯的豎線,兩條豎線之間的時間就表示基音周期。在0.44s到0.54s時間段內大約有25條豎線,即24個間隔,則基音周期可估計為(0.54-0.44)/24=4.17ms,則基音頻率估計為240Hz。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
從語音時域波形上估計基音周期、頻譜曲線上估計基音頻率qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
選取0.5s處的一段語音片段,長度為20ms。其時域波形和頻譜如圖3。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖3 0.5s處語音片段時域波形及其頻譜qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖3左圖,用紅圈圈示的尖峰用于估計基音周期,雙向箭頭表示時間范圍內5個圈共4個相似的波段,這4段就表示4個基音周期,則可估計基音周期約為4.25ms,則基音頻率約為235.2941Hz。圖3右圖,頻譜具有明顯小尖峰,這些尖峰在低頻部分(可認為語音頻率3400Hz內)比較有規律且平滑,高頻出現小幅度的“雜亂”,這些“雜亂”表示噪聲,來源有錄音設備及量化噪聲等(雖然幅度很小,甚至根本就“聽”不出來,但存在是事實)。這些尖峰就是各次諧波,從左往右一次是1次、2次、3次……諧波。其中較左邊的尖峰對應基音頻率,其橫坐標對應的值表示基音頻率,從小圖可看到大約為234.83Hz。利用各次諧波可以得到更精確的估計,圖中用紅圈表示用于估計基頻的諧波,共選取了15個,估計出基頻為234.8337Hz。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
從語音頻譜曲線上看共振峰qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
基音頻率體現的是聲源的信息,而共振峰體現的是聲道的信息。為便于比較和觀察,將圖3這個語音片段的源和系統分離,分別展示源的頻譜和聲道的頻譜,觀察一致性。圖4、5顯示的是源的頻譜、聲道的頻譜、語音的頻譜及共振峰的位置信息,圖5去掉了小圖。粉紅線是源信息的頻譜,紅線是語音的頻譜,黑色虛線是語音頻譜的包絡,藍線是聲道頻譜,藍色圈圈標示出聲道頻譜的峰值點,粉紅虛豎線顯示這些峰值點的位置。根據語音產生的源-濾波器模型及源、系統的卷積解釋,語音頻譜的包絡顯示的是聲道的信息,而小尖峰顯示源的信息,如諧波??煽吹椒奂t線和紅線二者的峰值的位置正好一一對應,體現了源的信息,而且粉紅線(源)明顯沒有包絡峰值,說明聲道的信息被濾除。同樣,藍線沒有了小尖峰,即濾掉了源的信息。并且聲道的峰值點位置與語音頻譜包絡的峰值位置也正好一一對應。藍圈圈的個數表示共振峰的個數,共有4個,從左至右分別稱為F1、F2、F3、F4,(F0是基音頻率)。它們橫軸值表示共振峰頻率值,某共振峰帶寬就表示該共振峰所占頻帶寬度。這個圖還暗示了另一個有趣的事實,源所占的頻率范圍和聲道所占的頻率范圍是一樣的,在頻域利用高通或低通或帶通的方法分離源和系統是行不通的。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖4語音片段時域波形及其源、聲道和語音頻譜。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
圖5語音片段時域波形及其源、聲道和語音頻譜。去掉小圖(小圖遮擋了部分信息)qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
基音頻率和共振峰是能從譜圖、頻譜上看出來的語音的較基本的信息,當然可以看出其他更多的信息。比如,窄帶語譜圖上基本上可以發現,低頻部分,橫條紋比較直,而高頻部分,條紋變“彎”了,這表示什么?圖1小圖可明顯看到,基音頻率也不是不變的,其也具有波動,我們可以人為的將基頻線連接起來為一條曲線,這稱為基音跟蹤。共振峰表示“諧振”,頻譜上表示為頻譜包絡(其實是上包絡)的峰值,那么頻譜下包絡的谷值點就表示“反諧振”。頻譜的“尖峰”顯示的是源的信息,小尖包突起是周期性的,是有用的,那么“雜亂”的源頭是非周期性的,這在語音轉換中是一種很重要的信息。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
————————————————qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
版權聲明:本文為CSDN博主「James_Bobo」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。qqI西數科技: 硬盤/手機/網絡/聲像電子數據鑒定專家. 025-83608636
原文鏈接:https://blog.csdn.net/weixin_42788078/article/details/102464278
上一篇:搭建高效的密碼恢復工作站:節能和廢熱管理
下一篇:語音特征提取: 看懂梅爾語譜圖(Mel-spectrogram)、梅爾倒頻系數(MFCCs)的原理
Copyright(C)2014 南京西數科技有限公司 wdsos.com 備案號:蘇ICP備09074223號 蘇公網安備:32010202010982號
地址:江蘇省南京市玄武區珠江路435號華海大廈6樓601室(同慶樓右側上電梯) 技術部:025-83608636(8:30-18:30)
數據恢復:025-86883952 產品銷售:13813824669 聯系人:徐佳偉
|公眾號|微博|論壇|百家號|
日本三级片大全在线观看 - 视频 - 在线观看 - 电影影院 - 品赏网