语音特征主要包括声学特性,这些特性可以分为几个不同的类别,包括韵律特征、频谱特征、能量特征等。以下是一些常见的语音特征:
韵律特征
音强:显示语音的重音、轻音等强弱变化。
音高:表现语音的字调与语调。
音长:对语言节奏的快慢,字与句之间的长短关系进行计量。
频谱特征
语谱图(spectrogram):通过快速傅里叶变换(FFT)分析语音信号的频谱信息。
梅尔频率倒谱系数(MFCC):模拟人耳对声音的感知,将语音信号的频谱信息转换为倒谱系数。
线性预测倒谱系数(LPCC):通过线性预测分析语音信号的频谱信息。
频谱质心:语音信号频谱的质心频率。
频谱延展度:语音信号频谱的延展程度。
谱熵:语音信号频谱的不确定性或混乱程度。
频谱通量:语音信号频谱的动态变化。
频谱滚降点:语音信号频谱能量下降的速率。
能量特征
过零率:语音信号中过零(从正到负或从负到正)的次数。
能量:语音信号的总能量。
振幅扰动度:语音信号振幅的变化程度。
声强/响度:语音信号的响度或音量。
其他特征
基频及其频率抖动度:语音信号中基本频率的波动。
谐噪比:语音信号中信号与背景噪声的比值。
共振峰:语音信号中由声道共振产生的特征频率。
能量熵:语音信号能量分布的不确定性。
bark滤波器:模拟人耳基底膜的滤波器组,用于提取语音信号的特定频带信息。
CQCC(Chroma Features):提取语音信号的色度特征,模拟人耳对不同音高和音色的感觉。
这些特征在语音识别、合成、分析等领域有着广泛的应用。不同的特征提取方法可能会侧重于不同的声学特性,以适应不同的应用场景和需求