摘要:
声源部分在情感发声过程中具有重要的作用,不同情感的发声在嗓音音质特征上有不同的表现。以往的情感语音研究多集中于韵律特征和少量的音质特征,这些特征在特定情感类别的分析中具有显著性差异,但如果扩大情感种类,尝试分析更全面的情感分类,则需要更多更复杂的特征参数。本文主要以情感语音的嗓音音质特征为研究对象,通过提取和分析多种情感语音的嗓音音质参数,建立参数与情感的对应,并依据对应关系调整合成模型的输入,合成情感语音。首先在情感种类方面,我们选择了多数研究者认可的七种情感种类作为研究对象,这七种情感分别是:悲伤、高兴、生气、惊讶、害怕、厌恶和中性。然后分别对七种情感语音样本进行嗓音音质参数提取。本研究一共提取了九个与嗓音音质相关的参数,分别是基频抖动(jitter)、振幅抖动(shimmer)、声门振幅(pulseAmp)、谐波噪声率(HNR)、声门波最大下降率(MFDR)、基频均值(meanF0)、归一化振幅商(NAQ)、音高浮动范围(pitchRange)、第一二谐波差值(H1-H2)。接下来使用多种方法对参数数据进行统计分析,在参数统计分析结果中,我们发现:(1)存在一些参数具有情感“普适性”,即在大多数元音、大多数情感组合中都具有显著性差异。比如声门波最大下降率(MFDR),在包含所有元音和情感样本的Kruskal-Wallis秩和检验中,对所有元音都表现出具有情感间的显著性差异。在具体的情感组合检验中,相比于其他参数,MFDR在更多的情感组合中具有显著性差异。(2)在具体的情感组合检验中,我们发现存在一些参数,它们是否具有情感间显著性差异与特定元音和情感相关。比如在元音/e/中,基频抖动(jitter)在anger情感与其他一些情感组合中具有显著性差异,而在不包含anger的情感组合中都不具有显著性差异。又如参数H1-H2,在元音/e/中不具有情感间显著性差异,而在元音/i/的较多情感组合中具有显著性差异。(3)从情感角度来看,存在一些情感组合较其他情感组合更容易被嗓音音质参数区分。比如在元音/i/中,fear-neutral,fear-disgust,fear-surprise等情感组合具有较多的参数表现出显著性差异,说明这些情感组合更容易从嗓音音质特征上进行区分。综合参数的分析结果,我们得到了参数典型值与情感的映射,并依据映射调整语音合成模型的输入,采用STRAIGHT算法合成情感语音。
年份:2014