联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
融合运动学和声学特征的语音情感识别研究

摘要:

随着人工智能技术的迅猛发展,人们对人机交互技术提出了更高的要求,希望具有识别人类情感能力的智能产品能够为人机交互用户提供流畅的人机接口。因此,语音情感识别成为了人工智能领域的一个研究热点。为了使计算机可以清晰地感知人类情感并与人类顺畅地交流,必须充分利用语音、面部表情和发音器官运动数据等信号分析和研究语音的情感。另外,情感语音中的发音器官运动学研究成果可以应用于言语康复训练和计算机辅助语言学习中,研究运动学特征向声学特征的转换有助于开展情感语音的产生、识别和合成等方面的研究。综上所述,研究融合运动学和声学特征的语音情感识别对深入研究情感语音的发音机理和人机交互技术具有重大的实际意义和应用价值。本文主要围绕融合运动学和声学特征的语音情感识别系统展开研究,具体内容包括融合运动学和声学特征的双模态情感语音数据集的设计、情感语音中运动学和声学特征的提取及分析、运动学向声学特征的转换系统研究、特征融合及情感识别研究等。首先,本文设计了融合运动学和声学特征的表演型汉语普通话双模态情感语音数据集;其次,对情感语音作运动学特征和声学特征的提取及分析,并对二者的相关性进行研究;再次,提出了基于PSO-LSSVM的运动学-声学特征转换算法,实现了由运动学特征向第二共振峰及12维MFCC特征转换的运算;最后,提出了基于DBM的混合多模态融合方法,并将融合特征应用于情感识别研究中。主要研究内容及创新成果如下所述:(1)设计了包含声学数据和运动学数据的汉语普通话双模态情感语音数据集。本文对融合运动学数据和声学数据的已有常见语音库从建立方法和数据内容的角度进行了对比分析,采用表演法录制了包含四种情感(生气、高兴、伤心和中性)的汉语普通话情感语音集。进而,利用主观和客观评价方法相结合的综合模糊评价模型对声学数据进行评价并筛选,同时根据RMSE对运动学数据进行筛选,最终得到有效的,符合人们日常交流习惯的,包含单元音、双音节词和句子的汉语普通话双模态情感语音数据集,应用于后续的研究中。(2)突破传统的单音节限制,研究了基于运动学-声学特征的双音节词级和句子级情感语音。本文结合声调语言特点,分别以双音节词和包含完整语义的句子为研究对象,分析双模模态情感语音中的运动学特征和声学特征受情感变化的影响,并对运动学特征和声学特征之间的相关性进行分析。在对运动学数据进行特征提取前,对运动学数据进行基于普氏变换的说话人归一,归一后的数据可以消除不同说话人的生理区别。经过研究发现,音节越多情感对运动学特征的影响越显著,比声学特征受情感的影响更显著。同时,随着音节数量的增多,发现舌根和左右嘴角的运动速度受情感影响更加显著。句子级和双音节词级情感语音的运动学-声学特征分析可以证明多音节比单音节或者元音拥有更丰富的情感信息,音节数量越多,情感对运动学特征的影响就越显著。同时,研究表明舌和唇的运动速度与声学的共振峰、基频和振幅等特征间存在强烈的相关性,而且情感的表现越强烈,运动学和声学特征之间的相关性就越强。(3)基于PSO-LSSVM算法提出了双模态情感语音中的运动学-声学特征转换模型。结合运动学-声学特征分析结果,分别应用GMM模型和PSO-LSSVM算法实现了由运动学特征分别向第二共振峰和12维MFCC的转换,并对转换模型进行了理论分析和公式推导。将转换生成的特征与实际的声学特征进行对比,实验结果证明转换精度较高。(4)提出了基于DBM的混合多模态融合方法,并将其应用于情感识别中。本文研究了语音情感识别中的混合融合方法,并对其进行理论分析和公式推导,利用随机森林和支持向量机实现了情感的识别。实验结果表明,混合融合后的识别结果明显优于单一模态情感识别的结果,也优于对声学特征和运动学特征作特征级融合后的识别结果;同时,对K-近邻、支持向量机和随机森林分类器的识别结果进行对比发现,采用随机森林作为识别器的识别效果要优于支持向量机和K-近邻的识别效果。

年份:2019

求助
推荐
收藏
表情
图片
附件