摘要:
情感语音合成作为一个新兴的语音合成方向,糅合了生理学、心理学、语言学和信息科学等各学科知识,可以应用于文本阅读、信息查询发布和计算机辅助教学等领域,能够很好的将语音的口语分析、情感分析与计算机技术有机融合,为实现以人为本,具有个性化特征的语音合成系统奠定基础。目前的情感语音合成工作可分为基于规则合成和基于波形拼接合成两类。论文收集了情感语音数据,分析了语音的情感声学特征,并提出了情感语音合成模型,为实现输入中性语音到目标情感语音的合成奠定基础。论文的主要贡献如下:1.在情感分类和量化计算的基础上,引入了PAD三维情感模型,对情感进行了定量描述。2.分析构建语料库的方法,基于“最自然控制的”思想,提出了情景短片诱导的方式录制情感语料。为确保录制语料的有效性和高质量采取了三种措施:设计符合情感表达的文本语料;测试生理数据,通过生理信号的变化分析情感;精心设计电影素材,从听见和视觉双方面进行刺激激发情感。3.引入Praat工具,进行高效的情感特征分析,并在语料库的基础上,分析提取了与情感相关的句子层、单词层和音节层3层12维特征,创建了特征参数库。4.对比BP和RBF神经网络在训练特征参数库时的优缺点,在分析单元选择和统计参数合成语音的基础上,提出了综合声学模型,为实现从中性语音到情感语音的合成奠定基础。情感语音合成研究分为情感语音分析和语音合成两个部分。其中,语音分析的主要工作是收集不同情感的语音数据、提取声学特征,分析声学特征与情感联系;语音合成的主要工作是建立情感转换模型,利用情感转换模型实现合成。
年份:2014