摘要:
语音合成旨在使计算机模仿人类的言语表达能力,具体包括文语转换(Text-to-Speech)和概念语音转换(Concept-to-Speech)等。文语转换旨在将输入的文字转换成自然流畅的语音。但人类不仅能朗读文本,还能根据头脑中的概念遣词造句并将句子通过言语讲出来。要使计算机具备这种言语表达能力就需要依靠概念语音转换。概念语音转换将抽象语义表示转换为可懂的、表达该语义的语音波形。建立一个概念语音转换系统可以通过级联自然语言生成(Natural Language Generation)与文语转换(Text-to-Speech)模块实现,前者将抽象语义转换为表层文本,后者将文本转换为语音。但目前概念语音转换领域的研究共识是需要在简单级联的系统中增加一个特别的韵律符号预测模块,该模块利用生成文本过程中产生的各类语言学信息预测韵律符号,并期望依靠这类“正确”的语言学信息提高韵律符号预测精确度。这一方法体现了系统模块间信息共享的思想,但概念语音转换不同模块之间的信息共享的途径不止如此。本文研究概念语音转换中基于模块问信息共享的声学建模与文本生成方法。首先,本文将自然语言生成模块提供的语言学信息传播到基于隐马尔科夫模型(Hidden Markov Model, HMM)的统计参数语音合成模块当中,以优化系统的声学建模能力,降低声学特征预测误差;其次,本文利用语言学信息取代韵律特征用于声学建模,以克服传统方法中韵律符号预测不精确以及韵律模型构建代价高的问题;最后,本文研究结合合成质量评估的文本生成方法,通过对输入语义对应的多个备选文本合成语音的质量进行自动评估,优化文本生成结果,提高输出合成语音的自然度。整篇文章安排如下:第一章为绪论,将从人类的言语表达能力出发介绍概念语音转换,并将其与文语转换进行对比。本章也将介绍国内外概念语音转换的研究现状。第二章将具体介绍结合外部韵律模型的中文概念语音转换系统结构,以及各个模块的原理、实现方法。具体包括中文自然语言生成、中文韵律建模以及基于HMM的统计参数语音波形生成方法。这一系统也将作为中文概念语音转换基线系统。在此基础上,本章将分析基线系统的不足。第三章将针对基线系统的不足介绍第一种优化方法。该方法将自然语言生成模块提供的语言学信息加入到统计声学模型的上下文标签中,从而为声学模型聚类提供更多可能的组合方式。实验证明加入语言学信息能够提高语音基频建模的精度。第四章将进一步介绍结合语言学特征的声学建模优化方法。该方法一方面使用语言学信息替代声学模型上下文标签中的韵律特征,另一方面提出了增加跳转的HMM声学模型结构。两者相结合,可以使概念语音转换系统摆脱对韵律特征的依赖。实验表明该方法在实际环境中能够取得与传统方法相当或更好的合成语音质量。第五章将讨论结合合成质量评估的文本生成方法,该方法首先利用规则将输入语义转换为意思相同但措辞不同的多个备选文本,然后使用基于K-NN的合成音节可接受度自动评价方法对备选文本对应中的音节逐个进行评价,进一步使用基于规则的整句可接受度评价方法对备选文本对应的合成语音质量进行自动评价。最终选择评价质量较好的备选文本作为文本生成结果。实验结果表明该方法可以提升输出合成语音的自然度。第六章将总结全文,并讨论中文概念语音转换值得深入研究的后续工作。
年份:2015