摘要:
随着语音合成、语音识别等技术的快速发展,人机语音交互应用越来越普及。如何使机器发出与真人一致的声音,一直是语音技术研究者追求的目标,基于DNN(深度神经网络)的深度学习已成为提升语音合成系统性能的有效途径。迄今为止,已取得的语音合成研究成果主要集中在英语、汉语等语言,其他语言的相关研究成果还需进一步丰富。马来西亚语(简称马来语)属于属南岛语系马来-波利尼西亚语族,广泛使用于马来西亚、新加坡、文莱等地。本文以开发马来语语音合成应用系统为目的,采用HMM以及DNN,探索提高语音合成系统性能的途径。论文的主要工作有:(1)根据马来语的书写与发音特点,分别以声韵母结构和音素结构实现马来语的音子自动切分,并根据自动切分结果选择了音素结构作为马来语语音合成的建模基元。(2)根据马来语的语言特征设计了五音子上下文属性与问题集,并实现上下文属性集的自动生成。在此基础上,设计并调试了基于HMM与五音子上下文属性的马来语语音合成系统,实现了模型的训练以及语音的合成。(3)针对基于HMM语音合成系统中决策树声学模型的问题,采用全连接的深度神经网络代替决策树作为声学模型,重新进行系统训练与语音合成,相对于HMM语音合成系统,合成语音质量有较明显的提升。(4)在基于DNN声学模型语音合成系统中,针对训练阶段与合成参数生成阶段的参数优化生成标准不一致以及合成语音的基频轨迹过平滑问题,采用了考虑全局方差的轨迹训练,合成语音有效的解决了过平滑问题。实验结果表明,基于DNN声学模型的语音合成方法及其全局方差轨迹训练可以进一步改进基于HMM语音合成系统,有效提高合成语音质量。
年份:2019