摘要:
近年来,跨语言语音合成已成为研究热点。中国是一个少数民族语言众多的国家,跨语言语音合成的研究对促进少数民族语言语音技术的发展有着重要的意义。英语的研究表明可以借助于英语与少数民族语言一起进行跨语言语音合成。对藏语来说,已经实现了基于隐马尔科夫模型(Hidden Markov Model,HMM)的汉藏双语语音合成,但该方法存在的两个问题:1.如何实现汉藏双语的情感语音合成,以提高合成汉藏语音的表现力?2.近年来深度学习已在语音合成中成功应用,深度学习能否提高汉藏双语跨语言合成语音的音质?针对以上两个问题,本文用普通话的情感语料实现了汉藏双语的情感语音合成,解决了第一个问题。用深度神经网络(Deep Neural Network,DNN)代替HMM进行声学模型训练,实现了基于DNN的汉藏双语语音合成,解决了第二个问题。本文完成了以下创新和工作:1.利用普通话的情感语料,实现了基于HMM的汉藏双语情感语音合成。根据普通话和藏语在发音和情感表达上的相似性,利用普通话的情感语料,实现了三种基于HMM的汉藏双语情感语音合成方法。主观评测和客观评测表明,三种方法均能合成高质量的汉语和藏语的情感语音。2.利用深度神经网络DNN代替HMM进行声学模型训练,实现了基于DNN的汉藏双语语音合成。在基于HMM的语音合成框架下,将HMM里的声学模型用DNN代替,实现了基于DNN的汉藏双语语音合成。主观评测和客观评测表明,相较于传统的基于HMM的汉藏双语跨语言语音合成方法,本文提出的方法合成的普通话和藏语语音音质都较优。
年份:2018