摘要:
语音合成是人机交互的核心技术之一,也是信息处理领域的一项前沿技术。语音合成的目标是将文字序列实时转化为清晰、自然、流畅的语音信息,它的研究对人机语音通讯、智能机器人和语音自动播报等的研制具有十分重要的理论意义和实用价值。随着计算机和多媒体技术的飞速发展,语音合成技术越来越受到社会的广泛关注。特别是近几年来,神经网络方法在机器翻译、文本分类、问答系统、信息抽取及语音识别等领域的成功应用,使得基于神经网络的语音合成技术逐渐成为国内外的研究热点。藏语语音合成是藏文信息处理的重要研究任务之一,但相对汉语和英语,藏语语音合成技术的研究还处于发展阶段。目前,藏语语音合成系统的实现主要采用波形拼接技术和基于HMM模型的统计参数语音合成技术。考虑到波形拼接技术对存储容量要求高且系统构建周期长,而统计参数语音合成技术的合成语音的韵律表现不佳,本文通过分析藏文的结构特点与拼读规则,采用Seq2Seq模型加注意力机制的方法,研究了基于神经网络的藏语语音合成技术。文章主要从以下三个方面对藏语语音合成技术进行了研究:(1)从语音合成系统的前端出发,基于传统藏语文法统计分析了藏语字结构和拼读规则,给出了藏文构件分解算法。同时,采用基于注意力机制的Seq2Seq模型,给出了藏文文本的韵律预测方法。(2)从语音合成系统的后端入手,基于Seq2Seq模型设计了藏语语音合成的声学模型,重点研究面向藏语语音合成的编码器和解码器。最后,通过Griffin-Lim算法生成藏语语音波形。(3)通过对比基于语料库的藏语语音合成系统和基于神经网络的藏语语音合成系统的性能,验证了本文方法的有效性。实验数据表明,语料规模较大的条件下基于神经网络的藏语语音合成系统能够取得更好的合成效果。
年份:2019