联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
面向语音合成的印尼语文本分析与处理

摘要:

让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向。语音合成在导航、通信等领域都有广泛运用。目前,文语转换依旧是语音合成的主要方法,即运用计算机实现从给定文本到相应语音的转换。目前,对语音合成的研究较集中于英语、汉语等语言中,对于印尼语的研究相对较少。印尼语属马来-波利尼西亚语系西印度尼西亚语支,是一种由拉丁字母构成的、有明显词边界的语言。本文主要针对印尼语语音合成系统,研究并实现印尼语前端文本分析中的语音语料库构建、文本归一化、音节化以及音子的划分。本文的主要工作包括:(1)印尼语发音语料库的构建。从印尼语网站中收集了印尼语文本,对文本进行去重和去非法字符处理,并将其用作构建印尼语发音语料库的初始文本语料库。在该语料库的基础上,综合考虑句子长度和高频词挑选得到印尼语的发音语料库,并用客观的评价标准对其进行评价。(2)印尼语文本中非标准“词”的归一化。研究了常出现在印尼语文本中的非标准“词”及其歧义种类,并提出印尼语文本非标准“词”的归一化方法和实现流程。用正则表达式与关键词相结合的方法对文本中的数字串、与数字连用的特殊字符的进行归一化处理,用字符匹配的方法对文本中的缩写词进行归一化处理。对实验结果统计得到文本归一化正确率达96.2%。(3)面向语音合成的印尼语的音节化。研究了印尼语的音节构成,在此基础上提出适用于语音合成的印尼语音节化方案,并对其进行实现。采用基于音节列表的逆向最大匹配的方法,并在此基础上添加零声母规则实现音节划分。经统计得该次实验集内测试的正确率为98.2%,集外测试的正确率为97.1%。(4)印尼语音子的划分。针对印尼语语音合成,提出并实现了基于印尼语特性的音子划分方案。采用基于声韵母结构的方法和音素的结构的方法分别确定了音子列表,并运用字典匹配的方法实现印尼语语音语料库文本的音子划分,得到韵律文本。

年份:2019

求助
推荐
收藏
表情
图片
附件