摘要:
语音合成是将文字合成语音的技术,在很多应用产品中扮演了很重要的角色,例如导航系统、语音助手(谷歌助手,苹果Siri,微软Cortana等)、语音到语音翻译系统等。理想地,合成的语音应该传达文字信息(可理解性),同时听起来像人类发出的声音(自然性),并且带有不同风格(多样性)。然而,大多语音合成系统主要关注在可理解性和自然性上。近些年来,基于深度学习的模型在很多领域取得了巨大的成功,我们见证了深度学习技术给语音合成领域带来了激动人心的发展。第一,基于深度学习的语音合成系统消除了大量人工标注的特征工程工作,让机器能够自动地从原始数据中提取抽象、显著的特征;第二,基于深度学习的语音合成系统能够在不同的输入下,控制合成不同风格的语音,例如,不同语速、不同说话人、不同情绪等。第三,基于深度学习的语音合成系统适应性更强,将设计的模型应用到新的数据集上,不需要过多的人工特征设计的工作。最后,端到端的语音合成系统是整体来训练的,相较于传统的多个独立训练阶段,模型的鲁棒性更强。在这篇论文中,我们主要利用深度神经网络来实现多风格语音的合成。我们的贡献主要分为两个方面。第一,为了覆盖更丰富和更多样的语音风格,我们从双语版动画电影中利用字幕信息来切割音频,制作出了多风格语音数据集和跨语言多风格数据集。第二,我们设计了两种不同的多风格语音合成模型,分别为多风格语音合成模型和跨语言多风格语音合成模型,这些模型能自动地从参照音频中提取语音风格特征,并且这些模型能够以随机初始化的方式从头开始训练,消除了传统模型需要人工设计特征的工作,提高了模型的泛化能力。在论文的实验部分,由于自制的数据集中存在背景噪声,我们采用巧妙的训练策略来使模型的训练更简单和更稳定。最后,我们做了一系列的实验来验证和解释训练好的模型。
年份:2019