语音半自动标注系统的设计与实现-文献专著-LingLab

语音半自动标注系统的设计与实现

作者：杨艳珍单位：西北师范大学

摘要：

随着当代信息技术日新月异的发展,人们对语音合成和语音识别的效果提出更高的要求,越来越多的实验室研究成果被应用到实际生活中,各种语音系统产品不断问世。构建大规模的语料库是设计优秀语音系统不可缺少的一项任务,而是否对语料库进行精确标注,则决定语料库质量的优劣,因此语料库的标注在语音研究中起到关键性的作用。大量的人工标注不仅耗时、耗力、成本大,而且由于人耳对于词或语句中单个音节的边界不敏感,标注数据会产生较大的误差。论文设计了一个语音语料的半自动标注系统,能够自动计算出语音语料的边界和基频包络,在此基础上手工矫正自动标注结果,实现语音语料边界和基频包络的准确标注。论文的主要工作与创新如下:1.实现了语音基元边界的自动标注算法。对录制好的无时间标注语音文件,采用基于隐Markov模型(Hidden Markov Model,HMM)的强制对齐算法进行时间边界的自动对齐。在HMM模型训练过程的重估步骤中,引入了确定性模拟退火期望值最大(Deterministic Annealing Expectation Maximization,DAEM)算法,提高了语音基元边界强制对齐的准确性。2.实现了语音基频的自动标注算法。在语料时长边界标注的基础上,采用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of w eighted spectrogram)算法提取语音的基频,并对提取出的基频数据进行平滑。根据两峰值点距离是基频周期的关系,获得峰值点标注位置,从峰值点形成的基频包络曲线,可以直接发现漏标、错标的峰值点。通过人工修正,得到更加准确的标注数据。这也就是半自动标注系统的体现。3.设计实现了一个语音半标注系统。系统采用图形化用户交互界面,在语音波形上画出每个语音基元的边界,同时将STRAIGHT算法的基频,转换成语音波形上的峰值点标注。在此基础上,设计实现了手工修改语音基元边界和峰值点标注的功能,以完成更为精确的语音基元边界以及基频包络的标注,最终实现可视化的语音半自动标注系统的设计。4.对兰州方言进行了实验语音学分析。利用实现的语音半自动标注系统,标注了兰州方言单字的边界和基频,并进行了实验语音学分析,验证了兰州方言单字的语音学结论。

年份：2015

求助