摘要:
我国一直以来非常重视残障人群的医疗及教育问题,近年来许多科研工作也逐步转向需要帮助的群体,针对构音障碍患者的病理语音研究受到广泛关注。以往的普通话病理发音研究主要集中于声学分析,结合运动学角度进行的研究较为少见。本文借助三维电磁发音仪采集构音障碍患者和正常人的音频数据和三维运动轨迹数据,建立了构音障碍患者和正常人的发音数据集,在对其声学参数进行全面分析研究的同时,对同步采集的运动学信号数据也进行了深入研究,根据舌部、唇部及下颌等主要发音器官的运动数据,探究构音障碍患者与正常人间的发音特性差异,并根据发音机理,对构音障碍患者的病理语音进行了识别及评价研究。本文旨在全面客观的判断和评价构音障碍患者的发音问题,为构音障碍患者的医学病理研究及康复训练提供有效的技术支持和帮助,本项研究在医疗和教育等领域具有广阔的应用前景,因此,具有重要理论意义与实用价值。本文的主要工作和创新性成果如下:(1)利用三维电磁发音仪采集并建立汉语普通话语音数据集,该数据集涵盖了汉语发音的声母、韵母、音节和句子,数据包含了构音障碍患者和正常人的同步声学和运动学特性信息。(2)提取构音障碍患者和正常人普通话发音的声学特征及运动学特征,其中声学特征包括传统声学特征和非线性动力学特征等;运动学特征包括发音器官运动位移、运动速度和时间-空间拟合指数等。通过分析对比构音障碍患者与正常人的各项声学和运动学特征的差异性,探究构音障碍患者的发音特性。论文还对不同声学和运动学特征做了病理语音识别仿真实验。(3)结合人耳听觉特性和非线性能量特性,提出一种基于S变换的耳蜗滤波倒谱系数(Cochlear Filter Cepstral Coefficients,CFCC)的特征参数提取方法,该方法不仅结合了傅里叶变换和小波变换的优势,还从仿生学的角度模拟人耳听觉感知特性。将提取的新特征用于病理语音识别,并与传统特征进行对比,证明了此特征的有效性。(4)基于声学发音机理和发音器官生理学特性,提出一种新的声学与运动学相结合的特征参数(Articulator Onset Time,AOT),即发音运动起始时间。通过组间实验显著性差异对比,发现AOT参数在构音障碍患者与正常人间的差异性较大,对病理语音的判断具有良好的区分度。论文对声学与运动学参数间存在的相关性也进行了进一步的探究。(5)提出一种将改进的核主成分分析(Kernel Principal Component Analysis,KPCA)与判别典型相关分析(Discriminative Canonical Correlation Analysis,DCCA)相结合的新的融合特征参数算法,该算法能够减少特征参量之间的相关性,保留特征参数中重要主成分。将得到的融合特征向量用于病理语音识别,相较于传统组合特征,识别率有较大提高。(6)建立了一种构音障碍患者发音质量的模糊综合评价模型,该模型对声学和运动学特征参数建立模糊集,利用F-Score算法确定各参数指标的客观权重系数,并结合主观的专家评判对病理语音进行综合评价。该方法能够较好地解决语音模糊的、难以量化的问题,使得对病理语音的综合评价更为全面客观。
年份:2019