2019,55(10)
结合听觉模型的腭裂语音高鼻音等级自动识别
付方玲
1
,何 飞
1
,付 佳
1
,尹 恒
2
,黄 华
1
,何 凌
1
1.四川大学 电气信息学院,成都 610065
2.四川大学 华西口腔医院,成都 610041
摘 要:腭裂语音高鼻音等级的自动识别能为临床腭咽功能评估提供有效、客观、无创的辅助依据。对腭裂语音高
鼻音等级自动分类系统进行了研究,利用听觉模型提取语音信号的听觉内部表达,并结合同步检测器提取软限制比
(Soft Limited Ra tio,SLR)谱特征作为特征参数 ,利用一对一支持向量机(1-v-1 Support Vector Machine,1-v-1
SV M)实现腭裂语音高鼻音四类等级(正常、轻度、中度和重度)的自动划分。实验采用 56 名儿童的共 3 086 个语音
样本,并对比了使用不同基底膜滤波器种类和个数,使用同步检测器和侧抑制网络对识别效果的影响。实验结果表
明,使用基于等效矩阵带宽(Equ ivalent Rectangular Bandwidth,ERB)尺度的 Gammatone滤波器的识别效果优于基
于 Bark尺度的小波包滤波器;54个通道的滤波器能有效权衡算法时间成本和识别正确率 ;使用同步检测器提取 SLR
谱特征的识别效果优于侧抑制网络提取的 LIN(Latera l Inhibition Network)谱特征。腭裂语音高鼻音四类等级自动
识别系统最高分类正确率达 9 1.50%。
关键词:腭裂语音;高鼻音;听觉模型;同步检测器
文献标志码:A 中图分类号:TP391 doi:10.3778/j.is sn.1002-8331.1803-0060
付方玲,何飞,付佳,等 .结合听觉模型的腭裂语音高鼻音等级自动识别 .计算机工程与应用,2019,55(10):127-134.
FU Fangling, HE Fei, FU Jia, et al. Automatic detection of hyp ernasali ty degrees in cleft palate speech based on human
auditory model. Computer Engineering and Applicatio ns, 2 019, 55(10):127-134.
Automatic Detection of Hypernasality Degrees in C left Palate Speech Based on Human Auditory
Model
FU Fangling
1
, HE Fei
1
, FU Jia
1
, YIN Heng
2
, HUANG Hua
1
, HE Ling
1
1.College of Elect rical Engineering and Informat ion Technology, Sichuan University, C hengdu 610 065, China
2.West China H ospital of Stomatology, Sichuan University, Chengdu 610041, China
Ab stract:The automatic dete ctio n of hypernasality degrees in cleft palate spee ch can provide effective, objective and
non-invasive basis for the assessment of velopharyngeal function in clinical. In this work, an automatic dete ction system
of hypernasality degrees in cleft palate has been rese arched. The human auditory model is applied to extract the i nne r pre -
sentation of speech signal as the front-end processing, and the SLR(Soft-Limited Rati o)spectral features extracted from
the synchronous detector is used as the acoustic characteristic parameters. The 1-v-1 SVM(1-v-1 Support Vector Machine)
is utilized to automatically detect the hypernasality degrees(normal, mild, moderate and severe hypernasality). Experi -
m ental data inclu de total 3 086 speeches from 56 kids, the comparisons of f ilter bank’s kind and num ber, sync hronous
detector and lateral inhibitory network are discus sed. And the results show that the Gammatone filter based on ERB
⦾模式识别与人工智能⦾
基金项目:国家自然科学基金青年科学基金项目(No. 61503264)。
作者简介:付方玲(1996—),女,硕士研究生,研究领域为语音信号处理,E-mail:183841 27060@163.com;何飞(1998—),女,硕士
研究生,研究领域为语音信号处理;付佳(1998—),女,硕士研究生,研究领域为语音信号处理;尹恒(1971—),女,副主
任护师,研究领域为腭裂语音评估;黄华(1961—),男,博士后,教授,博士生导师,研究领域为医学电子学;何凌
(1981—),通讯作者,女,博士,副教授,研究领域为语音信号处理。
收稿日期:2018-0 3-05 修回日期:2018-0 4-20 文章编号:1002-8 331(2019)10-0127-08
CN KI网络出版:2018-08-30, http://kns.cnki.net/kcms/detail /11.2127.TP.20180829.0834.002.html
Computer Engineering and Applications计算机工程与应用
127