华 南 理 工 大 学 学 报 自 然 科 学 版
第 卷 第 期
Journal of South China University of Technology
VolNo
年 月
Natural Science Edition
February
文章编号 X
收稿日期
基金项目 国家自然科学基金资助项目
作者简介 奉小慧女博士生主要从事音视频语音处理口语语音识别模式识别等研究Email xhfengmail
scuteducn
通讯作者 贺前华男教授博士生导师主要从事语音识别及合成技术音视频信号处理模式识别等研究
Email eehescuteducn
基 于 PSLevel Set 的 嘴 唇 几 何 形 状 定 位 模 型
奉小慧贺前华
王伟凝严乐贫
华南理工大学 电子与信息学院 广东 广州
摘要 针对面向唇读的水平集模型在嘴唇分割中存在边界过收敛和过早收敛的问题
文中提出了一种改进的基于先验知识的水平集模型简称为 PSLevel Set来进行嘴唇几
何形状的定位PSLevel Set 模型利用改进的差值能量函数引入嘴唇形状的先验信息在
曲线演化过程中反复比较演化曲线和先验曲线的差距使曲线的演化形状逐渐逼近先验
模型形状从而更精确地收敛于目标物体实际轮廓实验表明用 PSLevel Set 模型定位嘴
唇几何形状的准确率比用水平集模型提高了
关键词 唇读 形状定位 水平集模型 曲线演化
中图分类号 TP doi jissnX
自动语音识别作为目前主流的人机信息交互技
术是未来实现真正意义上的人机交流的一个必需
组成部分传统的单独听觉语音识别在安静环境下
已能取得很高的正确识别率但在复杂的噪声环境
下识别性能急剧下降
视频语音作为语音识别的
辅助手段可以抵制这种复杂的环境使其完全不受
声学噪声的影响
视频语音识别是通过提取说话
人说话时嘴唇的特征来识别和理解说话的内容也
称之为唇读嘴唇的几何形状定位是唇读过程中提
取嘴唇几何特征的关键步骤之一其定位方法较多
文献 中利用嘴唇的色彩和边缘信息进行分割
但这种方法没有平滑约束其结果一般比较粗糙且
没有很好的形状文献 中的 LDA 算法是用聚类
的方法来区分嘴唇像素点和肤色像素点但是这种
分割结果带有很多的噪声点的干扰因此以上两种
定位方法都不适合在唇读中使用模板匹配算法通
过改变给定的模板使得模板与嘴唇形状匹配但是
模板的选取需要大量的训练数据且收敛受到原始
图像灰度值的干扰
Level Set 模型
是一种描
述曲线以曲率相关的速度演化的有力工具 近几年
来在图像分割轮廓形状定位及计算机视觉等领域中
得到了广泛的应用它采用欧拉类型的求解方法避
免了蛇形模型
易陷入局部极值的问题且计算
稳定但在目标轮廓不是很明显或梯度信息很弱
时就会出现过收敛的问题且会受到嘴唇阴影的
影响
通常人在正常说话情况下说话的嘴唇形状改变
不会太大因此文中提出了一种改进的基于先验知
识的水平集模型 简称为 PSLevel Set来进行嘴唇
形状的定位与以往通过统计概率
来引入先验
信息的模型不同PSLevel Set 模型通过引入改进的
曲线差异能量函数对偏离真实目标轮廓形状进行
惩罚和约束从而达到曲线演化的收敛并且在该模
型中改进的曲线差异能量函数允许先验形状具有
旋转平移和尺度变换的功能这样可以很好地描述
物体的边界和先验形状的映射关系对实际应用有
很大帮助
Level Set 模型
Level Set 模型
是在二维或三维图像中计算