没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊35(2022)101206完整文章使用Bi-LSTM和深度学习模型的土耳其唇语阅读Ümit Atilaa,Furkan Sabazb,aGazi大学工程学院计算机工程系,安卡拉06000,土耳其b土耳其Karabuk 78000 Karabuk大学工程学院计算机工程系阿提奇莱因福奥文章历史记录:接收日期:2022年2022年6月13日修订2022年6月14日接受2022年6月29日在线提供关键词:唇读双线性模型深度学习数据集土耳其语A B S T R A C T近年来,唇读一直是重要性大大增加的研究之一,特别是随着深度学习应用的普及。在这个主题中,研究人员试图从没有声音的视频帧中检测一个人说了什么。通过对以往的研究进行分析,可以看出,已经为各种语言(如汉语、韩语、英语和德语)开发了自动唇读系统。然而,这些研究表明,该系统的开发是困难的,因为从视频帧图像没有音频数据的唇读取决于许多参数,光线、拍摄距离和人的性别。唇读系统最初是使用经典的机器学习方法开发的。然而,特别是近年来,随着深度学习应用的普及,这一主题开始比以前更多地被研究,研究表明,一般来说,基于深度学习的唇读给出了更成功的结果。尽管在这一领域有不同语言的研究,但目前还没有土耳其语的研究和数据集因此,本研究旨在研究最先进的深度学习模型在土耳其唇读上的表现为此,使用图像处理技术创建了两个新的数据集,一个包含111个单词,另一个包含113个句子。本研究中用于执行唇读的模型使用基于CNN的模型从视频帧中提取特征,并使用双向长短期记忆(Bi-LSTM)进行分类。实验结果表明,ResNet-18和Bi-LSTM对在单词和句子数据集上都给出了最好的结果,准确率分别为84.5%和88.55%。它也被观察到,更好的性能,获得在句子识别比单词识别在几乎每一个实现的模型。©2022 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍人与人之间最自然的沟通和达成协议的方法是说话。McGurk和McDonald在他们的实验研究中向观察者提供了不一致的听觉和视觉数据来说明视觉对言语知觉的影响。实验的结果是,人们感知到的声音与呈现给他们的声音不同[1]。后来,其他一些研究表明,在语音识别和解释中使用视觉信息可以提高准确性,即使人们没有意识到这一点[2,3]。Skipper等人在他们的医学研究中指出,对说话者的嘴部进行监控虽然音频信号通常比视频信号信息量大得多,但已经证明,大多数人使用从唇读到*通讯作者。电 子 邮 件 地 址 : umitatila@gazi.edu.tr ( 电 子 邮 件 地 址 :Atila ) ,furkansabaz@karabuk.edu.tr(F.Sabaz)。由Karabuk大学负责进行同行审查站着讲话。视觉提示可以根据条件以不同的比例使用。例如,在嘈杂的环境中,视觉通道可能变得更加重要。此外,有时由于人的不适,言语或听觉功能可能无法完全实现。这些人在日常生活中试图提高他们与其他人的沟通质量,同样是通过唇读。此外,必须呈现音频数据以理解视频中所说的内容[5如果没有这些数据,对话就无法被理解。因此,唇读专家被任命来确定在这种情况下,特别是在法医事件中所说的话。 专家们分析了图像中人物的嘴唇运动,并试图确定他们说了什么。并向有关部门报告调查结果[11]。近年来,与唇读相关的安全性研究,如指纹或面部识别等生物识别信息已经脱颖而出。一些利用跟踪个人嘴唇运动的研究正在使用听觉数据之外的噪声环境中的视觉数据向智能手机打印消息,使用视觉无声密码采取各种安全措施[12-https://doi.org/10.1016/j.jestch.2022.1012062215-0986/©2022 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestch- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012062根据有语言障碍的人的嘴唇运动调整声音大小[15唇读的主要目的是只使用图像来检测口语表达,而不需要使用音频数据。在这种情况下的应用分为特殊的领域,如字母,数字,音节,单词和句子识别[18在文献中对各种语言的特定目的数据集进行了研究。对具有序列相关表达式的数据进行高精度的分类或检测是许多不同领域的重要问题。唇读研究中遇到的另一个主要困难是,不同的字母(如p、b和m)从嘴里出来时,嘴唇的动作非常相似[21,22]。在文献中已经提出了各种方法,特别是用于区分音节[23另一方面,在日常生活中,说一个词或一个句子往往需要几秒钟。相同的字母、音节或单词可能用不同的嘴唇结构/形状来表达的事实是另一个难题。此外,还有一些其他问题,必须克服的数据。这些问题与受试者的性别、嘴唇结构、拍摄环境和拍摄角度有关。人的唇角的畸形和存在男性的胡须或小胡子是使识别过程复杂化的其他因素[7,29]。因此,在唇读中获得的每一个图像都应该根据目的进行解释。2. 相关作品近年来,对自动唇读的研究不断增加。本课题的第一个研究是基于视觉特征的提取和口语表达的分类和建模。研究人员提出了非常不同的方法来执行各种语言的识别。在最初研究唇读系统的那些年里,通常使用经典的机器学习方法和更古老的方法。由于这个原因,传统的系统,如隐马尔可夫模型,它使用上下文信息来模拟时序数据的时间动态,已被广泛使用。这些研究通常执行简单的任务,如字母或数字识别[24,30,63]。在接下来的几年里,对更复杂和更现实的场景的工作需求逐渐出现。与计算机视觉的其他应用领域一样,深度学习模型在自动唇读系统的开发中使用得更频繁,而不是经典的机器学习方法,来更有效地执行这些复杂的任务。这些进步在很大程度上是由于开发了基于深度学习架构的高效系统,这些系统正在迅速取代传统系统,以及创建了比以前大得多的唇读数据集。Sarhan等人在唇读研究中提出了一种名为HLR-NET的混合模型,用于单词和字符识别。该模型由预处理、编码器和解码器3个阶段组成.在预处理阶段检测并获得具有标志的嘴唇之后,在编码器阶段使用Inception层和BiGRU。在解码器阶段,这是进行实际分类的最后一个阶段,有一个使用softmax激活函数的全连接结构[31]。斯塔菲拉基斯和齐米罗普洛斯利用英国广播公司的电视广播数据集为词识别.使用的3D CNN + LSTM模型,他们实现了83%的单词识别准确率[32]。Sterpu和Naomi使用TCD-TIMIT数据集进行单词识别。在他们的研究中,他们提出了一种基于离散余弦变换和主动外观模型的模型。他们通过尝试猜测56个说话者所说的话,成功率达到了54%左右[33]。Thangthai等人在TCD-TIMIT数据集上工作,并使用深度神经网络(DNN)和隐马尔可夫模型(HMM)实现了48.89%的成功率[34]。Petridis等人每-使用AVIC和OuluVS2数据库进行了成句识别。他们通过提出受限玻尔兹曼机和Bi-LSTM模型取得了91.8%的成功[35]。Thangthai等人试图通过增加唇读来提高在语音识别方面取得的成功。使用一个名为Kaldi的框架,它使用DNN结构,他们实现了84.67%的成功率[36]。Huyen提出了一个基于CNN + LSTM模型的德语唇读系统。为了用德语创建自己的数据集,共有15人,9名男性和6名女性,将12个不同的单词发音10次,这些单词很难相互区分。使用这个数据集,他们实现了88%的准确率[37]。Chen等人制备了一个普通话的高级数据集,普通话是中国最常用的语言之一。在这个数据集中,共有349个类和1705个字符。在他们提出的模型中,在将帧通过3D卷积神经网络(3D CNN)和DenseNET层后,他们获得了特征并将其发送Bi-LSTM分类器。成功率为61.18%[38]。Kurniawan和Suyanto在印度尼西亚(印度尼西亚)创建了一个唇读应用程序,其中使用3D CNN提取的特征被发送到扁平层 。 然 后 , 将 从 平 坦 化 层 获 得 的 值 发 送 到 双 向 门 控 递 归 单 元(BIGRU)并进行分类。开发的模型显示80%的成功率[39]。当我们查看土耳其语唇读的研究时,只有Alper Hakim在2013年的一项研究脱颖而出,其中使用MS Kinect相机获得的图像由KNN分类,以估计15种不同的颜色。他的研究成功率为72.44%。研究中使用的数据集未共享[30]。其他语言和数据集的一些研究结果见表1。从文献回顾中可以看出,虽然唇读研究已经在许多不同的语言中进行,其中大多数是英语,但没有对土耳其语进行全面的研究。为了填补目前的空白,本研究旨在调查最先进的深度学习模型在土耳其语唇读中的表现。为此,利用图像处理技术,创建了两个新的数据集,一个包含111个单词,另一个包含113个句子。用于执行唇读的深度学习模型使用基于CNN的模型从视频帧中提取特征,并使用双向长短期记忆执行分类。在此背景下,本研究的重要贡献总结这项研究首次为科学研究带来了一个新的唇读数据集,包括111个单词和113个句子。表1以前的研究和模型。参考文献数据集数据集类型精度[51]第五十一话曲线数字百分之五十六[32]第三十二话LRW词百分之八十四斯捷尔普[33]TCD-TIMIT句话%31.59[34]第三十四话TCD-TIMIT句话%43.61[第52话]网格句话%97.10魔杖[53]网格句话%84.70佩特里迪斯[54]LRW词百分之八十二阿富拉斯[55]LRS句话百分之五十佩特里迪斯[35]OuluVS2句话%91.80西藤县[56]OuluVS2句话%82.80[第57话]LRW词%61.10[第57话]OuluVS句话%91.40泰国[36]RM-3000句话%84.67齐默尔曼[58]OuluVS2句话百分之七十四点一李[59]OuluVS2句话81.1分Koumparoulis[60]OuluVS2句话百分之九十[61]第六十一话OuluVS2句话百分之九十五巴克里[62]AVLetters信百分之六十五点三●- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012063×这是第一个针对土耳其语进行的基于深度学习的单词或句子识别研究,该研究深入研究了基于CNN和Bi-LSTM的最先进深度学习模型的性能。3. 材料和方法时间序列数据,如视频,在一定的和相等的时间段内以时间顺序离散地存储。在这种类型的数据中,由于每个帧与前一帧和下一帧相关,因此应该很好地确定它们之间的相关性。另一个重要的问题是要处理的帧位于时间平面中的哪个点。它在数据集中的意义和价值根据它被发现的时间顺序或位置而有所不同。在输入视频中,首先进行嘴唇检测,然后使用卷积神经网络(CNN)从检测到的嘴唇区域中提取特征。然后,使用双向长短期记忆进行分类。3.1. 唇位嘴唇位置的检测和从图像中裁剪它对于创建唇读数据集至关重要。为此,选择了经常用于面检测的介质管道框架MediaPipe是一个用于创建机器学习(ML)管道的框架MediaPipe也是跨平台和开源的。这个跨平台框架运行在服务器、手机(android - ios)、桌面和嵌入式上。MediaPipe框架提供了16个不同的应用领域和解决方案。 其中一些是Face Mesh(我们使用的),面部检测,姿势,虹膜 , 手 部 等 。 这 些 解 决 方 案 目 前 在 Coral , JavaScript , C++ ,Python,iOS和Android中可用。这份名单将来可能会扩大[42]。面部网格,MediaPipe提供的解决方案之一,用于嘴唇检测阶段,这是我们研究的第一阶段。Face Mesh是一种解决方案,可以在许多设备(甚至是移动设备)上实时预测468个3D面部标志。FaceMesh的ML管道由2个实时深度神经网络模型组成,它们一起工作。在这些模型的基础上,有一个检测器作为一个重要的部分该检测器在完整图像上工作并找到面部坐标位置和3D面部地标模型,该3D面部地标模型在这些坐标上操作并通过回归估计近似3D表面。精确裁剪面部(通过地标)大大减少了对常见数据增强的需求,例如尺度变化、由旋转和平移组成的仿射变换[42,64]。人脸网格解决方案是基于人脸检测。在检测面部网格解决方案中获得的3D地标之前,必须检测图像中的面部为此,MediaPipe的人脸识别解决方案及其使用的Blaze Face模型发挥了作用。迁移学习用于获得3D面部标志和经过训练以解决各种问题的网络:网络同步,在合成渲染数据上持续预测3D面部地标坐标,并在注释的真实世界数据上预测2D语义轮廓由此产生的模型不仅可以对合成数据,还可以对真实数据进行高度准确的3D地标预测。当将面网格应用于视频的帧时,获得468个陆地标记。 结果图像在图中给出。 二、18号57. 164. 287.界标被用于嘴唇检测。然后,使用这4个标志,创建一个包围嘴唇的矩形。使用这些标志的原因是,它们给出了嘴唇的边界点(图1)。 3)。使用矩形裁剪图像中的嘴唇区域(图4)。由于人的嘴唇结构和大小不同,即使照相机的距离稍微改变,要被裁剪的嘴唇也将改变。当获取数据样本时,所有的嘴唇帧被重新缩放到60 35。生成的图像为RGB颜色空间 Face Mesh是用python编写的(图 5)。3.2. 数据集在唇读主题中准备的数据集根据诸如准备目的(单词、句子、字母、颜色、月份等)的特征彼此分离,使用的语言,人数,发音数量,数据数量,每秒帧数和分辨率[40]。由于文献中没有土耳其语的数据集,因此为单词和句子识别创建了两个数据集,这是文献中研究最多的两个领域[40,41]。单词数据集由111个单词组成,句子数据集由113个句子组成。单词和句子的长度不同,并从日常生活中使用的单词和句子中选择。用于创建数据集的所有视频帧都是在相同的环境和光照条件下获得的,并且每个扬声器位于这些图像中的1.5米处。在拍摄图像时,使用了iPhone 11手机的12 MP广角摄像头。唇读数据集的性质如表2和表3所示。单词和句子数据集是分开的,并且故意不同。在文献中,一些数据集被给出为30fps和一些为60 fps。在可比性方面,其中一个数据集以30 fps编制,另一个数据集以60 fps编制。从视频中检索到的帧被顺时针和逆时针旋转10度,以纠正人的嘴唇结构的差异以及可能由相机引起的可能的角度变化因此,数据集的大小增加了两倍。这是在训练之前完成的旋转过程生成的数据不包括在研究中给出的训练视频编号已经观察到,当旋转5度时,结果显示几乎所有模型都没有显著变化。此外,当它们旋转15度时,成功Fig. 1. 提出的模型的主要阶段图二. 原始面和面网格标志。●- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012064×××××.ðÞ¼×××图三. 用4个点和矩形检测嘴唇。见图4。 嘴唇被割了图五. 旋转框架。见图6。 CNN结构。通过将图像中的像素值与滤波器中的值相乘来获得。将该过程应用于整个图像以获得特征图,并且获得新的矩阵。[44].卷积运算的结果应用于大小为mxn的图像,如果滤波器大小为f_m f_n,则所获得的矩阵的大小将为(m-f_m + 1)(n-f_n + 1)。例如,如果28 28大小的图像与33滤波器卷积,则结果输出图像大小将为26 26。整流线性单元(ReLU)通常用作激活函数,以向卷积过程添加非线性。使用ReLU函数进行卷积运算得到的负值被设置为零。如等式(1)所述,如果函数具有负值作为参数,则函数返回零,而在其他情况下,它 返 回 参 数 的 值 。 与ReLU 函 数 , 与 其 他 Sigmoid 和 TangentHyperbolic激活函数相比,可以执行更快的训练[45]。大多数型号的价格。然而,当它们旋转10度时,f xx;xP0 0;否则ð1Þ取决于所执行的测试类型,在5%和10%之间变化的准确度有一些增加。3.3. CNN模型CNN是一种典型的前向多层神经网络结构,通常用于图像。虽然CNN在20世纪80年代首次提出,但随着CPU和GPU容量的增加,2012年AlexNet在大规模图像分类方面取得了卓越的成功,CNN开始流行起来CNN结构区别于传统神经网络或经典机器学习方法的最大特点是它具有卷积层,可以自动从输入图像中提取特征。CNN总共有4层:输入层、卷积层、池化层和全连接层(图1)。 6)。输入层是将被发送到CNN模型的图像数据。卷积层由过滤器大小和要生成的特征图的数量定义。基本的几何特征,如边缘和角落,从图像中删除过滤器。这些过滤器在图像矩阵上移动,CNN架构中经常使用的另一个中间层是池化层。池化层是通常在卷积层之后应用的采样过程。池化层是经常在连续卷积层之间使用的层。池化层的主要任务是减少模型中的参数、计算量和大小。 以这种方式,网络中的不兼容性(如果有的话)也被检查。例如,当22池应用于2626输入并且步幅值设置为2,则新图像将为1313.尺寸的减小导致信息损失,但降低了计算成本,并提供了对抗过拟合问题的优势。许多不同的操作可以作为池化层中的方法来执行。其中一些是最大值,最小值,中位数池等方法。对于频繁使用的最大池化方法,仅输入图像中滤波器所在的部分的最大值被包括在输出图像中。对于均值池方法,滤波器所在的输入图像中的区域的所有值被平均并写入输出图像。如果要对图像应用这些操作,则对整个通道单独执行表2数据集的属性。的受试者话语单词类决议FPS的视频24人(18名妇女+ 6名男子)151111920 ×10803039,960表3句子数据集的属性。的受试者话语语句类计数决议FPS的视频24人(18名妇女+ 6名男子)101131920 ×10806027,120- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012065.Σ ΣΣF. Σ ΣΣð-Þc四丹a;x þbð2Þ×全连接层通常是CNN结构中的最后一层,它建立在一个输入上,其中每个输入数据都连接到所有神经元并进行全连接。如果模型中包含完全连接的层,则它通常位于CNN架构的末端,并且可以用于提高成功率,例如标签评分以优化模型的操作。如果使用CNN模型进行分类,则结果将在完全连接层中产生CorWoat-10;xtbo 5Cu:更新门值。Cf:忘记门值。Co:输出门值。LSTM单元的新单元状态值c(t)根据以下等式计算。3.4. 双向长短期记忆(Bi-LSTM)ctuω~ct。Cωct-16LSTM ( Long Short-term Memory Model ) 是 由 Hochreiter 和Schmidhuber于1997年提出的一种定制的RNN(Recurrent NeuralNetwork)神经网络。RNN最重要的特征是它们有记忆。在这样的模型中,在前一步骤中生成的输出数据被用作下一步骤中的输入数据。信息的回忆是通过隐藏层发生的。隐藏层神经元具有自馈、时间环和特征。因此,通过使用内部存储器来创建短期存储器。然而,这种记忆不足以记住非常长期的数据。为了解决这个问题,创建了LSTM模型,它包括短期和长期记忆(图7)。使用LSTM,神经网络可以记住最近的数据和更遥远的过去数据。由于LSTM可以通过其记忆传递模型在不忘记长期依赖关系的情况下学习,因此它可以应用于序列和时间序列问题。当时间序列数据作为序列发送到LSTM输入层时,它将使用先前的状态数据路由到输出。在以序列(数组)的形式发送到输入层的数据的最后一个元素用此方法处理后,开始分类(标记)阶段。为此,使用全连接的输出层和Softmax函数将从输出层获得的内容转换为概率。所使用的这种模型也称为“多对一”映射。它通常用于输入数据需要顺序处理和分类或标记的问题。[46~1000t100tCx(t):时间t的输入数据。h(t-1):时间t-1的输出数据。Wc:在候选值计算期间使用的权重向量。bc:偏置值。~ct:从时间t的输入计算的c(t)的念珠菌t e值。t:表示从1到T的时间值C.Wuat-1;xtbu3C fr. Wfat-1;xtbr4c(t):针对时间t计算的小区状态值。c(t-1):前一小区的小区状态值。atCoωct3.5. 该模型在第一步骤中,提取所获得的唇部区域的帧的特征向量。基于CNN的深度学习模型用于从这些帧中的每一个中获得特征向量。在嘴唇检测之后,在视频的帧中,感兴趣区域被裁剪,RGB颜色空间中的图像被发送 到 CNN 模 型 。 特 征 向 量 从 ResNet-18 模 型 中 的 “pool-5” 层 和GoogleNet模型中的“pool 5 -7 7_s1”层获得。在获得图像的特征之后,在分类阶段使用LSTM,这是一种RNN模型在Bi-LSTM模型中,隐藏状态中隐藏单元的数量对应于时间序列数据(如视频)中时间戳隐藏状态可以包含来自所有先前时间步骤的信息,而不考虑时间序列的长度然而,如果隐藏单元的数量太大,在模型的训练阶段会遇到过拟合问题当隐藏单元的数量较少时,训练的成功率也会降低考虑到我们研究中的类别数量和大量数据,我们使用了2000个隐藏单元。遗忘门要忘记并禁用LSTM中的输入,该输入的权重为0。来自前一个隐藏层的数据这个值越接近0,就越容易被遗忘,越接近1,就越容易被记住。在我们的测试研究中,已经观察到,如果遗忘门的比率很高,则教育成功率会大大降低在输入小值的情况下,测试成功率随着模型看到新数据而下降为此,输入0.4作为该参数的最佳值。在本研究中提出的用于土耳其唇读的基于CNN-Bi-LSTM的模型如图8所示。通过将输入视频的每一帧发送到所提出的模型来获得特征向量创建视频的每个帧的特征向量。由于对帧应用了相同的滤波器,因此这些向量具有相等的维度。这些向量被组合成一个单一的数字见图7。 Bi-LSTM单元结构。见图8。 提出了基于CNN Bi-LSTM的模型。- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012066××××矩阵使通过合并处理获得的向量单独表示该视频的特征向量 作为这些操作的结果,获得了单词或句子的发音分类所需的特征向量(图1)。 9)。当输入阶段的视频帧被发送到CNN模型进行特征提取时,要获得的特征向量的大小和结构根据模型的结构而变化。然而,由于相同的CNN模型应用于所有帧,因此从单个帧获得的特征向量的大小保持恒定。由于不同的CNN模型获得了不同的特征向量,因此在结果部分中检查了哪一个给出了更好的结果(图1)。 10)。如果数据集中视频的帧数为k,并且CNN模型针对单个图像提取的特征向量的n. 由于这种操作,特征向量的连续帧被组合成单个矩阵。的值被顺序地发送到进行分类的Bi-LSTM单元。在所提出的方法中,预训练的模型是用于从视频帧中提取特征的CNN 模 型 的 首 选 。 在 这 项 研 究 中 , ResNet-18 , Resnet 50 ,Xception,ShuffleNet,Nasnetmobile,AlexNet,Vgg 16,Darknet53,Darknet 59架构被选为预训练的CNN模型。在研究中使用的数据集中有113个句子和111个单词因此,定义了111个单独的单词类和113个单独的句子类此外,由于每个视频的长度可能不同,因此帧的数量也不同。在句子和单词应用中,从24个受试者中随机选择18个受试者(75%)用于训练阶段,属于他们的数据用于模型的训练,其余6个受试者的数据用于模型的测试。在句子数据集中,受试者将每个句子发音10次。有113个不同的句子。在单词数据集中,sub-100将每个单词发音15次。总共有111个不同的单词。用于测试和培训的视频数量见表4。从1个视频获得的特征向量的大小根据所使用的CNN模型而变化。由于使用了多个模型,因此无法给出固定值。例如,ResNet-18为每个帧提供大小为512 Number of Frames的向量考虑到1字视频由20帧组成,形成512 20矩阵,因为模型必须应用于每帧。特征向量大小1/4视频帧计数ω特征向量大小从训练和测试数据集获得的特征向量根据数据集的大小、使用的模型和训练/测试的视频集而变化。因为每个视频中的帧数可能不同。因此,要在训练和测试阶段中使用的模型和视频改变从数据集获得的总特征向量的大小因此,不能给出固定的特征向量大小表5中具体给出了上述和其他信息。4. 结果和讨论在本研究范围内创建的所有模型都在GPU支持下运行。所有实验研究都在Matlab-2020 B环境中在具有Windows 10操作系统、Intel Xeon处理器、双NVIDIA 3080图形卡的设备上进行,128 GB RAM。编写的代码使用MATLAB的深度学习工具实现在 唇 读 研 究 中 , 确 定 系 统 性 能 的 最 重 要 的 测 量 AdrianaFernandez在唇读和深度学习领域进行了非常重要的研究,她比较了她研究中的所有算法,并确定了单词识别的WRR(单词识别率)性能标准,与其他研究一样[40]。虽然这个指标在不同的研究中很少有不同的名称,如WER(单词错误识别),但计算方法是相同的。指定的WER值对应于其他研究中的在本研究中,根据WER评估模型性能当将唇读领域的研究结果与其他方法进行比较时,还考虑了许多特征,包括为哪种语言开发的模型以及使用的数据集大小[37,40,49]。因此,在将该研究的结果与其他研究进行比较时,应该考虑到重要的不仅仅是准确度值。语言是唇读研究中一个非常重要的参数。因为每种语言都有自己的发音和方言。研究通常与用他们自己的语言所做的研究进行比较,或者说语言是他们研究中非常重要的性能测量。[20,37,40,49]. Huyen在2019年的博士论文中表示,唇读研究的一般重点是英语,他对德语进行了研究见图9。准确性和损失ResNet-18。- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012067见图10。 准确性和损失GoogleNet。表4数据集中的视频数量类型人类发音总所有火车词181111529,97039,960测试词6111159990火车句话181131020,34027,120测试句话6113106780表5模型训练参数。视频总数句子训练:20,340句子测试:6780文字培训:29 970文字测试:9990第111类(单词)和第113类(句子)在word数据集中,每个单词都是发音15次。在句子数据集,每个句子发音10次。特征向量的大小特征向量的大小改变根据所使用的CNN模型。其他语言。[20]第20段。Petridis等人测试了他们使用的模型在他们对4个不同的英语数据集的研究中。在比较研究结果时,每个数据集均使用了使用相同数据集的其他研究结果[50]。在某些研究中,音频数据可以与数据集中的视觉数据一起使用。当比较研究结果时,许多项目,例如应用模型的语言,目的(单词,句子,字母识别等),规模,语言,发音的研究中使用的数据集的数量,进行了检查。训练数据集的大小(对于m个视频)512×帧数× m视频特征向量特征向量大小×帧数ResNet-18:512×帧数学习率1 e-4归一化方法最小-最大归一化输入图层单元数2000Bi-LSTM产出单位数批量128Shuffle每个epoch丢弃率0.0,0.2,0.5训练网络的求解器Adam算法梯度阈值2并且没有将研究结果与任何用英语进行的研究进行比较。[37]. Zhao等人开发了中文唇读系统,但没有将该系统与其他语言进行比较[49]。另一项在韩国的研究也没有与4.1. 测试-1(相同人员)初步研究分四个部分进行。在第一节中,从整个数据集(每个人)中进行随机选择,数据集的80%用于训练,剩余的数据用于测试,数据集中每个类的15个单词中的12个用于训练。数据集中每个类别的10个句子中有8个用于训练。其余视频也用于测试。由于本节的目的是检测人的不同发音,因此模型不会遇到以前从未见过的人。通过这项测试,训练时间的变化可以随着数据集大小的增长进行评估。在第一部分中,表6给出了测试结果最好的两个模型的结果。如表6所示,ResNet-18模型给出了最佳结果。这些结果表明,用人的发音训练的模型- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)101206表68第一部分结果。型号名称分类器火车培训时间(m)测试成功WRR(准确度)ResNet-18Bi-LSTM57606414401399%97.15GoogLeNetBi-LSTM57605114401376%95.55表7第二节测试结果(Word)。模型类人火车测试成功WRRGoogLeNet40九加三540018001385%76.94ResNet-10140九加三540018001377百分之七十六点五ResNet-5040九加三540018001215百分之六十七点五ResNet-1840九加三540018001537%85.38Nasnet-Large40九加三54001800529%29.38Xception40九加三54001800827%45.94DarkNet5340九加三54001800965%53.61DarkNet1940九加三54001800922%51.22AlexNet40九加三54001800949%52.72Squeezenet40九加三5400180053百分之二点九四DenseNet20140九加三540018001322%73.444.2. 测试-2(不同的人在第二部分中,使用数据集中的3个人进行测试。模型的训练阶段使用其余9人的数据进行用“word dataset”中的9个人的数据训练模型然后,使用由属于3个不同人的40个不同单词组成的数据集来测试训练模型此测试的目的是了解模型如何处理以前从未见过的数据。结果在表7中给出。从表7中可以看出,最高的分类准确率属于ResNet-18模型,为85.38%。4.3. 测试-3(不同人)通过从数据集创建40句和12个人的子数据集获得的结果在表8中给出。的结果在测试中,ResNet-18模型是最成功的方法,分类准确率为91.75%(表9)。4.4. 试验4当比较测试的句子和单词数据集的结果时,ResNet-18模型在对句子进行分类方面表现更好,因为句子数据集在帧数方面提供了更多的数据。GoogleNet在数据集中 的成功率排名第二。出 于这个原因,ResNet-18和GoogleNet模型用于整个111个单词和113个句子的数据集。数据18人用于培训,3人用于测试。当在word数据集中使用ResNet-18模型时,9990个测试视频中有8401当在句子数据集中使用ResNet-18模型时,它对6780个测试视频中的6004个进行了正确分类。表8第三部分测试结果(SRR:句子识别率)。模型类人火车测试成功SRRGoogLeNet40九加三36001200929%77.41ResNet-10140九加三36001200889%74.08ResNet-5040九加三36001200835%69.58ResNet-1840九加三360012001101%91.75Nasnet-Large40九加三36001200354百分之二十九点五Xception40九加三36001200689%57.41DarkNet5340九加三36001200656%54.66DarkNet1940九加三36001200652%54.33Alexnet40九加三36001200701%58.41Squeezenet40九加三36001200104百分之八点六六Densenet20140九加三36001200881%73.41表9测试结果.模型数据集类人火车测试成功精度ResNet-18词11118 + 629,97099908401%84.09句话11318 + 620,34067806004%88.55GoogLeNet词11118 + 629,970999069.55%69.61句话11318 + 620,34067804904%72.33- 是的 Atila和F. 萨巴兹工程科学与技术,国际期刊35(2022)1012069表10参数判决5.28 82 11.511 M 224× 224× 3GoogleNet Word 4.38 66 6.9 M 224× 224× 3判决4.56 75 6.9 M 224× 224× 3使用数据集中所有数据的模型详情见表10。表10总结了在本研究中表现最佳的基于Resnet 18和GoogleNet的模型的训练时间、5. 结论在两个数据集(句子和单词)中,观察到ResNet-18模型比其他模型实现了更高的分类成功率。根据表10,在单词数据集中,虽然ResNet-180 s训练比GoogleNet长1 h 15 min ResNet-18模型的训练时间比GoogleNet模型增加了26%。据认为,ResNet-18和GoogleNet模型训练时间差异的原因是ResNet-18的11.5 M参数的影响。这个数字比GoogleNet的参数数量多40%。对于句子数据集也可以看到类似的结果。ResNet-1的训练时间比GoogleNet长7%。然而,ResNet-18和GoogleNet之间的SRR差异为16%。由于数据集的大小,处理是困难的,需要大量的时间。出于这个原因,已经观察到运行时间的增加取决于数据大小,特别是在方法的训练ResNet-18模型的40个单词和3个主题(人)数据集的训练时间增加了400%,从64分钟增加到111个单词和18个主题训练时的352分钟。除此之外,运行时图给出了与两个数据集中包含的数据大小成比例的类似结果这些结果表明,这些方法的运行时间主要取决于数据的大小预训练的CNN模型是首选。这样做的原因是检查和比较数据集的状态,并分析其他模型和数据集的成功DatasetLink:https://www.furkansabaz.com/turkish_lip_reading.竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。附录A.补充数据本文的补充数据可在https://doi.org/10.1016/j.jestch.2022.101206上找到。引用[1] H. Mcgurk,J. Macdonald,Macdonald J. Hearing lips and seeing voices.Nature264(5588)(1976)746-748.[2] G. Potamianos,视听自动语音识别:概述,视听语音过程。( 2004年)。[3] G.波米亚诺斯角Neti,G. Gravier,A. Garg,A.W.陈文生,语音识别技术的研究进展,北京大学出版社,2003年第9期,第1306- 1326页。[4] J.I. Skipper,V. van Wassenhove,H.C. Nusbaum,S.L.小,听嘴唇和看到的声音 : 支 持 语 音 产 生 的 皮 质 区 如 何 介 导 视 听 语 音 感 知 。 Cortex 17 ( 2007 )2387doi.org/10.1093/CERCOR/BHL147[5] N.P. Erber,Auditory-Visual Perception of Speech 40(4)(1975)481[6] W.H.桑比岛Pollack,噪声中语音可懂度的视觉贡献,J。 声音Soc. Am. 26(2)(1954)212-215。[7] S.希尔德河哈维,B.- J. Theobald,人类和机
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功