没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志23(2022)1全文Read my lips:人工智能单词级阿拉伯语唇读系统Waleed Dweika, Sundus Altormana,Safa Ashouraa约旦大学,Queen Rania街,计算机工程系,Amman 11942,Jordan阿提奇莱因福奥文章历史记录:收到2021年2022年3月4日修订2022年6月10日接受2022年7月1日上线保留字:唇读深度神经网络卷积长短期记忆A B S T R A C T唇读是一种从说话人的嘴部动作中识别单词或句子的能力。这个过程也被称为视觉语音识别(VSR)。唇读有两个主要优点:促进听力或说话问题的人的沟通,并在嘈杂的环境中帮助语音识别。在本文中,我们提出了一个唇读计算系统,能够识别10个常见的阿拉伯语单词进行单词提取的嘴部运动。该系统接收一个人说出一个阿拉伯单词的视频作为输入,并输出预测单词的文本。在所提出的系统的实施阶段,三种深度学习和神经网络架构交替使用,使用本地收集和预处理的数据集来训练、验证和测试系统。该数据集包含1051个视频,将根据要求提供。此外,提出了一种结合这三种架构的投票模型最高的测试准确率(即82.84%)是通过利用投票模型实现的。©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creative-commons.org/licenses/by-nc-nd/4.0/)上提供。1. 介绍深度学习技术使用神经网络的优化从数据中提取有用的特征和模式来解决现实世界的问题。自然语言处理、计算机视觉和语音识别等许多领域都利用深度学习来完成任务,其性能优于人类专家。大数据时代的海量数据是深度学习技术最近取得进步的主要原因之一。随着更多的数据可用于训练、验证和测试目的,深度学习能够以更高的准确性完成识别任务。当前深度学习突破的另一个重要因素是高效资源和超级计算机的计算能力的增长。对深度学习领域持续的巨大兴趣和研究激励着工程师、程序员、数学家,*通讯作者。电子邮件地址:w. ju.edu.jo(W. Dweik)。开罗大学计算机和信息系负责同行审查。制作和主办:Elsevier统计学家等部署这些人工智能(AI)技术,以方便地处理重复和困难的任务,并解决许多问题,使生活更轻松。同样,在本文中,我们建 议 利 用 先 进 的 深 度 学 习 技 术 来 设 计 一 个 名 为 Read My Lips(RML)的计算系统,该系统能够在没有任何音频信息的情况下从嘴巴运动中准确识别常见的阿拉伯语单词。唇读(即视觉语音识别(VSR))在人类交流和语音理解中的重要性早期由[1全世界数百万人患有医疗问题或残疾,使他们无法正常发声或/和听力。例如,有些人由于声带麻痹、喉癌、痉挛性发音困难或构音障碍而失去发出清晰声音的能力。另一方面,根据世界卫生组织(WHO)的数据,世界上超过5%的所提出的系统可以大大提高听力或口语障碍者的沟通能力,特别是在阿拉伯语为官方语言或共同官方语言的国家。此外,VSR用于在噪声环境中辅助音频语音识别(ASR)[6,7]。这种组合被称为视听语音识别(AVSR),并且可以被利用来识别多说话者环境中的语音(例如,在刑事调查中使用的记录的视频),并且识别在诸如水下和空间活动的嘈杂环境中从人类给予系统或机器的指令。最后,振动时效具有广泛的多-https://doi.org/10.1016/j.eij.2022.06.0011110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.comW. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)12媒体应用(例如监控和互联网电话)和语音重建系统[8]。这项工作的四个主要贡献如下:I. 生成一个数据集,该数据集由来自73名阿拉伯语母语者(33名女性和40名男性)的1051个无声视频组成,这些视频在不同环境中说出十个常见阿拉伯语单词之一II. 使用一种新的嘴帧提取技术处理数据集处理后的数据集将与其描述一起提供给任何感兴趣的一方,通过电子邮件向相应的作者提出要求。III. 研究三种高级深度学习模型在RML实现中的应用,并推导出模型IV. 提出了一个投票模型,可用于实现RML的三个研究的学习模型相结合,并利用每个模型的优势。本文的其余部分组织如下:第2节介绍了最近的相关工作。第三部分介绍了RML系统的设计实验装置和结果在第4节中讨论。最后,结论和未来的工作在第5节。2. 相关工作作者在[9]中提出了一项关于自动唇读机制的最新调查,并对先前提出的唇读主要阶段(即特征提取和分类网络)的解决方案进行了比较。在本节中,我们将重点介绍与我们的论文最相关的工作。Faubel等人。[10]将视听语音活动检测(VAD)与麦克风阵列处理技术相结合,以改善扬声器本地化。Siatras等人。[11]利用说话人嘴部区域中低强度像素数量的增加的偏差和值作为视觉线索来辅助语音检测。Pingx- ian等人。[12]提出了一种基于计算机视觉库的嘴唇检测系统; Opencv。最近,Kumar等人的目标是缓解VSR分类模型中使用未见过的数据进行测试时预测精度低的问题[13]。这是通过部署生成对抗网络(GAN)来生成新的未知数据并使用它来执行零射击学习来实现的,这将VSR系统的准确性提高了27%。在[14]中,作者模拟了视觉语音的感知方式,并展示了其用例关于视频压缩此外,提出了一种视图-时间注意机制来建模VSR,同时考虑了视图依赖性和视图重要性。实验结果表明,绝对改善了5%的视位错误率。Shah等人通过探测两种最先进的音频Transformer 模型(即wav2vec2.0和 Mockingjay )的每一层来研究其语言和声学特征[15]。实验结果表明,这些模型可以有效地捕捉音频,流畅性,超音段发音,句法和语义的文本为基础的特征。对于每一类特征,作者确定了学习模式和模型中的最佳层,以选择用于下游任务的特征提取。[16]中的视听语音识别模型在[17]中进行了修改,以预测给定输入视频的视位。更新后的模型用于在胆固醇中进行实验以确定与婴儿感知协调期间所检查的那些关键期类似的关键期的发生。使用LRW和LRW1000数据集的实验结果表明,认知科学,心理学和语言学理论与基于深层神经的模型对关键期对语言习得的影响之间存在很强的相关性剩余的相关工作可以根据识别语音的粒度分为三个子部分2.1. 词级识别Eldirawy和Ashour[18]建立了一个系统,当用阿拉伯语说话时,唇读从一到十的数字。三种识别方法被使用:K-均值,模糊K-均值,和K-近邻(K-NN)分类器,最大识别精度为55.8%。Morade和Patnaik[19]提出了一种基于局部主动计数器模型(ACM)和隐马尔可夫模型(HMM)的唇读算法。通过记录来自16个说话者(8男8女)的从0到9的英语数字的视频和Cuave数据库来测试该算法识别准确率在77.8%~ 79.6%之间。Alzahraa等人[20]提出了一种模型,该模型依赖于嘴唇运动来识别阿拉伯语中从0到9的数字。该模型采用加速鲁棒特征(SURF),直方图的梯度(HoG),和哈尔技术和报告的识别准确率为96.2%。在[21]中,Wand等人将前馈和递归神经网络层合并到一个结构中,该结构使用反向传播误差梯度进行训练,以从无声视频记录中识别语音。使用来自GRID语料库的19个说话者和51个单词的视频,报告的最佳单词识别准确率为79.6%[22]。在[23]中,Petridis等人提出了一种基于长短记忆(LSTM)网络的端到端视觉语音识别系统。该系统包含两个流;一个直接从嘴巴中提取特征,另一个从差异图像中提取特征。每个流都由LSTM建模,两个流的合 并 通 过 双 向 LSTM ( BiLSTM ) 进 行 。 该 系 统 使 用 OuluVS2 和CUAVE数据库进行评估,识别准确率为84.5%。Petridis等人建立在他们的后一个系统之上,当使用三个视图(即正面,侧面和45度)时,它同时拍摄多视图图像,以实现3.8%的识别精度提高[24]。Petridis等人再次提出了一种基于残差网络和双向门控递归单元(BGRU)的端到端视听模型[25]。该模型直接从图像像素和音频波形中提取特征,以执行单词级识别。建议的系统提供了一个轻微的改善0.3%,只有音频模型使用野生(LRW)数据库。Kumar等人提出了一种回归模型来执行多视图唇读并生成音频输出[26]。该模型由视图分类器、时空卷积神经网络(STCNN)和BGRUs网络组成。使用OuluVS2数据库对模型进行训练和测试,并使用语音质量感知评价(PESQ)作为评价指标。在0、45和60度三视图下获得的最高评分为2.315。此外,所提出的模型提供了显着的延迟改进比以前的工作。Uttam等人设计了一种编码器-解码器扬声器独立架构,其将无声视频作为输入并输出重建语音的音频频谱图[27]。该模型由四个组件组成:姿势分类器、选择正确编码器的决策网络、音频自动编码器和视频编码器,视频编码器由七个三维卷积层和一个LSTM层组成对所提出的模型进行了检验W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)13使用双语语音(即,英语和印地语),结果与[26]中的结果相当。Weng和Kitani提出了一种基于具有两个流(即灰度视频和光流流)的深度三维CNN和BiLSTM的单词级视觉唇读方法[28]。该方法在LRW数据集上进行了测试,准确率为84.11%。在[29]中,Shrivastava et al.提出了一种新的端到端深度神经网络模型,用于移动设备等资源受限环境中的字级VSR。使用LRW数据集,部署了依赖的3D卷积和通道重排,以实现70%的识别准确率,参数减少了6倍,内存占用减少了20倍。与我们最相关的工作之一是由Elrefaei等人提出的。[30]第30段。作者收集了一个阿拉伯语视觉语音数据集(AVSD),其中包含1100个视频,每个视频包含10个单词,用于人们之间的日常交流。这些单词由22个说话者说出(即每个说话者重复每个单词5次),并且 从 视 频 帧 中 手 动 裁 剪 感 兴 趣 区 域 ( ROI ) 使 用 支 持 向 量 机(SVM)模型进行AVSD的评估,准确率为70%在我们的数据集中,包括73个扬声器,这降低了数据重复的百分比,翻转增强技术用于将训练和验证集加倍,并生成总共1828个视频。此外,使用第3.2中所述的系统准确方法提取ROI。最后,我们提出了三种带有投票模型的深度学习技术,在看不见的测试集上实现了82.84%的准确率。受心理学研究的启发,这些研究表明人们在面对面交谈期间不会将目光固定在嘴唇区域,Zhange等人使用最先进的VSR模型评估了考虑不同面部区域(例如,上脸、嘴巴、整个脸、脸颊)的影响[31]。此外,作者还介绍了一种基于Cutout的有效方法来提取VSR的判别特征,该 方 法 在 LRW 和 LRW-1000 数 据 集 上 的 识 别 率 分 别 为 85.02% 和45.24%。Martinez等人通过用多尺度时间卷积网络(TCN)替换BRGU层来解决基于单词级BGRU的唇读模型的局限性[32]。此外,作者通过提出可变长度增强解决了最先进方法的泛化问题。使用LRW和LRW-1000数据集对更新后的模型进行了测试,分别达到了85.3%和41.4%的准确率。在[33]中,作者提出了多种创新来弥合唇读方法及其有效的实际部署之间的差距:首先,自蒸馏用于将LRW和LRW-1000数据集的最新准确度分别提高到88.5%和46.6%。第二,使用依赖可分离时间卷积网络(DS-TCN)来减少计算量。第三,采用知识蒸馏法恢复轻量模型的性能.2.2. 音素/字母级识别Matthews等人[34]将嘴唇变形中的语音线索整合起来,以提高嘈杂环境中的语音识别能力。为了从嘴唇图像中提取特征,作者实现了三种不同的方法:主动形状模型(ASM)、主动外观模型(AAM)和多尺度空间分析(MSA),识别准确率分别为27% 、42% 和45%。在[35]中,Damien提出了一种新的基于视位的阿拉伯语VSR方法,通过引入收集了240个录音的数据集,其中说话者的嘴唇用蓝色标记。所提出的方法一次识别一个音素,并使用决策树将识别的音素组合起来识别单词准确率为81.67%。从论文中还不清楚如何将数据集划分为训练和测试,以保证数据集的测试部分是不可见的。另一方面,我们提出的方法使用1828个记录的数据集在看不见的测试集上实现了82.84%的准确率。Al-Ghanim等人[36]提出了“I See What You Say”(ISWYS),这是一个阿拉伯语语音识别系统。ISWYS使用运动估计技术来分析视频,并将嘴唇运动一次一个字母地解释为可读文本,从而实现了70%的识别准确率。在[37]中,Koller等人将深度卷积神经网络分类器的输出合并到HMM方法中,用于在手语识别的背景下学习和建模嘴巴形状。RWTH-PHOENIX-Weather语料库被用作数据集[38]。对于元音类“A”,“O”和“U”,该模型达到了60%以上的精度。另一方面,由于与“E”类混淆,该模型对“I”类的精度最低,为28.6%2.3. 句子级识别Sagheer等人[39]提出了一个唇读系统,它结合了超列神经网络模型(HCM)和五状态HMM。该系统的有效性进行了评估,阿拉伯语和日语。对于阿拉伯语评价,从八个不同的阿拉伯语母语者那里收集了九个句子,每个句子有三个单词单词和句子的识别准确率分别为79.5%和62.9%。由于观察到唇读性能在较长的单词中得到改善,Assael等人[40]提出了LipNet;一种用于英语的端到端的唇读级别唇读模型 LipNet利用时空卷积神经网络(STCNN),双向门控递归单元(Bi-GRU)和连接时间分类损失(CTC)在字符级进行操作并进行时间级预测。在GRID语料库数据集上,LipNet实现了95.2%的识别准确率。在[41]中,Xu等人提出了LCANet,这是一种端到端的唇读系统,它部署了3D CNN进行特征提取,BGRU网络与CTC一起进行字符的后端解码,以预测来自GRID语料库的完整短语,其中3% WER在看到的测试数据上。Shillingford等人。[42]设计了视觉到音素(V2 P);唇读系统包括三个阶段:将原始视频转换为唇视频序列(即一个音素)的管道每个视频)、用于将嘴唇视频映射到音素分布序列的深度神经网络、以及用于将音素转换成单词序列的语音解码器。使用包含3,886 h一般YouTube视频的庞大数据集实现了40.9%的单词错误率(WER)。最近,Margam等人提出了一种识别ASCII字符的体系结构,然后从GRID语料库中预测口语句子,其中8.6%的WER对看不见的测试数据。该架构由3D和2D CNN作为前端和具有CTC作为后端的BiLSTM组成3. RML设计与实现阿拉伯语有28个字母,是第五大最广泛使用的语言,有4.22亿人使用[43]。然而,很少有研究工作集中在阿拉伯语唇读。RML被训练来识别表1中列出的10个常见阿拉伯单词以及英语发音和含义。 口形被称为视位,是音位的视觉对应物。一个视位可以代表几个音素。在说话时,嘴巴会形成10到14种不同的形状。表2包含映射到其各自视位和英语音素的所有阿拉伯字母[44]。W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)14表1RML识别的阿拉伯语单词表2阿拉伯语的音素-视位映射。RML的设计过程包括三个步骤:数据集收集、数据集预处理和拆分以及预测模型的实现。这三个步骤的详细信息分别在以下三个小节中描述完成第三步后,预处理的标记数据集用于训练、验证和测试子节4.2中讨论的实现模型。实现的深度学习模型执行从包含嘴唇运动的图像帧中自动提取特征,并使用所提取的特征对所述说出的单词的输入视频进行分类。一旦模型被训练,它们就可以被用来对一个看不见的输入视频进行分类,如图1中的流程图所示。1.一、必须使用第3.2中列出的步骤对输入视频进行预处理。预处理阶段的输出是嘴唇的30个图像帧W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)15Fig. 1. RML流程图。RGB和灰度格式的区域。因此,这些帧被输入到3.3小节中描述的三个深度学习预测模型。考虑到每个模型都经过两次训练,一次使用RGB版本的数据集,另一次使用灰度版本的数据集,因此在RML中总共部署了六个模型。每个模型将自动从输入帧中提取特征并生成其预测。最后,通过第4.2.3小节中解释的投票算法处理六个模型的预测,以生成输入视频的最终分类。3.1. 数据集集合RML系统的输入是一个无声的视频,提取到帧,一个人说出表1中的阿拉伯语单词之一。 该系统的输出是所识别的单词的转录本。为了实现和测试RML系统,需要足够的因此,为来自两种性别的不同参与者(即33名女性和40名男性)拍摄了1051个视频。所有参与者均为大学生(即年龄范围为18至18岁)。21年)来自同一个国家(即黎凡特地区的一个国家)。数据集的视频是利用不同的背景照明设置、不同的距离以及使用多个智能手机的摄像头来捕获的,其中使用过的智能手机被放置在支架中。不同的相机、距离和背景照明设置保证了数据集的泛化。所有使用的摄像机都以每秒30帧(fps)的速率73名发言者中的大多数人都说了10个单词中的每一个(即730个视频);然而,很少有人重复这10个单词两到四次(即这是额外的321个视频的原因)。这确保了数据集的包容性,因为需要考虑人与人之间的许多差异,例如:说话的速度、嘴的形状和运动、嘴唇的几何特征、由所取的嘴框的红色确定的舌头的量、牙槽嵴、牙齿、牙套、胡子、胡须和化妆。在实验工作中使用了两个版本的数据集:彩色版本和灰度版本。在彩色版本中,视频帧由三个通道表示:红色、绿色和蓝色(即RGB)。彩色视频帧被转换为灰度帧以生成数据集的第二版本;其中每个像素由反映像素亮度的单个通道表示。3.2. 数据集预处理和拆分深度学习任务中最重要的步骤之一是在将数据集馈送到学习算法之前对数据集进行预处理和拆分在RML中,需要以下预处理步骤I. 数据集中所有视频的长度都固定为1秒,同时确保每个视频都包含目标单词,没有任何错误。之所以选择一秒钟的时间段,是因为大多数说话者需要这段时间才能说出一个词。在少数情况下,当单词在不到一秒的时间内说出时,视频会被修剪,并对整个视频或其中的一部分应用慢动作。II. 每个视频都使用Python cv 2库中的VideoCap- ture类转换为30个图像帧,因为视频以30 fps的速率记录。III. 每个帧都使用Python dlib人脸检测器库进行处理,该库识别帧中人物的正面脸。IV. 处理每个帧以从面部定位(即提取)唇部区域。这是通过调查面部的dlib标志点并找出适合所有人的嘴的最佳嘴切割来实现的因此,最终帧将仅包含嘴部区域,以便隔离来自背景或面部的其他部分的任何干扰或噪声。例如,图2包括示出单词“Jameel”的视位的视频帧的样本V. 每个帧的大小调整为66X100像素,以减少数据集的大小而不影响精度。VI. 帧中的每个像素值被归一化为0和1之间的范围,而不会使帧的像素之间的差异这通过将每个像素值除以255来实现。在最后的预处理步骤(即归一化)之后,图像帧被分成三组:训练,验证和测试。训练集用于训练和拟合所使用的深度神经网络模型,验证集用于调整模型超参数并提高其性能。此外,验证集用于避免过拟合。测试集是用来评估所用模型识别精度的未知数据。数据集分为:训练集中有652个视频,验证集中有125个视频,测试集中有274个视频数据扩充-W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)16图二、视频帧的字使用翻转技术将训练集和验证集的大小加倍(即,1304个用于训练的视频和250个用于验证的视频)。最后,数据以正确的顺序排列进入网络。RGB版本数据的维度为1828 x30 x66 x100 x3;其中1828是视频的总数(包括训练和验证集中的翻转视频),30是每个视频的帧数,66 x100是帧大小(以像素为单位),最后一个维度是指每个像素的三种颜色(即红色,绿色和蓝色)的值对于灰度版本的数据,尺寸为1828x30x66x100,因为每个像素都有一个值。此外,独热标签被分配给表1中的10个数据类(即数据标签)。3.3. 预测模型在RML的实施阶段,研究了三种深度学习模型,以便使用第3.1中描述的数据集为10个阿拉伯语单词选择具有最高识别精度的模型。在本小节中,我们将详细介绍这三种模型。3.3.1. 卷积神经网络用于识别任务的主要深度学习模型之一是卷积神经网络(ConvNet或CNN),因为它能够捕获空间和时间依赖性。CNN是一种人工神经网络(ANN),由输入层、多个隐藏层和输出层组成。隐藏层包含一个或多个卷积层,通常后跟池化,归一化,平坦化和全连接层[45]。卷积层使用内核(即过滤器)来提取特征并识别输入中的模式,并生成所谓的特征图。一个内核由一个矩阵表示,根据特定步幅在输入数据上沿着n维进行根据n的值,卷积层可以分为:一维(Conv1D),二维(Conv2D)和三维(Conv3D)。注意,为了使内核沿着输入数据的n维滑动,输入数据的形状应该至少由n + 1维组成。图 3显示了使用RGB版本数据集时RML系统的CNN模型。该模型包含两个连续的Conv3D 层,每个层具有 32 个内核,两个连续的Conv3D层,每个层具有128个内核,以及两个连续的Conv3D层,每个层具有256个内核。所有这些卷积层中的神经元都使用整流线性单元(ReLU)激活函数。在这个模型中,RGB版本的数据集的形状由四个维度组成(即帧编号,帧高度,帧宽度和颜色通道),并且内核沿着输入数据的3维滑动;因此,使用Conv 3D层。图中的CNN模型。 3包括在每两个连续Conv3D层之后的三维MaxPooling层。MaxPooling是最常用的池化层之一,它利用一个最大过滤器,根据其pool_- size和stride沿着层的输入滑动随着步幅的减小,提取操作的数量增加(即学习更多的特征),并且层请注意,最大值过滤器保持输入数据的深度(即没有丢失重要特征最后一个MaxPooling层的输出使用flatten层展开为1维向量。矢量由完全连接的层(即密集层)处理,在它们之间添加了dropout层。dropout层用于正则化和避免过拟合。在训练过程中,dropout层根据特定的速率消除了一些输入,并将剩余的输入按1/(1-rate)的比例放大,这样网络就不会依赖于某个特征。图三. RGB数据集的RML CNN模型。W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)17最后,输出层是一个密集层,有10个神经元,利用Softmax激活函数。每个神经元与表1中的10个词或类中的一个相关联,RML系统被训练识别。每个神经元的输出表示输入视频中的单词与相关联的类匹配的概率。选择CNN中层的数量、大小和参数以实现最高的识别精度。当使用数据集的灰度版本时,CNN模型中的Conv3D和3维MaxPooling层分别被Conv2D和2维MaxPooling层替换。这是由于数据集的灰度版本的形状由三个维度(即帧编号、帧高度和帧宽度)组成,并且内核沿着输入数据的两个维度滑动。3.3.2. 具有长短期记忆的该模型的结构是通过时间分布(TD)卷积层执行特征提取过程,然后使用长短期记忆(LSTM)层处理提取的特征并返回序列,同时保持序列顺序。在本文的其余部分,该模型被称为TD-CNN-LSTM。图4a示出了当使用TD-CNN-LSTM模型和数据集的RGB版本实现时的RML系统。TD卷积层用作层包装器,其允许将输入的时间部分应用于分离的层,这在处理时间序列数据或视频帧时是有用的。在RML系统中,每个输入视频由30帧组成,这些帧被馈送到30个独立的Conv2D层,每个层具有四个内核。由于帧是单独处理的,每个卷积层的输入形状将由三个维度组成(即帧高度,帧宽度和颜色通道),内核将沿着二维方向滑动。与 CNN 模 型中 一 样, 图中的每 个 Conv2D 层 。 4a 之后是 2 维MaxPooling层,然后是Flatten层。由于在添加更多卷积层(即深度CNN)时没有注意到显著的识别准确性提高当使用TD-CNN-LSTM模型和数据集的灰度版本实现RML系统时,使用Conv 1D和一维MaxPooling层。LSTM是一种递归神经网络(RNN)架构,3.3.3. 双向长短期记忆该模型与TD-CNN-LSTM模型共享相同的前部,但LSTM层被加倍并成为双向的;因此,在本文的其余部分中,TD-CNN-BiLSTM。图 4 b显示了使用TD-CNN-BiLSTM模型和数据集的RGB版本实现时RML系统的结构。使用双向层的理由是避免超过序列帧的最新部分中的输出4. 实验装置和结果4.1. 实验装置RML系统使用Google Colab- oratory(即,Colab)环境。第3.3中讨论的三个预测模型是使用Keras库编码的,Keras库作为独立的库存在,但也可以包装多个框架,如Tensorflow和Theano。所有数据和所需文件都存储在与用于访问Colab环境的Google帐户相关联的Google驱动器当编译所提出的预测模型时,使用交叉熵(CE)损失函数和学习率(lr)为0.0001的Adam优化器。由所提出的模型的输出层使用的Softmax激活函数和CE损失函数的组合被称为分类CE损失或Softmax损失。分类CE损失函数通常用于处理多类分类问题(即两个以上的类),其中类使用独热代码标记,并且只有一个类是正确的。我们的目标是最小化预测模型的损失函数。当具有最高预测的类是正确的类时,就会发生这种情况。优化器定义了神经网络如何学习和找出最小化损失函数的值。亚当优化器是最流行的梯度下降高级优化器之一;它是计算效率高,需要少量的内存[47]。表3显示了每个数据集版本编译每个预测模型表3每个预测模型的参数数。层以一种提供记忆能力的方式相互作用这对RML系统很有用。关于LSTM的更多设计细节可以在[46]中找到。LSTM层的输出被馈送到具有256个神经元的密集层,该密集层因此连接到与CNN模型相同的输出层。预测模型数据集版本CNNTD-CNN-LSTMTD-CNN-BiLSTMGrayscale 3,240,874463,806 2,369,726RGB 18,132,298 6,754,170 14,951,546图四、RGB数据集的RML TD-CNN-LSTM和TD-CNN-BiLSTM模型W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)18ðþÞ4.2. 仿真结果假定子节3.2中描述的数据集分割方法是随机执行的,则以下三个子节中呈现的模拟结果是具有用于数据集分割的五个不同随机种子的五次模拟运行此外,还报告了每个模型测试准确度的标准差4.2.1. CNN结果图5示出了当使用具有灰度和RGB数据集版本的CNN模型实现RML系统时训练集和验证集的预测准确度。对于灰度版本,需要45个epoch来使训练和验证准确度分别达到100%和92.3%。另一方面,RGB版本的训练和验证准确率在30个时期后分别达到100%和89.5%或者,图6示出了当使用具有灰度和RGB数据集版本的CNN模型一般来说,损失函数的值随着更多的时期而减小。对于灰度和RGB版本的训练集,损失函数最终达到最佳值零。对于灰度和RGB版本的验证集,损失函数分别达到0.35和0.5。与精度一样,一旦损失函数开始饱和,训练和验证过程就会停止,以避免过度拟合。图7显示了具有测试集的灰度和RGB版本每行中的数字之和例如,灰度版本的混淆矩阵中的最顶部行指示测试集包含35个类别Aasef的样本,其中27个被正确预测(即,真阳性(TP)),并且8个样本被误预测(即假阳性(FP))。另一方面,通过考虑混淆矩阵中的每一列,可以计算相应类别的假阴性数(fn)。例如,灰度版本的混淆矩阵中的最左列指示类别Aasef的假阴性的数量为6。表 4 和 表 5 包 含 每 个 类 的 精 确 度 ( 即 tp=tp_fn ) 和 召 回 率 ( 即tp=tp_fn)以及灰度和RGB版本的测试集分别。可以注意到,Ghadan和Khair这两个词是最难被正确预测的,因为这些词很短,每个词的字符的嘴部动作非常相似。第二个观察结果是,当RGB版本的数据集图五、CNN模型的训练精度与验证精度见图6。 CNN模型的损失函数。W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)19见图7。CNN模型的混淆矩阵。表4使用灰度数据集的CNN模型的精度,召回率和测试精度。类阿塞夫阿利亚乌姆加丹JameelKhairMarhaba马萨沙巴萨拉姆舒克伦精度0.770.810.60.830.680.830.690.850.770.86召回0.820.890.620.770.610.810.750.740.920.77测试集的总预测准确度= 0.766 1.3表5使用RGB数据集的CNN模型的精度,召回率和测试精度。类阿塞夫阿利亚乌姆加丹JameelKhairMarhaba马萨沙巴萨拉姆舒克伦精度0.740.860.670.970.680.870.850.850.70.79召回0.930.90.670.720.630.760.810.850.880.88测试集的总预测准确度= 0.792 1.15使用(即0.792 > 0.766)。这表明,当视频的图像帧包含诸如舌头的红色和牙齿的白色等颜色时,CNN模型能够从训练集中提取精确的嘴部运动特征。然后,这些特征被用于以高精度对测试集进行分类。4.2.2. TD-CNN-LSTM和TD-CNN-BiLSTM结果当使用TD-CNN-LSTM模型或TD-CNN-BiLSTM模型实现RML系统时,训练集和验证集的预测精度和损失函数的行为与CNN模型非常相似。主要区别在于,需要80个历元来饱和TD-CNN-LSTM模型的预测精度和损失函数。另一方面,分别需要40和45个历元来使TD-CNN-BiLSTM模型的预测精度和损失函数与灰度和RGB数据集饱和。每个类别的精确度和召回率以及具有灰度和RGB数据集的TD-CNN-LSTM模型的测试集的总预测准确度分别在表6和表7类似地,表8和表9分别包含每个类的精确度和召回率以及具有灰度和RGB数据集的TD-CNN-BiLSTM模型的测试集的总预测准确度。这四个表表明,TD-CNN-LSTM和TD-CNN-BiLSTM模型的一般行为与CNN模型的一般行为一致,因为单词Ghadan和Khair最难识别,并且RGB数据集的整体预测精度高于灰度数据集。4.2.3. 投票模型三种模型的总体预测准确度表明,CNN具有最高的识别准确度,其次是TD-CNN-BiLSTM,然后是TD-CNN-LSTM。顺序保持不变,与所使用的数据集版本(即灰度或RGB)无关。CNN模型分别对数据集的灰度和RGB版本应用二维和三维卷积。另一方面,TD-CNN-LSTM和TD-CNN-BiLSTM模型分别对数据集的灰度和RGB版本应用一维和二维卷积。因此,CNN模型生成更多的可训练参数,如表3所示,这提高了预测精度。TD-CNN- BiLSTM 模 型 中 双 向 层 的 部 署 允 许 它 比 TD-CNN-LSTM模型提取更多的特征,如表3所示。此外,双向层有助于模型更好更快地学习特征,因为模型同时从过去和未来学习。因此,总体而言,TD-CNN-BiLSTM模型的性能优于TD-CNN-LSTM模型。尽管CNN模型具有最高的整体预测精度,但当使用TD-CNN-LSTM模型或TD-CNN-BiLSTM模型时,特定类别的预测精度可能更高。例如,表4、表6和表8中的Sabah类的精度值表明,CNN模型在85%的时间内从灰度数据集正确预测Sabah类。另一方面,TD-CNN-LSTM和TD-CNN-BiLSTM模型分别在90%和95%的时间内从灰度数据集正确预测Sabah类。W. Dweik,S.Altorman和S.Ashour埃及信息学杂志23(2022)110表6使用灰度数据集的TD-CNN-LSTM模型的精度,召回率和测试准确性类阿塞夫阿利亚乌姆加丹JameelKhairMarhaba马萨沙巴萨拉姆舒克伦精度0.60.520.40.830.40.830.730.90.730.82召回0.620.690.460.750.430.740.70.690.810.82测试集的总预测准确度= 0.675 1.3表7使用RGB数据集的TD-CNN-LSTM模型的精度,召回率和测试精度类阿塞夫阿利亚乌姆加丹JameelKhairMarhaba马萨沙巴萨拉姆舒克伦精度0.60.760.570.770.560.70.620.850.830.82召回0.750.670.570.730.450.680.760.890.780.82测试集的总预测准确度= 0.701 0.75表8使用灰度数据集的TD-CNN-BiLSTM模型的精度,召回率和测试准确性类阿塞夫阿利亚乌姆加丹JameelKhairMarhaba马萨沙巴萨拉姆舒克伦精度0.630.760.470.90.440.870.650.950.630.79召回0.670.840.630.810.310.760.740.790.860.76测试集的总预测准确度= 0.701 0.75表9使用RGB数据集的TD-CNN-BiLSTM模型的精度,召回率和测试精度类阿塞夫阿利亚乌姆加丹JameelKhairMarhaba马萨沙巴萨拉姆舒克伦精度0.710.760.530.860.60.630.810.950.80.82召回0.760.840.550.860.410.90.780.860.830.82测试集的总预测准确度= 0.741 1.77同样,尽管TD-CNN-BiLSTM模型具有比TD-CNN-LSTM模型更高的总体预测准确度,但当使用TD-CNN-LSTM模型时,特定类别的预测准确度可能更高。例如,表5、表7和表9中Salam类的精度值表明,CNN和TD-CNN- BiLSTM模型分别从RGB数据集正确预测Salam类70%和80%。另一方面,TD-CNN-LSTM模型在83%的时间内从RGB数据集正确预测类Salam。尽管观察到对于特定模型,RGB数据集的总体预测准确度高于灰度数据集,但是对于特定类别,情况可能相反。例如,表4中的类Aasef、Salam和Shukrun(即具有灰度数据集的CNN模型)的精度值高于表5中的那些(即具有RGB数据集的CNN模型)。基于前三段的观察,提出了一种同时运行六个预测模型(即每个模型的两个实例,一个实例使用灰度数据集,一个实例使用RGB数据集)的投票模型。每个输入视频在经过预处理后被馈送到六个实例,并且每个实例的最终预测被认为是一个投票。当有多数票时,它被选为投票模型的最终输出。有三种情况下存在多数票:四个或更多相同的选票,三个相同的选票和其余三张选票不相同,或两张相同的选票,其余四张选票中的每张选票都是唯一的。当没有多数票时,选择出现频率最高的投票。如果多于一个投票具有相同的出现频率,则将平均预测准确度用作平局决胜。例如,假设六个投票是Salam,Salam,Salam,Sabah,Sabah,Sabah,它们的预测精度分别为0.9,0.9,0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功