全自动化的多语言唇读MOOC平台

23 浏览量更新于2023-10-15 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2217走向唇读MOOC：用合成人头像训练人的唇读Aditya AgarwalHyderabadaditya.ag邮件research.iiit.ac.in比帕莎·森·阿提哈德·海得拉巴bipasha. research.iiit.ac.inRudrabhaMukhopadhyay IIITHydeartadradrabha. research.iiit.ac.in巴斯大学vpn@bath.ac.ukC V JawaharIIIT海得拉巴jawahar@iiit.ac.in免费无限的种族多样的背景多样的面孔无语言限制来自数百万网络的词汇大规模唇读训练视频生成无限的视频努力-不到一天！任何语言唇读MOOCs平台任何语言！很多面孔！很多背景！很多口音！YouTube上的野外说话头视频文章！抓取在线资源自动化预处理模块视频选择音频选择无需手动操作。全自动化。当前管道-唇腭裂培训平台我们提出的改进方法-自动唇读训练平台图1：唇读是听力损失患者的主要沟通方式。仅美国就有4800万人患有某种形式的听力损失。尽管有这些惊人的统计数据，在线唇读训练资源仍然稀缺，而且只适用于少数几种语言。然而，托管新的唇读训练平台是一个广泛的考验，可能需要数月的人工努力。我们提出了一种全自动的方法来构建大规模的唇读训练平台。我们的方法可以在任何身份上使用任何语言，任何口音和无限词汇！我们设想一个唇读MOOC平台，使全球数百万听力损失的人。在这项工作中，我们彻底分析了这种方法的可行性。摘要许多患有某种形式听力损失的人认为唇读是他们日常交流的主要方式然而，寻找资源来学习或提高一个人的唇读技能可能是具有挑战性的。在COVID19大流行期间，由于与同侪及语言治疗师的直接互动受到如今，在线MOOC平台，如Coursera和Udemy，已成为许多类型技能发展的最有效培训形式。然而，在线唇读资源是稀缺的，因为创建这样的资源是一个广泛的过程，需要几个月的人工努力来记录雇用的演员。由于手动管道，这样的平台在词汇、支持的语言、口音、和扬声器，使用成本高。在这项工作中，我们研究了用合成生成的视频替换真实人类谈话视频的可能性。合成数据可以很容易地包含更大的词汇表，口音的变化，甚至本地语言和许多说话者。我们提出了一个端到端的自动化流水线，使用最先进的说话头视频生成器网络，文本到语音模型和计算机视觉技术来开发这样一个平台。然后，我们进行了广泛的人类评估，使用经过深思熟虑的唇读练习，以验证我们设计的平台对前唇读平台的质量。我们的研究具体地指出了我们的方法在开发一个大规模唇读MOOC平台方面的潜力，这个平台可以影响数百万听力损失的人。*同等贡献人力有限有限的背景变化记录教学会话招聘演员典型的周期需要几个月。词汇量有限单一语言概念化少数民族少数口音昂贵221845123图2：使用我们的管道生成的说话脸视频。在特殊学校接受正规教育，并有受过医学训练语言治疗师。其他资源，如日常互动，也有助于理解和破译语言仅仅从嘴唇运动。然而，这些资源对于许多患有听力残疾的患者来说是高度受限和不足的受几乎所有主题的在线课程蓬勃发展的启发，我们设想为听力残疾人提供一个MOOC平台。当前唇读培训的在线平台像lipreading.org这样的平台和唇读练习1. 介绍交流是人类成为地球上最聪明的物种虽然其他动物也有不同的交流方式，但人类的语言要先进好几个数量级。但我们并不是天生就有这些技能！那么，我们如何获得它们呢？我们中的大多数人都是通过正规的教育系统来学习语言技能的，这些教育系统包括学校、大学和其他与教育有关的组织。虽然这仍然是最受信任的流行教育方式，但21世纪已经看到了大规模开放式在线课程（MOOC）等在线教育形式的博览会式增长。在线课程通常设计为涵盖包括语言在内的各个领域的数百个主题，并且通常是免费的。MOOC与物理形式的教育相比有几个优势。它们更容易获得，更便宜，更容易接触到更广泛的受众。在当今不幸的是，并不是每个人都有机会像我们通常那样学习语言技能。听力损失是一种常见的残疾形式，可能成为教育的巨大障碍！根据世界卫生组织和华盛顿邮报等组织的统计，世界上超过5%的损失大约有50万美国人患有严重的听力损失，这会明显地影响交流。唇读是听力损失患者的主要交流方式苏格兰感官审查员（SSC）引用道：“无论听力损失的类型或程度如何，孩子都需要在某些时候用唇说话。”然而，学习唇腭裂并不是一件容易的事！唇读可以被认为是类似于“学习一门新语言”的人没有听力障碍。需要这个的1耳聋和听力损失|谁2随着戴口罩成为常态，唇语读者被排除在外！3帮助或阻碍唇读的因素|SSC参考基本的在线资源来提高唇读技巧。这些平台允许用户学习受资源限制的有限水平的唇读。不幸的是，在练习中系统地涵盖的词汇这些视频在头部姿势、摄像机角度和与扬声器的距离方面也具有最小的现实世界变化，使得唇读者难以适应现实世界。最后，由于这些资源都是可用的-只能在美国或英国口音的英语，它是-来挑战的人从其他地区，以适应他们的当地口音和语言。所有这些因素都严重限制了人类训练的质量因此，我们认为，扩展当前的唇读训练平台以纳入广泛的词汇并引入视频，语言和口音的变化是至关重要的然而，录制视频是一件昂贵的事情.它需要昂贵的摄像设备、演播室环境、专业编辑，以及从正在录制视频的演讲者的角度来看的大量手动工作。为了解决这个问题，我们从不同的角度来处理这个问题，并问：“我们能用合成版本的听力损失训练来取代真正的头部谈话视频吗？“具有与给定文本或语音信号的精确嘴唇同步的合成说话头可以使LRT平台能够缩放到更多的身份、口音、语言、语音速度等，使训练过程更加严格。我们利用计算机视觉社区在合成说话头部生成方面取得的巨大进展，并采用最先进的（SOTA）算法[23]，如下所述我们提出了一种新的方法来自动生成一个大规模的数据库，用于开发一个LRT MOOCs平台。我们使用SOTA文本到语音（TTS）模型[7]和像Wav2Lip [23]这样的说话头生成器来自动生成训练示例Wav2Lip [23]需要驾驶面部视频和驾驶语音片段（在我们的情况下从TTS生成），以根据驾驶语音生成唇同步说话头部视频。它保存了4lipreading.org5lipreadingpractice.co.uk22196图3：用于生成大规模唇读训练平台的拟议管道：（a）视频选择：从各种在线来源（如YouTube）中抓取视频，过滤掉无效视频。（b）音频选择：合成语音话语是使用从各种在线文章策划的词汇生成的。（c）视听对齐模块：选择视频和语音话语并将其彼此对齐，使得语音话语与视频中具有嘴唇运动的区域重叠。（d）Wav2Lip：一种最先进的说话头部生成模型，根据语音话语修改视频的嘴唇运动。（e）用户评估：验证步骤，以确保用户对使用我们的方法生成的真实视频和合成视频进行验证头部姿势，背景，身份，和距离的人从相机，而修改只有嘴唇的运动，如图所示。二、我们的方法可以以自动化和具有成本效益的方式成倍增加LRT平台上的在线内容数量。它还可以无缝地增加数据库中的词汇量和说话者的数量我们调查了我们的系统对一系列聋人用户的影响，并进行了多个实验，以显示其有效性，取代手动记录的LRT视频。我们通过统计分析表明：（1）当从“真实”视频切换到“生成”视频时，用户对唇读视频的感知没有显著差异;（2）通过广泛的用户研究，唇读平台在母语口音中我们相信，我们生成完全合成视频的方法是开发LRTMOOC平台的第一步，以造福数百万听力损失用户。2. 相关工作MOOC 作为教育媒介的有用性已被全世界接受[24]。像[11]这样的调查分析了MOOC影响的各个方面，并帮助我们了解其积极和消极方面。MOOC被证明可以增加受众，并为[19]中的传统教育形式提供可行的替代方案对内容的需求不断增加也提高了学生的参与度[10，15]。自COVID 19大流行开始以来，对MOOC和其他形式的在线教育的需求急剧上升我们相信这一趋势将继续下去，并影响有特殊需要的人所需的不同类型的教育。我们的工作也与辅助技术保持一致，6COVID-19疫情期间在线学习的兴起数字媒体在历史上发挥了重要作用。这些努力大部分用于改善某些群体的沟通技能。在2006年，[22]发表了他们的工作“巴尔迪”，一个电脑动画导师教自闭症儿童。在此之后，另一项工作[6]专注于为自闭症儿童生成3D动画导师，以提高他们的沟通技巧。旨在提高听力受损者沟通技能的研究也很受欢迎。[4]开发了一套计算机辅助词汇，用于教育聋人进行口头交流特殊课程[20]旨在帮助听力有限的人针对类似群体的人机交互界面[5，1]也很普遍。最近，一项具有里程碑意义的工作[9]旨在为重听人创造一个家庭助手。他们的工作主要集中在将基于手语的命令整合到个人助理中。在[25，21]中，对自动唇读进行了类似的努力。3. 合成通话头数据库我们的唇读训练数据库生成流水线：（1）从互联网上自动抓取一组人脸视频.这有助于我们涵盖大量的身份，背景变化，嘴唇形状等.（2）对抓取的视频进行后处理，以过滤掉无效的面部（例如剧烈的姿势变化）。(3)自动从各种在线资源中挑选许多单词和句子（4）在策划的词汇表上生成合成语音话语(5)在我们的情况下，使用SOTA说话头部生成模型Wav2Lip来生成驾驶面部视频和语音话语以生成合成说话头部视频Wav2Lip根据语音话语修改驾驶视频的嘴唇运动。视频的其余部分（背景，视频选择唇读评价原始视频Wav2Lip真实视频音频选择唇读评价合成音频LRT视频Text-to-Speech词汇人脸检测刮视频评分评分音频-视频校准模块音频分析视频2220×× ××7×图4：音频-视频对齐模块：口形同步模型（如Wav 2Lip）根据给定的语音话语修改“原始视频”（驾驶视频）的嘴唇运动。然而，在通过Wav2Lip之前简单地对齐音频和视频可能会导致“未对齐视频”和残留的嘴唇运动，如红色框所示。我们设计了一个音视频对齐模块来检测原始视频中的嘴部运动。然后，我们将该区域上的语音话语与嘴部运动对齐，并在对齐的话语周围添加沉默。然后Wav2Lip生成一个姿势等）保留。这些合成视频（有或没有语音）用于训练人类唇读。整个流水线如图所示。3.第三章。我们评估了几种TTS模型：Fastspeech 2 [7]、实时语音克隆[13]、Glow- tts [16]和Tacotron 2 [26]在LibriTTS[28]和LJSpeech [12]上训练。我们以不同的速度评估它们- 1，1.5、1.7、2、音高和音量变化。我们从30名没有听力损失的参与者那里收集了关于生成的语音清晰度的定性反馈，并在补充材料中报告了平均意见评分（MOS）为我们在美国口音英语上进行的实验中，我们使用Fastspeech2，其具有在LJSpeech上预训练的1速配置。对于印度化的英语口音，我们使用一个在线TTS与FastSpeech2产生的语音质量相似的性能。我们的管道中使用的TTS模型是可配置的即插即用模块，可以用任何其他TTS替换这允许可伸缩性和变化，几乎没有手动工作。自2015年以来，根据给定的语音话语修改嘴唇运动的说话头部生成模型获得了很大的吸引力7http://ivr.indiantts.co.in/en/在计算机视觉社区[18，8，27]。虽然这些作品中的一些产生准确的唇同步，但它们是针对需要大量特定于说话者的数据的特定说话者训练的。[2]但是需要更多的人工干预，限制了它们在我们的方法中的使用。像Lip- GAN [14]和Wav 2Lip [23]这样的最新进展非常适合我们的方法，因为它们适用于任何身份，而不需要特定于说话人的数据。因此，我们在管道中采用Wav2Lip。Wav2Lip将任何身份的面部视频（驱动面部视频）和音频（引导语音）作为输入。然后，该模型修改原始视频中的嘴唇运动，以匹配引导语音，如图所示。2.其余的视频特征，如背景、身份和面部姿势，都被保留下来。该算法也适用于TTS生成的语音段为我们的情况下必不可少的。3.1. 数据生成管道数据采集模块：随机视频首先从YouTube等各种在线来源收集。这些随机视频介绍了唇读者在现实生活中遇到的真实世界的变化，例如说话者的头部姿势，说话者与相机（唇读者）的距离，说话者的肤色和嘴唇结构的变化我们使用人脸检测模型对这些视频进行后处理，以检测有效视频。有效的视频是单一身份的正面谈话-22218图5：用于我们的用户研究的不同协议的示例。(a)唇读孤立词（WL）：说话者说出一个单词，并且期望用户选择所呈现的多个选项中的一个。(b)带上下文的唇读句子（SL）：说话者说出一个完整的句子。向用户呈现句子的上下文，并且期望用户在多个选择中选择句子中的一个，以及（c）唇读句子中缺失的单词（MWIS）：说话者说出整个句子。向用户呈现一个带有空白（屏蔽词）的句子;用户需要从视频和句子上下文中识别屏蔽词，并以文本格式回答头部视频没有剧烈的姿势变化。语音文本是使用TTS模型自动生成的在线词汇库。音频-视频校准模块：在下一步中，我们随机选择一对驾驶语音和一个面部视频。为了使用Wav2Lip生成唇同步视频，我们通过对齐视频和语音话语长度来匹配它们，然后用沉默填充语音话语天真地对齐驾驶视频上的语音话语可能会导致残留的嘴唇运动，如图所示。4，“未对齐视频”行。Wav2Lip不会在静音区域修改驾驶视频中的嘴唇运动。因此，输出包含来自原始视频的残留嘴唇运动（在红色框中指示）。这可能会混淆并导致对学习唇读的用户的干扰。我们的音频-视频对齐模块将视频区域上的语音话语与嘴唇运动对齐，如图所示。4，“对齐视频”行。这样，Wav2Lip自然地修改原始的嘴部动作，以纠正语音同步的嘴部动作，同时保持没有嘴部动作的区域我们使用唇地标和唇地标之间的预定义阈值的帧的变化率来检测面部视频中的嘴部运动。一旦我们检测到嘴唇运动，我们就在检测到的视频区域上对齐音频，并在语音周围添加静音。数据生成：对齐的语音话语和面部视频通过Wav2Lip传递。Wav2Lip修改了原始视频中的嘴唇运动，并保留了原始的头部运动，背景和相机变化，从而使我们能够在野外创建逼真的合成视频。总体管线如图所示。3.第三章。4. 人类唇读训练舌头.唇读者还可能依赖于其他几个因素，如对话的上下文、对说话者的熟悉程度、词汇和口音。因此，从lipreading.org和readourlips.ca获得灵感，我们定义了三个唇读协议来进行用户研究，以评估我们平台的可行性-（1）孤立词唇读（WL），（2）上下文唇读句子（SL），(3)唇读句子中缺失的单词（MWIS）。这些协议依赖于一个唇读者4.1. 孤立词唇读（WL）通过视觉嘴唇运动消除不同单词歧义的能力有助于形成听觉感知和言语产生。在水平（WL）唇读中，向用户呈现由说话的头部说出的孤立单词的视频，以及多个选择和一个正确答案。当在屏幕上播放视频时，用户必须通过从所提供的多个选择中选择单个响应来进行响应。视觉上相似的单词（homophenes）被放置在多项选择中作为选项，以增加任务的难度难度可以通过测试难词来进一步增加，难词与要唇读的词相关联，例如，生僻字较难用唇语读出。为了我们的研究目的，我们只测试用户的常用词。多个答案选项已固定为5个选项。一个单词级唇读的例子如图所示。第五条（a）款。4.2. 有语境的唇读句子在句子级（SL）唇读中，向用户呈现（1）说话的头部说出整个句子的视频和（2）句子的上下文。语境作为一个额外的线索，以口形的句子，是为了唇读是一个复杂的语音从视觉线索-形状形成的嘴唇，牙齿，和8https://www.readourlips.ca/22229−--××10×在给定的上下文中模拟实际对话根据[3]的观点，句子的语境可以提高个体语境缩小了词汇量，有助于消除不同单词的歧义。我们在两个方面评估我们的用户-A）介绍- '你好吗？'，和B）在餐馆里唇读--像WL唇读一样，我们为用户提供固定数量的多个选择和一个正确答案。除了上下文之外，没有向参与者提供关于句子的长度或语义的其他图5（b）示出了具有上下文的唇读级唇读的示例。4.3. 唇读句子中的缺失词（MWIS）根据，一个唇读专家只能分辨出一个给定句子的40%，或者在一个12个单词的长句中只能分辨出45个单词。在这个协议中，我们试图模仿这样的经验，通过在句子（MWIS）中询问单词参与者观看一个说话的头部说出的句子的视频，句子中的一个单词被掩盖，如图所示第5（c）段。不像SEC中提到的SL。4.2，不向用户提供任何附加的句子上下文。嘴唇的动作是一个模糊的信息来源，由于存在同音异义。因此，这个练习的目的是利用句子的上下文来消除多种可能性之间的歧义，并猜测正确答案。例如，给定掩蔽句“a catsits on the masked”，唇读者可以使用句子上下文来选择“mat”来消除同音异义词“mat”、“bat”和“pat”之间的歧义。用户必须输入文本格式的屏蔽词的输入，如图所示。第5（c）段。轻微的拼写错误是可以接受的。5. 用户研究在本节中，我们将解释参与者的集体背景，用于研究的视频类型以及我们测试平台的设计。5.1. 参与者我们对50名不同程度听力损失的参与者进行了研究，其中32名男性和18名女性参与者。这项研究的参与者平均年龄为35岁，从29岁到50岁不等。这项研究的参与者居住在印度的马哈拉施特拉邦和拉贾斯坦邦。29名学员拥有硕士学位，其余21人研究中的所有参与者都报告有感音神经性听力损失，并在日常生活中使用助听器，唇读和口头失聪演讲是他们的主要交流方式。9言语阅读，儿童听力损失|CDC10什么是感觉神经性听力损失？任务房合成美国美国印度WL80800800SL60600600胁迫验70700700总21021002100表1：以不同英语口音（美国/印度）为每个方案策划的示例数量。5.2. 数据集我们从lipreading.org上抓取真实视频，并在上面生成我们的合成视频。Lipreading.org 视频允许我们（i）在真实的唇扩训练视频和我们合成生成的视频之间进行直接比较，以及（ii）提供视频的正确答案;这为以后用于定量分析的真实视频提供了正确的基本事实标记。首先，我们的目标是比较用户的性能上使用我们提出的管道对lipreading.org上的真实视频生成的合成视频。我们使用第二节中解释的三种协议。4为了这个目的我们的合成视频分为：（1）非母语美国口音英语（AE）视频和（2）母语印度口音英语（IE）视频。我们的用户来自印度。我们的合成数据集使用5个扬声器上的10个驾驶视频创建。我们从lipreading.org的单词唇读测试中为WL唇读协议抓取了80个标签。使用这些，我们生成8010 =800个会说话的头部视频- 每个字有10种变化对于SL唇读，我们刮60从lipreading.org的考试水平测验的问题两个上下文：介绍和唇读。我们生成60个10= 600个说话的头部视频-使用这些句子为每个句子生成10个变体。最后，我们从 lipreading.org 的 missing words insentences task中抓取70个我们一次使用美国口音的TTS生成这些视频，第二次使用印度口音的TTS。如表1所示，我们总共生成了 4200 个合成视频，并从lipreading.org收集了210个真实视频。5.3. 测试设计我们的主要目标是验证使用我们的管道生成的合成说话头视频可以在视觉质量和易于识别方面取代真实视频。每个参与者都参与了所有3个协议。对于每个方案，用户进行对应于三个数据集的3次测验：（1）真实AE，（2）合成AE（Synth AE），以及(3)SyntheticIE（Synth IE）。用户总共尝试了9次测验。测验是通过我们开发的基于网络的平台提供的。我们的用户报告说，从大量的个人设备，如PC，笔记本电脑，2223图6：三种唇读协议的平均用户性能。误差线是平均值的标准误差。图7：箱形图描绘了三种唇读方案的分数分布。矩形内的水平线表示中值分数。矩形的顶部和底部对应于第一和第三四分位数;垂直“须”末端的水平线代表最小和最大分数，菱形代表该范围之外的droid和iPhone移动设备和平板电脑。完成测试所需的天数由用户任何用户完成我们的测试所需的最长时间是四天。每个测验向用户呈现20个问题/视频。每个问题首先从数据库中随机抽取一个单词/句子。然后随机选择数据库中存在的采样单词/句子的10个在向用户显示之前，从视频中移除音频我们确保单词/句子在单个协议中不会在测验中重复，通过熟悉来发泄偏见。我们还确保唇读的难度在所有数据集和协议中保持一致。用户每次正确的尝试奖励1分，分数计算为20分。我们希望用户一次性完成一个测试。为了公平起见，我们不会告知用户他们正在使用真实数据还是合成数据进行测试。6. 结果和讨论在本节中，我们进行统计分析，以验证（T1）用户的唇读性能是否在生成的真实视频和合成使用我们的管道。通过这一点，我们将验证我们提出的管道作为现有在线唇读训练平台的替代品的可行性（T2）如果用户在他们的母语口音/语言中比在外国口音/语言中更舒适的唇读这将证实需要在全球范围内以多种语言/口音引导唇读训练平台图6绘制了平均值的标准误差。图7呈现了三种唇读方案的箱形图。合成视频作为真实视频的替代：为了验证（T1），真实视频和合成视频之间的用户评分差异在统计学上应无意义。由于我们的结论依赖于零假设的证据（类别之间没有差异），仅仅缺乏证据不足以支持假设。因此，我们使用贝叶斯估计替代t检验（BEST）[17]进行贝叶斯等效性分析，以量化支持我们模型的证据。BEST估计两个分布/组之间的均值差异，并产生差异的概率分布。使用这种方法，我们计算(1)平均可信值作为两个分布之间实际差异的最佳猜测，以及（2）95%最高密度区间（HDI）作为ac-2224实际差异具有95%的可信度。为了使两种分布的差异具有统计学显著性，其平均得分的差异应位于95%HDI之外。我们在表2中报告了所有三种唇读方案的真实AE和合成AE研究的最佳统计数据我们还使用标准双尾t检验报告t统计量和p值从桌子。2，很明显，对于所有三种方案，最佳这表明，我们的管道是现有手动cu-额定的说话头视频的可行替代方案。原生唇读与非原生唇读：为了验证（T2），母语和非母语口音英语之间的用户评分差异应具有统计学意义。95%人类发展指数是说MGDt值p值WL（-0.254，1.63）0.7010.7061.6760.103SL（-0.226，1.62）0.6710.6471.5400.133胁迫验（-0.366，1.98）0.793,0.8241.5170.139表2：我们执行最佳统计分析，并计算真实分布和合成分布均值差异的95% HDI范围。平均数是指平均数的分布我们还报告了标准t检验的p值和t值以进行比较。p值接受范围z统计量WL0.0786（-1.645：1.645）1.758SL0.0171（-1.645：1.645）2.384胁迫验0.705（-1.645：1.645）0.378重要的由于我们的参与者池来自印度，因此我们比较了Synth IE和Synth AE上的用户评分由于我们的样本量很大（>30），我们为此，我们提出了假设H0：平均得分的差异Synth IE和Synth AE之间的平均评分差异在统计学上不显著，因此，替代假设H1：SynthIE和Synth AE之间的平均评分差异我们计算z统计量，并在表3中报告了三种方案的90%置信区间的p值（显著性值α=0.1）。我们观察到，Z检验统计量位于WL和SL两项任务的90%临界值可接受范围之外，表明它们的平均值差异在统计学上显著，有利于IE，并且我们拒绝H0，有利于H1。对于MWIS方案，p值>0。1，z统计量在可接受的90%置信区间内，表明其平均评分差异无统计学显著性。因此，在这种情况下，我们不能拒绝H0。总体结果支持我们的主张，唇读对本地口音的表现有很大的差异，他们更舒适的唇读本地口音。此外，它加强了我们平台的重要性。使用真实视频为每个新口音开发唇读训练数据库是一项不平凡、令人疲惫且耗时的任务。因此，我们的平台可以快速地被采用来添加任何新的语言/口音，只要该语言/口音的TTS模型可用。讨论：我们注意到唇读者在SL协议中的得分相对较高。句子的上下文缩小了词汇空间，有助于消除同音词的歧义。MWIS是最具挑战性的协议，因为它涉及用户它还涉及将句子中的掩蔽词映射到视频中相应的口型因此，用户对MWIS的评分相对较低。表3：对合成的印度口音英语（IE）和美国口音英语视频（AE）的双样本z检验。显著性水平α保持在0。1.一、如果z统计量超出90%临界值可接受范围，则拒绝零假设。因此，在这种情况下，p值也小于显著性值α作为用户研究的结论，我们提出的证据表明，合成视频有可能取代真实视频。我们表明，在所有原型中，Real AE和Synth AE的用户性能下降在我们还通过配对z测试表明，用户在本地口音中的唇读更舒适，强调了在多语言/口音中大规模引导唇读平台的迫切需要。7. 结论唇读是听力损失患者然而，唇读训练的在线资源此外，用一种新语言推出一个新平台的成本很高，需要几个月的人工努力来录制雇佣演员的培训视频。在这项工作中，我们分析了使用合成生成的视频来代替真实视频进行唇读训练的可行性我们提出了一个端到端的自动化和成本效益的管道生成唇读视频，并仔细设计了一套协议来评估生成的视频。我们进行统计分析，以验证用户的表现在真实和合成唇读视频的差异是统计上不显著的。我们还显示了唇读在本地口音的优势，从而突出了唇读训练在许多语言和口音的迫切需要。在这种情况下，我们设想了一个MOOC平台，用于培训人类唇读，以潜在地影响全球数百万听力损失的人2225引用[1] Deepali Aneja，Daniel McDuff，and Shital Shah.一个高保真的开放式化身，具有唇同步和表情能力。在2019年多模态相互作用国际会议上，ICMI计算机协会。[2] Deepali Aneja，Daniel McDuff，and Shital Shah.一个高保真的开放式化身，具有唇同步和表情能力。在2019年多模态相互作用国际会议上，ICMI计算机协会。[3] Spehar B，Goebel S，and Tye-Murray N.上下文类型对唇读和听力的影响及其对句子加工的启示。在J演讲郎听到Res。JJournal of Speech，Language，and HearingResearch（JSLHR），2015.[4] L. J·巴克计算机辅助词汇习得：中国语言文字研究所的口聋教育词汇辅导员聋人研究和聋人教育杂志，8（2）：187[5] 汉斯·海因里希·博特听障、聋人和聋盲人的人机交互和交流辅助工具：特别专题会议介绍。 In KlausMiesenberger ， Joachim Klaus ， Wolfgang Zagler ， andArthur Karshmer ， editors ， Computers Helping Peoplewith Special Needs施普林格柏林海德堡。[6] 陈飞，王兰，彭刚，南烟，潘晓杰。自闭症谱系障碍儿童三维虚拟发音辅导器之开发与评估。PLOS ONE，14（1）：1[7] 简忠明，林正浩，黄建裕，徐宝春，李弘毅。研究将预训练和可学习的说话人表示用于多说话人多风格的文本到语音，2021。[8] OhadFried ， AyushTewari ， MichaelZollhoüfer ，AdamFink el-stein ，Eli Shechtman ，Dan B Goldman ，Kyle Genova ， Zeyu Jin ， Christian Theobalt ， andManeesh Agrawala.基于文本的编辑说话头视频。 ACMTrans. Graph. ，38，2019.[9] Abraham Glasser ， Matthew Watkins ， Kira Hart ，Sooyeon Lee和Matt Huenerfauth。分析聋人和听力障碍用户的行为、使用以及与理解手语输入的个人辅助设备的交互。在2022年CHI计算机系统中人类因素会议的会议记录中，CHI计算机协会。[10] Philip J. Guo，Juho Kim和Rob Rubin。视频制作如何影响学生参与度：MOOC视频的实证研究。InProceedingsof the First ACM Conference on Learning @ ScaleConference，L@S计算机协会。[11] 也不是哈菲扎·哈龙和优素福·哈菲赞。MOOC在教学过程中的接受度：马来西亚公立大学个案研究。InDraganCv etko vic′ ， editor， MOOC （ Massive Open OnlineCourses），chapter 4.2021年里耶卡国际公开赛[12] Keith Ito和Linda Johnsonlj语音数据集。https：//keithito.com/LJ-Speech-Dataset/，2017年。[13] 叶佳，张宇， Ron J.Weiss ， Quan Wang ， JonathanShen ， Fei Ren ， Zhifeng Chen ， Patrick Nguyen ，Ruoming Pang ， Ig-nacio Lopez Moreno ， and YonghuiWu.将学习从说话人确认转移到多说话人文本到语音合成。第 32届神经信息处理系统国际会议论文集，NIPS'18，第4485-4495页，Red Hook，NY ，美国，2018年。Curran Associates Inc.[14] Prajwal K R，Rudrabha Mukhopadhyay，Jerin Philip，Ab-hishek Jha，Vinay Namboodiri，and CV Jawahar.走向自动面对面翻译。在第27届ACM国际多媒体会议论文集，MM'19，第1428-1436页，纽约，纽约，美国，2019年。计算机协会。[15] Aditya Kamath ， Aradhya Biswas 和 Vineeth Balasubra-manian。电子学习环境中学生参与度识别的众包方法。2016年IEEE Winter计算机视觉应用会议（WACV），第1-9页[16] 金在贤金成元江俊吉尹成禄Glow-tts：通过单调对齐搜索的文本到语音的生成流程。In H. Larochelle，M. 兰扎托R.哈德塞尔M. F. Balcan和H.林，编辑，神经信息处理系统的进展，第 33 卷，第 8067-8077 页。 CurranAssociates，Inc. 2020年。[17] 约翰·克鲁施克贝叶斯估计取代t检验。实验心理学杂志 General，142，07 2012.[18] 作者：Rithesh Kumar，Jose M. R. Sotelo，K.库马尔A.D. 布莱比松和尤·本吉奥。奥巴马：照片般逼真的文字对口型。ArXiv，abs/1801.01442，2018。[19] 萨拉河兰伯特MOOC是否有助于学生公平和社会包容？2014- 2018 年系统性综述。计算机教育， 145 ：103693，2020。[20] L. Leeson和H.酋长Signall：开发在线和混合聋人研究课程内容跨越欧盟边界。2009年[21] Pingchuan Ma ， Yujiang Wang ， Jie Shen ， StavrosPetridis，and Maja Pantic.使用密集连接的时间卷积网络进行唇读。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第2857-2866页[22] 多米尼克·W马萨罗和亚历克西斯·博塞勒看我的嘴唇。Autism，10（5）：495[23] KRPrajwal ， RudrabhaMukhopadhyay ， VinayP.Nambood-iri和C.V.贾瓦哈一个唇同步专家是所有你需要的语音唇代在野外。在第28届ACM多媒体国际会议论文集，MM[24] 哈佛商业评论。谁[25] BipashaSen，AdityaAgarwal，RudrabhaMukhopadhyay，Vinay Namboodiri，and C V Jawahar.为肌萎缩侧索硬化症患者进行个性化2021年英国机器视觉会议（BMVC），2021。[26] Jonathan Shen ， Ruoming Pang ， Ron J.Weiss ， MikeSchuster ， Navdeep Jaitly ， Zongheng Yang ， ZhifengChen，Yu Zhang，2226王宇轩， Rj Skerrv-Ryan ， Rif A. Saurous ， YannisAgiomvrgiannakis，and Yonghui Wu.通过对mel谱图预测的调节波网进行天然tts合成。在2018年IEEE声学，语音和信号处理国际会议（ICASSP），第4779-4783页[27] 姚新伟，奥哈德 · 弗里德， K. Fatahalian 和 ManeeshAgrawala。使用神经重定向对说话人进行基于文本的迭代编辑。ArXiv，abs/2011.10688，2020。[28] 放大图片作者：Rob Clark，Ron J. Weiss，Viet Dang，Ye Jia ， Yonghui Wu ， Yu Zhang ， and Zhifeng Chen.Libritts：从librispeech派生的文本到语音的语料库。在2019年的演讲中

下载后可阅读完整内容，剩余1页未读，立即下载