面向可阅读的视频问答模型中的文本信息的重要性和推理过程的挑战

147 浏览量更新于2023-10-16 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

看新闻：面向可阅读的视频问答模型Soumya Jahagirdar<$Minesh Mathew<$Dimosthenis Karatzas诉贾瓦哈尔@ research.iiit.ac.indimos@cvc.uab.esjawahar@iiit.ac.in†CVIT，IIIT Hyderabad，IndiaComputer Vision Center，UAB，Spain摘要视频提问方法关注对象或人的常识推理和视觉认知以及它们随时间的交互。当前的VideoQA方法忽略了视频中存在的文本信息相反，我们认为文本信息是行动的补充，并提供必要的语境线索的推理过程。为此，我们提出了一种新的VideoQA任务，需要阅读和理解视频中的文本。为了探索这个方向，我们关注新闻视频，并要求QA系统理解没有是的场景文本推理没有是的并回答关于通过结合视频中的视觉和文本线索所呈现的主题的问题我们引入了对来自不同媒体的3，000多个新闻视频进行问答来自世界各地的新闻频道。我们证明了的局限性，并提出了将场景文本信息纳入VideoQA方法的方法1. 介绍在过去的几年里，可视化提问已经在许多方向上发展两个有前途的方向是，一方面，尝试将VQA应用于更多的动态场景，即视频输入，另一方面，引入场景文本作为VQA过程中的额外模态。处理这些挑战所需的推理过程并不容易纳入模型。考虑到展开事件的时间维度，需要对某些动作的演变进行推理，从序列中的特定时间重新获取信息，或者两者的组合与此同时，认识到我们周围的世界充满了文本信息，这些信息往往携带着解释场景所需的重要语义，这一事实催生了VQA的新方向在这一过程中引入情景语篇情态，需要对易错的阅读系统进行建模，并将情景语篇语义和字面翻译与答案空间联系起来。图1：我们解决了基于文本的视频问题回答的任务，结合了视频文本（视频文本是嵌入在视频中的文本内容）信息（右下角）。我们提出了一个新的数据集的新闻视频以及基于视频文本的QA注释，并探索VQA模型，共同原因在时间和文本为基础的信息。在这项工作中，我们首次尝试将这两条研究路线结合起来，并将VideoText（视频-文本是嵌入在视频中的文本内容）模态引入到视频视觉问题中。已经提出了将VQA应用于视频设置的各种尝试这样的VideoQA方法已经提出了集中于在时间、因果对应和知识图上重新识别动作、情感、活动和推理的数据集和方法。然而，他们在推理视频中出现的文字方面做得不够。另一方面，场景文本VQA [3，27]专注于允许VQA系统将场景文本纳入推理过程的方法。一方面，这需要从嘈杂的文本输入中提取语义，另一方面，它需要动态扩展答案空间以包含场景文本提供的新答案标记[3，21，22，27，30]。然而，所有的场景文本VQA方法仅限于处理单个图像，并且不能容易地扩展到多帧视频输入。在这项工作中，我们尝试将基于多帧的VideoQA架构与场景文本模态相结合4441场景文本VQA问：有多少块比萨饼？问：戴墨镜的女孩的横幅上写的是什么？A：六A：现在行动或以后视频QA视频文本感知视频QA问：教练戴眼镜吗？A：是问：哪个城市将其加密货币化以降低税收？A：迈阿密时间推理24442（图①的人。为了探索这个新的研究方向，我们定义了一个新的任务和相关的数据集：新闻视频QA. 由于新闻视频片段中场景文本的突出功能及其对视觉模态的补充信息，我们认为新闻视频的视觉问题回答是一个足够的任务，可以在基于时间和场景文本的信息的模型中进行联合推理。我们提出并彻底分析了NewsVideoQA数据集，指出了各种情况下的关键统计数据和理论上限性能随后，我们探讨了各种基线方法，并证明了VideoQA和场景文本VQA方法的局限性。我们表明，场景文本VQA方法只有在应用于与问题对应的视频帧（包括answer所需的信息）时才能获得最佳性能，但这种方法没有简单的方法来自动检索正确的帧。另一方面，我们表明，不考虑场景文本的VideoQA方法在最后，我们重新设计了最近提出的VideoQA方法，将场景文本信息，并表明它在NewsVideoQA数据集上产生最佳结果，结合了VideoQA和场景文本VQA类型的优点。该数据集可在 http://cvit.iiit.ac.in/research/projects/cvit-projects/videoqa上获得我们的工作贡献如下：• 我们引入了一个新的任务，基于文本的视频Ques-tion问答，其中模型必须有能力阅读和推理的文本内容的视频（多帧输入）回答问题。• 我们提出一个新的数据集：NewsVideoQA探索建议的任务。该数据集包括在新闻视频中的文本内容上定义的问题，并要求模型对其进行阅读和推理以获得答案。• 我们评估了NewsVideoQA数据集上的各种基线。这些基线包括简单的启发式方法，纯文本（机器理解）模型，场景文本VQA和视频QA模型。• 我们将SINGULARITY [15] VideoQA模型重新用于NewsVideoQA任务，并与原始模型相比产生了可接受的结果。2. 相关工作在本节中，我们简要讨论了这个领域中与我们的工作相关的一些重要工作。视频问答。VideoQA的早期尝试之一是Yang等人提出的基于检索的事实问答方法。[37]第37段。他们的系统依赖于语音成绩单和外部知识来回答问题。来自抄本的一个或多个句子被返回作为QA系统的输出，并且如果目标答案包含在检索到的对于QA评估，他们使用了一个仅包含40个QA对的私有数据集。与这项工作相反，我们的NewsVideoQA特别关注新闻视频中出现的文本，并且是在更大的数据集上定义的VideoQA [17，28，34，40]中最近的作品要求模型对视频中发生的事件进行推理，但忽略视频中的任何文本信息Tapaswi等人[28]介绍了一个数据集，旨在研究使用视频和字幕的故事理解。Zhou等人。[40]介绍了一个大规模的VideoQA数据集，由不同活动的视频组成。[34]中提出了一种逐渐重新关注外观和运动特征的方法，以及使用字幕自动生成的VideoQA数据集。Yang et al. [36] and Maharaj et al.[20]第20话自动生成VideoQA数据集。由于[36]中的问题是使用标题自动生成的，因此它们主要基于对象和动作的视觉外观。古普塔[8]通过提出一个新的数据集来探索新闻视频上基于知识的问题回答。该数据集中的问题主要与视频中看到的人有关，而所提出的模型主要依赖于脚本和外部知识库来找到答案。上述作品中的问题主要需要视觉内容和视频的文本来回答问题。最近的作品，如[15，16，18，19]，引入了具有不同预训练策略的基于transformer的模型，并在现有的VideoQA数据集上产生了最先进的性能表1总结了VideoQA的现有工作。可以看出，大多数模型都是通过视觉内容、文本和外部知识来回答问题。视频中的文字是了解新闻视频和户外拍摄视频内容的重要信息然而，现有的VideoQA作品在很大程度上忽略了视频上的文本。这促使社区拥有公开可用的视频问题回答数据集，其中问题需要理解视频中的文本内容以获得答案。场景文本感知视觉问题分类（VQA）。自然图像的早期VQA数据集主要包括寻求图像视觉内容中存在的信息的问题[33]。然而，认识到阅读场景文本对理解自然图像的重要性，研究人员最近开始致力于自然图像的VQA任务，其中基于图像中的文本信息的问题被优先考虑。此VQA分支称为场景文本VQA。两个流行的基准24443表1：VideoQA数据集的比较概述。在我们的工作之前，考虑视频，视频+字幕，视频+知识库作为输入。我们的工作引入了一个新的研究方向，其中建议数据集中的问题是基于新闻视频中的文本内容构建的。列合成基因。表示合成/自动生成的数据集。数据集字幕视频中的文本视频类型合成基因自由形式#视频QA数量视频问答[41]✗✗做饭看电影✓✗109K三十九万MSVD-QA [34]✗✗YouTube✓✓1.9K50K[40]第四十话✗✗YouTube✗✓5.8K58K[34]第三十四话✗✗YouTube✓✓10K243K个[第28话]✓✗电影✗✗6.7K6.4K[第17话]✓✗电视节目✗✗21K152K[36]第三十六话✓✗电视节目✓✗69M69M[37]第三十七话✗✓网络视频---40新闻KVQA [8]✓✗新闻视频✓✗5.8K58K新闻视频QA（我们的）✓✓新闻视频✗✓3.0K8.6K图2：答案中单词的单词云（左）和OCR标记中单词的单词云（右）。对于英语场景文本VQA是场景文本VQA [3]和文本VQA [27]。Wang等人。[32]通过引入一个新的数据集，将场景文本VQA扩展到双语设置，该数据集包含具有英语和中文场景文本的图像对于场景文本VQA，Singh et al.[27]提出了一种名为LoRRA的模型，该模型使用自上而下和自下而上的注意力对场景文本标记和视觉特征进行关注，以从OCR标记或固定词汇中M4C[10]使用基于多模态变换器的模型用于场景文本VQA和文本VQA。与LoRRA不同，该模型可以通过组合来自固定词汇表的标记或在图像上找到的场景文本标记来生成任何长度的当前最先进的场景文本VQA模型通常使用基于transformer的体系结构，该体系结构分为两个阶段进行训练：预训练阶段和微调阶段[2，38]。这些作品中的预训练阶段旨在学习多模态交互。在TAP [38]中，Yang et al.提出使用适合于场景文本和视觉对象之间的对齐的预训练任务来预训练类似M4C的体系结构。TAP使用对应于使用预训练的对象识别器在图像上检测到的视觉对象的视觉特征，24444保护模型，就像以前的大多数VQA作品一样，比如LoRRA和M4C。与TAP不同，TAP使用场景文本，位置信息和视觉特征对自然图像进行预训练，LaTr [2]使用文档图像进行预训练，仅使用文本和布局信息。在微调阶段， LaTr 使用使用预先训练的视觉Transformer提取的视觉特征除了场景文本VQA之外，许多专门的VQA任务还需要读取和推理图像上的文本。有多个图表上的VQA数据集，其中图表上的文本对于回答问题至关重要[11，12]。Mishra等人[23]介绍了一个VQA数据集，其中所有图像都是书籍封面，数据集中的问题是使用与书籍和问题模板相关的元数据综合创建的。由于问题是使用诸如作者姓名、书名和出版商名称等信息创建的，因此问题完全取决于书籍封面上的文本，并且几乎不需要视觉信息。DocVQA [21]将VQA扩展到文本丰富的文档图像。该数据集包含基于各种文档元素的问题，例如段落、表格、表格和图表形式的非结构化文本。与这些现有的涉及静止图像上的文本的VQA工作类似，我们提出了一个VQA任务，需要阅读和理解视频上的文本。虽然VQA问题直接给出了确切的上下文-单个图像，但建议的具有多个帧的NewsVideoQA要求模型自动找到正确的帧，该帧通知这些帧中的文本内容的答案和原因。3. 新闻视频QA数据集在本节中，我们将解释数据收集和注释过程。此外，我们还分享了拟议的NewsVideoQA数据集的统计数据和分析。244452000400025001500300020001000500200010001500100050005 10 15 20问题字数02 4 6 8 10 12回答中的字数010 20 30 40 50帧数(a) 特别长度的问题。数据集中问题的平均长度为六、79个字(b) 答案有一定的长度。答案的平均字数是二、02话(c) 具有特定长度的OCR令牌。每帧的平均OCR标记数为26。14个代币。新变种是如何进化的？谁掷出的球最好？哪些国家有部署？哪个国家处于欧米克隆警戒状态？新变种的传染性有多大这是一个被认定为“处于危险之中”的国家，是什么吓到了专家？什么是黄金？是什么使疫苗的效果降低？有效性降低了多少%？哪个国家禁止航班什么需要一场新的战斗？哪种变体包含32个突变？从哪个国家到云下旅游？云下游哪个国家8 10 12 14是的omicron印度没有南非新变种pm内拉杰乔普拉德里neeraj专家黄金比特币国家三角洲50 10 0 15 020 0印度新闻今日18news18.com在美国有线电视新闻网Omicron oncovidnewfordelhi0 10 0 0 0 20 0 0 0 30 0 0 0 40 0 0 0(d) 数据集中最常见的15个问题。(e) 数据集中最常见的15个答案。(f) 数据集中出现最多的前15个OCR标记图3：NewsVideoQA数据集中的问题，答案和OCR令牌的统计数据。3.1. 数据收集新闻视频：我们从世界各地的英语新闻频道收集新闻视频。我们从以下 YouTube 频道获得视频，如BBC，ABC Aus-tralia，India Today，TRT World，AlJazeera ， CNN ， NHK World Japan ， Fox News ，WION ， NDTV， ABC News ， CNN-News 18 ， CTVNews，CGTN和IPCC。在收集新闻视频时，我们手动确保视频是文本丰富的，因为所提出的任务依赖于视频问题回答，这需要阅读文本。收集的视频被分成10秒的非重叠片段。建议的数据集包含3083个视频，每个频道至少有20个视频。每个视频的平均问题数为2。九十六。为数据集中的视频定义的最大问题数为20。为视频定义的最小问题数为1。问题与解答：注释过程分为两个阶段。在阶段1中，注释者被指示基于新闻视频中存在的文本信息来定义问答对。具体而言，向他们提供了以下指导：“确保回答生成的问题需要阅读新闻视频中的文本，并且应该与该视频的主题相关”。解说员被要求提出事实性问题，这些问题可以通过阅读新闻视频中的文本来回答他们还被要求添加一个时间-夯实：当问题被框定时，视频的时间（最多1秒的精度）。引入了第二阶段的核查，以检查数据的正确性在这里，注释者被要求验证第一阶段收集的数据。注释者被示出视频剪辑的视频-问题对，并且被要求输入答案和时间戳，并且基于其与新闻视频的文本内容的相关性来检查问题-答案对的正确性。他们被要求拒绝在问题和答案中有任何语法错误的问题。在该阶段期间，如果注释者发现与主题无关的问答对或者如果问题被框定在新闻视频的音频上，则从数据集中拒绝这样的问答对。在验证步骤之后，总共有1，200个还增加了一个额外的阶段，作者审查随机挑选的问题-答案对及其正确性和与所提出任务的相关性。3.2. 统计与分析NewsVideoQA数据集包含了3083个新闻视频中的8672个数据以80-10-10的比例随机分割，以进行训练、验证和测试分割。训练分割有6994个问题，超过2407个视频，验证分割有714个问题，超过330个视频剪辑，测试分割有964个问题，超过346个视频剪辑。图3a显示了NewsVideoQA数据集中问题的问题长度分布平均问题长度为7。04话在8，672个问题中，一些问题答案数量每帧中的OCR令牌数24446（80. 81%是独一无二的。问题的多样性反映了问题是基于文本内容的事实。图3d显示了前15个最常见的问题及其频率。图4显示了问题的前三个单词从图中可以看出4.在问题类型中存在可变性，例如，以“什么”开头的问题我们使用公开的语音转文本工具提供新闻视频的字幕[29]。共1，388（17. 36%的问题可以通过视频的副标题来回答。观察到这一低百分比是由于两个原因，(a)视频的持续时间较短（10秒），导致字幕中的句子不完整，以及（b）大多数问题基于新闻视频的文本内容。总共有4，150（47. 85%的答案。图中右边的词云。2显示最常见的单词在答案中。答案空间很广，涉及国家、事件、游戏、人物等名称。答案长度的分布如图所示。3b.平均答案长度为2。02.数据集中的前15个答案如图所示。3e.第3款。我们使用Google OCR获取OCR令牌。我们以每秒2帧的速度对视频进行统一采样，并保留视频的第一帧。左边的图2显示了OCR标记的单词云。在图3f中，我们显示了数据集中存在的前15个OCR标记。平均26。每帧观察到14个OCR标记，平均为532个。在数据集中观察到每个视频剪辑55个4. 基线方法我们评估了三种不同的方法作为NewsVideoQA数据集上新引入的场景文本感知VQA任务的强基线。在本节中，我们将简要讨论原始方法，并解释这些方法如何适应新任务。4.1. 启发式方法和上界受场景文本VQA [3，27]和DocVQA [21]数据集上评估的启发式基线的启发，我们评估了以下启发式基线和上限：（一）主要答复：当将训练分割中最频繁的答案视为测试集中所有问题的答案时，测量性能。（二）最大的OCR-肯：测量当将占据视频中最大区域的OCR令牌视为答案时的性能。我们计算以下情况的上限（UB）：（i）词汇UB：如果答案是从列分割中最常见答案的一个列表中挑选的，则测量测试集上可获得的最大性能。（ii）单帧UB的OCR子串：这衡量了当我们限制我们的vo时可以获得的性能，图4：问题按起始3-gram的分布。请注意，数据集中有各种类型的问题。问题类型“What”具有最大计数，问题例如“Whatisthe.？”“这...？“等cabulary到定义问题的帧的OCR标记的列表。（iii）所有帧UB的OCR子串：如果测试分割中的答案是来自视频的均匀采样帧的OCR标记的级联列表中的子字符串，则测量我们可以获得的性能。4.2. 阅读理解模式如第3节所述，通过设计，NewsVideoQA中几乎所有的问题都基于视频中的文本。出于这个原因，我们评估了一个QA基线，该基线只考虑视频中的文本来回答问题。具体来说，我们评估了BERT [5] QA模型，该模型最初是为提取纯文本QA开发的提取性QA是从提出问题的文档/上下文中提取简短片段的任务。答案片段被称为“span”，span是根据其开始和结束标记定义的。BERT是一种基于Transformer编码器的方法，用于从未标记的文本中预训练语言表示。这些预训练的模型可以稍后用于下游任务，并添加适合手头任务的输出对于提取QA的任务，附加层是预测答案跨度的开始和结束标记的输出层对于NewVideoQA，我们将OCR标记连接在一个帧（假设我们知道正确的帧）或整个视频中-在我们的实验中，我们尝试了这两种设置-以默认的阅读顺序（即，从左上到右下的顺序），并将此序列用作BERT QA模型的上下文。被244474.3. VQA模型为了评估NewsVideoQA数据集上当前VQA模型的性能，我们使用M4C [10]模型，该模型考虑了新闻视频帧中存在的文本我们将每个问题与定义的问题的时间戳对应的帧M4C使用多模态Transformer和迭代答案预测模块。问题中的令牌是使用BERT模型嵌入的每个帧都使用以下特征表示：（i）使用在视觉基因组上预训练的 Faster-RCNN 检测到的对象的外观特征 [14] 和（ii）位置信息- 检测到的对象的边界框坐标。从帧中识别的每个OCR标记使用以下特征表示：（i）预训练的单词嵌入，即FastText [4]，（ii）来自Faster-RCNN [25]的令牌边界框的外观特征（iii）令牌的PHOC[1]表示以及（iv）令牌的边界框坐标。所提到的实体的表示，即，问题标记、对象和OCR to- kens被投影到公共的、学习的嵌入空间。之后，一个Transformer [31]层的堆栈应用于公共嵌入空间中的这些特征。变压器中的多头自注意力使实体间和实体内的注意力都成为可能。最后，通过自回归方式的迭代解码在解码的每个步骤中，解码的单词是来自所考虑的帧的OCR标记或来自公共答案单词的固定词汇表的单词。4.4. VideoQA模型除了纯文本QA模型和基于文本的VQA模型之外，我们还评估了 NewsVideoQA 在最近提出的基于transformer 的检索和 VideoQA 方法（称为SINGULARITY [15]）上的性能。这种方法研究了时间关系对回答问题的重要性。SINGULARITY是一个在许多视频和图像字幕数据集上预训练的视觉语言模型[9，13，34，35，39，40]。它由三个组件组成，视觉编码器[6]，语言编码器[5]和多模态编码器[31]。对于预训练，每个视频/图像与其对应的字幕配对。多模态编码器应用交叉注意来收集信息，从视觉表示使用文本作为关键。确定了三个预培训目标：（i）视觉-文本对比：对比损失，使视觉和文本表示一致，（ii）掩蔽语言建模（MLM）：预测掩蔽的视觉和文本上下文，以及（iii）视觉-文本匹配：预测多模态编码器下视觉文本对的匹配得分。对于QA任务，从预先训练的多模态编码器初始化多模态解码器，其将多模态编码器的输出作为输入。这将生成带有“[CLS]”的应答文本预训练多模编码器视觉编码器OCR编码器Loss：Lfr-ocr-match，Lmlm，Lfr-ocr-match视频QA任务的微调解码器回答：是多模编码器视觉编码器文本编码器加密货币是否有危险信号？ +OCR令牌… sought scoop ongovtcryptobillblanket图5：OCR 感知的奇异性。我们扩展了SINGU-LARITY[15] ，用于基于文本的视频问答任务，通过在建议的NewsVideoQA数据集上进行预训练和微调来整合OCR信息。作为启动令牌。我们扩展了原始的SINGULARITY模型[15]，并提出了一个新的OCR感知的VideoQA版本，可以读取视频中的文本，从而根据视频中的文本回答问题。为此，我们在视频中包含OCR令牌作为预训练和微调阶段的额外输入。在预训练时，与使用图像/视频+字幕对的原始模型不同，我们使用图像/视频+ OCR令牌对。与原始模型类似，采用了以下三个预训练目标。（i）视觉-OCR对比损失：对齐视觉特征和OCR标记，（ii）掩蔽语言建模：遵循BERT [5]中的公式来预测随机掩蔽的OCR令牌，以及（iii）视觉OCR匹配：类似于视觉-OCR对比损失，这允许模型通过使用来自多模态编码器的[CLS]令牌的输出来改进配对视觉和OCR输入之间的对准以用于二进制分类。本质上，它表示输入帧和OCR标记对是否匹配。与原始模型类似，我们增加了多模态解码器，具有与多模态编码器相同的架构。该解码器使用多模态编码器输出作为其交叉注意输入。它以[CLS]作为起始令牌对答案进行解码。我们在图中显示了OCR感知SIN-GULARITY的整体模型五、24448表2：测试集上所有基线的比较：可以看出，当在测试时提供12帧的输入以及随后的投票时，诸如BERT-QA [5]的模型具有较差的性能。没有任何OCR信息的SINGULARITY [15]OCR感知的SINGULARITY性能优于所有基线。模型#训练用于测试的Acc.（%）噪音声级BERT-QA [5]1128岁70 三十四21M4C [10]1128岁49 三十二17BERT-QA [5]12十五岁03 十七岁65M4C [10]12二十七岁8731岁54BERT-QA [5]11219号。61 二十五88M4C [10]112三十68 三十四90[15]第十五话1124.第一章82五、78OCR感知奇异性112三十三岁。57三十七52表3：启发式和上限基线结果。可以看出，答案是对应于问题的时间戳的单个帧的超过50%的序列化OCR令牌的子串。启发式基线（%）多数人回答 3。00最大的OCR令牌1. 0376.最后一次5853 .第五十三章0574.第74章一夜情435. 实验在本节中，我们将解释评估指标和实验设置，并报告实验结果在所有实验中，我们使用数据集的验证分割来保存性能最好的检查点。5.1. 评估指标我们使用两个评估指标-准确性（Acc.）平均归一化Levenshtein相似性（ANLS）。准确度是预测答案与目标答案完全匹配的问题的百分比。即使预测与目标答案略有不同，准确性指标也会奖励零分。ANLS是一种基于Levenshtein相似性的度量，其对可能源于识别图像上的文本时的错误的未回答不匹配（即，OCR错误）。由于我们数据集中的所有答案都来自所看到的文本，在视频中，我们发现ANLS是NewsVideoQA的合适指标。24449−5.2. 实验装置我们运行一个商业OCR引擎来获得均匀采样帧的OCRBERT-QA。在NewsVideoQA的情况下，我们使用采样视频帧的OCR令牌作为BERT-QA的上下文。对于每个问题，我们获得定义问题的框架的OCR标记。我们使用OCR系统中默认的OCR令牌排序：从左上到右下。为了将NewsVideoQA数据集转换为SQuAD格式，我们在上下文中找到答案的第一个子串，这是[21]中所述答案跨度的近似值。我们微调BERT QA检查点，该检查点已经在SQuAD数据集上进行了预训练和微调。具体来说，我们使用 “bert-large-uncased-whole-word-masking-finetuned-squad”检查点[7]。我们在NewsVideoQA数据集上从这个检查点开始训练BERT QA模型，训练时间为10个epoch，批量大小为32，学习率为2e05。M4C 对于M4C，我们使用官方实现以及默认的超参数[26]。用于生成答案的固定词汇表是来自NewsVideoQA的列车分割中的答案的3，751个由于M4C是图像VQA的模型，我们在NewsVideoQA的训练分割中使用视频帧+问题对来训练它。与如何在NewsVideoQA上训练BERT-QA类似，对于每个问题，使用在注释期间收集的每个问题的时间戳信息找到相应的匹配帧。[15]第十五话我们使用SINGULARITY的预训练模型，并在NewsVideoQA上对其进行微调。我们对它进行了20个epoch的微调，所有的超参数和训练设置都与官方实现保持一致。SINGULARITY在训练时使用单个帧，在测试时使用12个随机采样帧。OCR 感知奇异性。我们继续在我们的NewsVideoQA数据集上预训练原始的SINGULARITY24450−问：威胁是什么地面实况：omicronBERT-QA：omicronM4 C：omicron威胁OCR感知奇异性：Omicron问：谁获得了羽毛球银牌？地面真相：pv sindhuBERT-QA：pvsindhuM4C：scOCR感知奇异性：内拉杰乔普拉问题：汽车和交通工具对污染的贡献率是多少？真实性：36%BERT-QA：非常差M4 C：40%OCR感知奇异性：百分之十七图6：拟议任务不同基线的定性结果。基线的结果显示为绿色表示正确的预测，红色表示不正确的预测。对于10个时期。视觉编码器和多模态编码器的初始化类似的原始工作。按照NewsVideoQA上的预训练，我们对预训练模型进行了20次微调，批量大小为4，学习率为1e5。与原始模型相比，唯一的区别是我们将OCR令牌附加到问题令牌上。我们保持超参数和预训练设置与奇点相同[15]。关于上述基准的实验设置的更多细节，见补充材料。为了在所有基线中保持恒定设置（测试时为多帧），对于BERT-QA和M4 C，我们进行了额外的实验，其中这些模型在单帧上进行训练，并在多个随机采样帧上进行测试，然后进行多数答案投票以获得最终答案。与SIN-GULARITY类似，我们将测试时使用的帧数固定为12。5.3. 结果在表中。3、给出了算法的结果和上界基线。3 .第三章。0%的问题可以通过预测“是”来回答76的词汇上限。58%表明，列车分裂中的许多答案也会在测试分裂中重复。在表中。2，我们显示了所有基线的比较结果。从选项卡中的前四行开始。2，可以看出，BERT-QA（纯文本模型）和M4 C（基于文本的单图像VQA模型）在一帧和两帧设置（基于问题的时间戳的帧）上进行测试时表现良好。当在12帧上测试时，这些模型的性能显著降低。这表明BERT-QA和M4 C在回答问题所需的正确信息没有作为这些模型的输入时表现不佳。SINGULARITY（不对NewsVideoQA进行微调）与其他基线相比，其性能较差，因为构成框架的大多数问题基于视频中的文本内容。另一方面，OCR感知的SINGU-LARITY执行者具有与BERT-QA和M4 C相当的性能，因为该模型是针对基于文本的视频问答任务进行训练的。我们对补充材料中存在的基线进行了几次实验。在图6中，我们显示了实验的定性结果。左边的例子显示了基线的预测.由于框架包含的文本信息较少，因此所有基线都预测正确答案。而在中间和右边的示例中，OCR实例的数量增加，从而增加了获得正确答案的难度。6. 结论我们介绍并探讨了基于文本的视频提问问题，其中鼓励模型阅读和推理视频中的文本内容。为此，我们提出了一个新的数据集，NewsVideoQA，它包含了在新闻视频中定义的文本内容的问题我们采用NewsVideoQA上现有的基于文本的视频问答此外，我们重新设计了现有的VideoQA方法，结合OCR令牌，以产生更好的结果相比，原来的方法。我们详尽的分析和研究结果鼓励同时使用视觉和文本线索，以更好地理解视频系统。我们的工作将鼓励年龄的研究人员开发更好的基于文本的视频问题分类模型，并更好地了解设计良好的多模态机器理解模型。致谢这项工作得到了印度政府MeitY的支持。24451引用[1] 乔恩·阿尔马兹，阿尔伯特·戈多，艾丽西娅·F·N·E和欧内斯特·瓦尔维尼。具有嵌入属性的单词定位和识别。IEEE传输模式分析马赫内特尔，36（12）：2552[2] 阿里·富尔坎·比滕、罗恩·利特曼、谢宇生、斯里卡尔·阿普-帕拉拉朱和R.曼玛塔Latr：用于场景文本vqa的布局感知Transformer。在CVPR，2022年。[3] AliFurkanBiten ， Ru be`nTito ， And re` sMafla ， Llu`ısGo`mezi Bigorda ， Mar c alRusi nBogol ， C.V. Jawahar，ErnestValv eny，andDimosthenis Karatzas.场景文本可视化问答。载于ICCV ，第4290-4300页。 IEEE，2019。[4] Piotr Bojanowski，Edouard Grave，Armand Joulin，andTom a'sMi k ol ov. 用子命令信息丰富命令向量事务助理Comput. Linguistics，5：135-146，2017.[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL-HLT（1），第4171-4186页中。计算语言学协会，2019年。[6] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在ICLR。OpenReview.net，2021年。[7] 拥抱的脸拥抱脸模特。网址： http ：//huggingface.co/models 于 2022 年 8 月 27 日查阅。[8] 普拉奈·古普塔和曼尼什·古普塔。Newskvqa：知识感知的新闻视频问答 . 在计算机科学讲义的第 13282 卷PAKDD（3）中，第315.施普林格，2022年。[9] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan C. Russell.使用自然语言对视频中的时刻进行本地化在ICCV，第5804IEEE计算机学会，2017年。[10] Ronghang Hu，Amanpreet Singh，Trevor Darrell，andMarcus Rohrbach.使用指针增强的多模态变换器的迭代答案预测。见CVPR，第9989-9999页。计算机视觉基金会/ IEEE，2020。[11] Kushal Kafle ， Brian Price ， Scott Cohen ， andChristopher Kanan. DVQA：通过问答理解数据可视化。在CVPR，2018年。[12] Samira Ebrahimi Kahou ， Vincent Michalski ， AdamAtkin-son， A'kosKa'da'r ， AdamTrischler ，andYoshuaBengio. 图-ureqa：一个用于视觉推理的带注释的图形数据集. ICLR（研讨会）。OpenReview.net，2018年。[13] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles 。视频中的密集字幕事件。见ICCV，第706-715页。IEEE计算机学会，2017年。[14] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。可视化基因组：连接语言和视觉24452使用众包的密集图像注释。国际期刊。目视，123（1）：32[15] 作者：Jie Lei，Tamara L.Berg和Mohit Bansal。揭示视频和语言学习的单帧偏见，2022年。[16] 李林杰，周罗伟，甘哲，李洁。Berg，Mohit Bansal，and Jingjing Liu. 少即是多：通过稀疏采样进行视频和语言学习。在CVPR中，第7331-7341页。计算机视觉基金会/ IEEE，2021。[17] Jie Lei，Licheng Yu，Mohit Bansal，and Tamara L.伯格。TVQA：本地化，合成视频问答。参见EMNLP，第1369-1379页。计算语言学协会，2018年。[18] 李俊南，李东旭，熊彩明，和Steven C. H. Hoi BLIP：引导语言图像预训练，用于统一的视觉语言理解和生成。在ICML，Proceedings of Machine Learning search的第162卷，第12888-12900页中PMLR，2022年。[19] Linjie Li ， Yen-Chun Chen ， Yu Cheng ， Zhe Gan ，Licheng Yu，还有刘晶晶。HERO：分层编码器用于视频+语言的全方位表征预训练。参见EMNLP（1），第2046-2065页。计算语言学协会，2020年。[20] 放大图片创作者： Michael C. Courville ， andChristopher Joseph.通过填空式问答理解视频数据的数据集和模型探索在CVPR中，第7359-7368页。IEEE计算机学会，2017年。[21] Minesh Mathew、Dimosthenis Karatzas和C.贾瓦哈尔Docvqa：文档图像上的vqa数据集。2021年IEEE计算机视觉应用冬季会议（WACV），第2199-2208页[22] Anand Mishra、Shashank Shekhar、Ajeet Kumar Sin

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

面向可阅读的视频问答模型中的文本信息的重要性和推理过程的挑战

面向正常拟合迁移学习模型的成员推理攻击.docx

为什么语言模型的复杂度、生成的文本的流畅度和连贯性、模型的准确性和可靠性、模型的可扩展性和适应性 可以作为文本生成的技术指标

给我写一个文本纠错调研文档，加上每个模型推理结果输出

pytorch transform文本分类 推理代码

paddleseg 计算模型推理速度时是使用推理模型还是训练模型

yolov5模型推理

yolov5模型推理过程

ChatGPT利用什么模型计算数学和推理一阶逻辑推理

adboost加载模型并推理 c++

训练问答模型的数据集需要哪些数据

llama3训练模型,推理

面向计算机科学的数理逻辑:系统建模与推理pdf

知识图谱中基于规则推理的模型优缺点

YOLOv8的模型推理过程

面向计算机科学的数理逻辑系统建模与推理 答案 csdn

基于神经网络的知识图谱推理模型有哪些？

知识图谱中基于规则的推理模型

Python中的scikit-learn库用于模型训练和推理的函数,输出模型的相关信息,如内存大小、推理时间、推理速度等。

深度学习模型推理速度慢

最新资源

为什么语言模型的复杂度、生成的文本的流畅度和连贯性、模型的准确性和可靠性、模型的可扩展性和适应性可以作为文本生成的技术指标

pytorch transform文本分类推理代码

面向计算机科学的数理逻辑系统建模与推理答案 csdn