细胞结构和功能

38 浏览量更新于2023-10-15 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

中学课程1076课培训设置无内容重叠测试设置78 338句3，455张图片26，260个问题单元结构介绍在某些方面，细胞就像一个装满果冻的塑料袋。其基本结构是充满细胞质的细胞膜。真核细胞的细胞质就像是含有混合水果的果冻。它还包含一个细胞核和其他细胞器。细胞膜细胞膜就像装果冻的袋子。它包裹着细胞的细胞质。它在细胞质和细胞外环境之间形成屏障。细胞膜的功能是保护和支持细胞。它还控制什么东西进入或离开cell. 它只允许某些物质通过。它将其他物质保持在细胞内外。TQA课程教科书问答（TQA）多模态机器理解（M3C）在植物细胞中发现的大的储存囊中央液泡细胞内的一种结构，由细丝和小管组成，在细胞质中纵横交错，有助于维持细胞的形状细胞骨架细胞膜：植物细胞或真菌细胞的细胞膜周围的坚硬的一层，支持和保护细胞细胞壁下列关于细胞膜的陈述中，哪一项是错误的？a. 它包裹着细胞质b. 它保护和支持细胞c. 它将所有外部物质挡在细胞之外d. 名单中没有任何哪种成分在细胞质和细胞核之间形成屏障和细胞外的环境a. Jb. Lc. Xd. U问题核心的外围部分是什么a. 核膜b. 高尔基体c. 细胞膜d. 核仁教学图下图显示了Proximity细胞。原核生物是一种单细胞生物，缺乏膜结合的核（核），线粒体或任何其他膜结合细胞器。在原核生物中，所有细胞内的水溶性成分（蛋白质、DNA和代谢物）一起位于由细胞膜包围的细胞质中，而不是位于单独的细胞区室中。这张图显示了动物细胞的解剖结构。动物细胞有一个外部边界，称为质膜。的细胞核和细胞器都被这层膜所束缚。细胞器具有广泛的功能，如激素和酶的产生，为细胞提供能量。它们大小不一，形状不规则。大多数像元的大小在1到100只有在显微镜的帮助下才能看到。细胞膜结构细胞质细胞器课程总结细胞膜由两层磷脂组成细胞质由含水的胞质溶胶和细胞结构组成真核细胞含有细胞核和其他细胞器词汇生命科学1内容+QA内容+QA地球科学物理科学你比六年级学生聪明吗？面向多模态机器理解的阿尼鲁达·肯巴维<$敏俊·徐<$<$达斯汀·施温克<$崔钟铉<$阿里·法哈迪<$汉纳内·哈吉希尔齐<$华盛顿大学艾伦人工智能研究所†{anik，dustins，jonghyunc，alif}@ allenai.org，§{minjoon，hannaneh}@ washington.edu图1. 多模态机器理解（M3C）范式的概述，建议的教科书问题回答（TQA）数据集的统计数据和它的一个教训的说明。TQA可以在www.example.com下载http://textbookqa.org。摘要我们介绍了多模态机器通信（M3C）的任务，其目的是回答给定的文本，图表和图像的上下文我们提出了教科书问题分类（TQA）数据集，其中包括1,076个教训和26,260多模态问题，从中学科学课程。我们的分析表明，很大一部分问题需要对文本和图表进行复杂的解析和推理，这表明我们的数据集比以前的机器理解和视觉问题回答数据集更复杂。我们将文本机器理解和视觉问题回答的最先进方法扩展到TQA数据集。在实验中显示gvp大部分工作是作者在艾伦人工智能研究所实习时完成的。这些模型在TQA上表现不佳。所提出的数据集为跨多种模态的问题回答和推理研究带来了新的挑战。1. 介绍问答（QA）多年来一直是自然语言处理（NLP）社区的主要研究焦点，最近在计算机视觉社区中也获得了显著的普及。在NLP中有几种QA范式，可以根据用于回答问题的知识进行分类。该知识的范围可以从结构化的和受限的知识库（例如，Freebase [4，3]）到非结构化和无界的自然语言形式（例如，WEB [24]。介于这些方法之间的中间地带是流行的机器理解49995000(MC)[20，18]，其中知识（通常称为上下文）是非结构化的，并且大小限制为一小段。视觉社区中的问题回答（称为视觉问题回答（VQA））已经变得流行，部分原因是基于图像的大型QA数据集的可用性[17，19，29，1，30，9]。从某种意义上说，VQA是一个机器理解任务，其中问题是自然语言形式的，上下文是图像。世界知识本质上是多模态的，分布在文本文档、图像和视频中。一个能够回答关于世界的任意问题的系统必须学会理解这些多模态信息源因此，我们提出了多模态机器理解（M3C）的任务，传统的文本机器理解的多模态数据的扩展在这种范式中，任务是阅读多模态上下文以及多模态问题，并提供答案，该答案也可以是多模态的。这与传统的问题回答任务形成对比，在传统的问题回答任务中，上下文通常是关于单一模态（语言或视觉）的。与VQA范式相比，M3C在建模方面也有优势除了图像本身之外，VQA任务例如，问题“这个人有20/20的视力吗？“从VQA数据集[1]中提取的信息需要系统检测眼镜，然后使用具有完美或20/20视力的人通常不戴眼镜的常识。这种对常识的需求使QA任务更有趣，但也导致了无限的知识资源。由于自动获取常识知识是一项非常困难的任务（有大量正在进行的研究），因此仅在这些数据集的训练分割上训练VQA系统是一种常见的做法。因此，所得到的系统只能期望回答需要隐含地包含在训练分割中的问题内的常识知识的问题。另一方面，M3C所需的知识与这使得知识获取更易于管理，并作为视觉和文本推理的良好测试平台。为了实现这一目标，我们提出了从中学科学课程中提取的教科书问题分类（TQA）数据集（图1）。中学科学中的文本和图表内容参考了世界上发生的相当复杂的现象[13]。我们在第4节中的分析表明，解析这种语言和视觉内容是相当具有挑战性的，在这个水平上，向学生提出的问题中有很大一部分需要推理。这使得TQA成为M3C范例的一个很好的测试平台.TQA由1，076个课程组成，包含78，338个句子和3，455个图像（包括图表）。每一课都有一组可以用课程中TQA数据集有26，260个问题，其中12，567个问题有一个附带的图表，分为训练，验证和测试。我们在第3节中描述了教科书问题分类（TQA）数据集，并在第4节中对课程上下文、问题和答案来源进行了深入分析。我们还在第5节中使用已被证明在其他MC和VQA任务中工作良好这些模型扩展了查询和上下文之间的注意力机制，其中上下文（视觉和文本）适合记忆。我们的实验表明，这些模型并不工作得很好TQA。这大概是由于以下原因：上下文（课程）的长度非常大，训练这种大小的注意力网络（记忆网络[26]）是不平凡的;有许多不同形式的信息需要组合到存储器中。大多数问题不能通过简单的查找来回答，需要来自多个句子和/或图像的信息，并且需要非平凡的推理;目前的多跳推理方法在bAbI [ 25 ]等合成数据上工作得很好，但很难在像这个数据集这样的一般环境中训练。TQA数据集带来的这些挑战使其成为视觉和自然语言社区的宝贵资源，我们鼓励其他研究人员致力于这项具有挑战性的任务。 TQA 可以在http://textbookqa.org下载。2. 背景在过去的几年里，人们对语言和视觉领域的兴趣激增，最明显的是在视觉问答领域这在一定程度上是由于大型图像和视频问答数据集的可用性。DAQUAR数据集[16]是图像领域最早的问题回答数据集之一不久之后，更大的数据集包括COCO-QA[19]，FM- IQA [9]，Visual Madlibs [29]和VQA [1]被发布。这四个数据集中的每一个都从Microsoft COCO数据集获得图像[14]。虽然COCO-QA问题是自动生成的，但其余数据集使用人工标注器编写问题。与我们的TQA数据集相反，在所有这些数据集中，问题都是以自然语言形式出现的，上下文是一幅图像。最近，Zhuet al.发布了Visual7W数据集[30]，除了文本答案外，还包含多个选择的视觉答案。虽然语言和视觉问答领域的大多数过去的作品和数据集都集中在图像上，但研究者也使用视频取得了进展。Tapaswi等人发布了Movie-QA数据集[23]，该数据集要求系统分析电影中的剪辑以回答问题。它们还提供电影字幕、情节和脚本作为广告信息源。5001所呈现的TQA数据集在以下方面不同于上述数据集。首先，语境和问题本质上都是多模态第二，与上述VQA范式（从问题-答案对学习并对问题-答案对进行测试）相反，TQA使用所提出的M3 C范式（阅读上下文并回答问题;从上下文-问题-答案元组学习并对上下文-问题-答案元组进行测试VQA范式通常需要无限的常识知识来回答许多问题，而M3C范式则将所需的知识限制在相应的上下文中。与过去数据集中的自然图像相比，TQA中使用的科学教科书和科学图表科学图表通常表示复杂的概念，如事件或系统，很难在一个单一的自然图像描绘随着中学科学概念在课文中解释因此，TQA作为一个伟大的QA测试床与有限的知识获取和推理。视觉问答（VQA）的早期工作涉及使用递归神经网络对问题进行编码，使用卷积神经网络对图像进行编码，并将它们组合起来回答问题[1，17]。随后，注意力机制在VQA中得到了充分的应用，无论是整个问题还是单个单词都关注图像中的不同块[30，27，28]。最近，[15]在文本和图像之间使用注意力，并展示了它的好处。最近VQA研讨会的获胜者在注意力层使用了多模态紧凑双线性池[8]，而不是常用的元素乘积/级联机制。我们的基线表明，具有标准注意力模型的网络在TQA数据集上的表现并不好，我们在第5节中讨论了可能的解决方案的原因。NLP中的机器理解类似于计算机视觉中几个VQA数据集的可用性，NLP社区在过去几年中引入了几个机器完形填空数据集（要求系统填写从段落中删除的单词），包括CNN和DailyMail[10]以及儿童图书测试[11]，是传统MC任务的良好代理，并且具有自动生成的额外好处更传统的MC数据集（如MCTest [20]）在大小上受到限制，但最近更大的数据集（如斯坦福问题分类（SQuAD）数据集）已经引入了100，000个问题。所采用的其他流行技术是基于具有多跳方法的存储器网络[26，27]，其中注意层之后是查询摘要阶段，然后被馈送到存储器上的多轮注意中。SQuAD数据集的发布为MC的任务提出了许多新方法。我们扩展了Seo等人的方法。[21]，目前在SQuAD排行榜上排名第2，以适应我们的多模式MC任务1。我们的结果表明，在文本问题上，绝对准确率低于其在SQuAD数据集上实现的数字。这与我们在第4节中的分析表明，TQA是相当具有挑战性的，值得进一步研究。3. TQA数据集我们现在描述教科书问题分类数据集，并在第4节中提供深入分析。3.1. 数据集结构教科书问题分类（TQA）数据集来自中学科学课程。它由1,076课生命科学，地球科学和物理科学教科书下载2从http：//www. ck12.org网站。该教材符合国家和州的课程指导方针，并被美国和世界各地的教师和学生积极使用。图1显示了数据集的概述。每一课都包括文本内容，以文本的段落形式，以及视觉内容，由插图和自然图像组成。每节课还配有词汇部分，其中提供了该课中介绍的科学概念的定义，以及通常限于五句话的课程总结，并总结了该课中的关键概念。总共1，076节课包括78，338句话和3，455幅图像。此外，课程还包含在线教学视频的链接（所有课程共有2，156个视频），这些视频通过更多的视觉插图解释了概念。教学图表我们发现教科书中的文本内容非常全面，足以理解课程中提出的概念然而，文本内容和图像标题并没有全面描述图像呈现的教训。因此，这些课程不足以理解概念并用图表回答所有问题我们推测，这种知识差距是由教师在课堂上解释一个概念和一个附带的图表来填补的。注意力机制，主要受Bahdanauetal. [2]在文本MC系统中非常流行。使用注意力有几种变化，包括动态注意力[10，6]，其中时间步长的注意力权重取决于先前时间步长的注意力权重一个-1代码可在allenai.github.io/bi-att-flow2CK-12网站上的所有材料均于2016年8月下载。3教学视频不属于TQA数据集的一部分。我们提供这些链接作为数据集的扩展，以鼓励未来的研究，从教学视频中提取内容。5002白板为了弥补数据集中的这一差距，我们添加了一个小的图表集（通常在三到五个之间），我们称之为教学图表，指的是教科书中有图表问题的课程（第3.2节）。我们还添加了丰富的说明文字，描述了图中所示的科学概念。图1中示出了示例。问题每课都有一组多项选择题，涉及该课所教的概念。选择的数量从两个到七个不等。TQA共有26，260个问题，其中12，567个问题附有图表。在此，我们把有图表的问题称为图表问题，没有图表的问题称为文本问题。数据集拆分TQA在课程级别分为训练集、验证集和测试集。训练集由666个课程和15，154个问题组成，验证集由200个课程和5，309个问题组成，测试集由210个课程和5，797个问题组成。有时，多个课程在他们教授的概念中有重叠在拆分数据之前，已注意对这些经验教训进行分组，以便最大限度地减少数据拆分之间的概念重叠。(a)（b）第（1）款图2. 在TQA数据集中跨课程上下文的（a）句子数量分布（b）图像（包括图表）数量分布。第4.1节进行了讨论。3.2. 数据集管理TQA数据集中的课程是从CK-12网站下载的生命科学、地球科学和物理科学教科书和网络概念中获得的课程包含文本、图像、教学视频链接、词汇定义和课程总结。问题可从网站上的练习册和测验中获得。额外的图表问题和指导性图表是使用众包获得的。图表问题我们的初步分析表明，与文本问题相比，图表问题的数量非常少。在某种程度上，这是由于图表问题更难生成。为了补充这个集合，我们从每节课中获得了一个科学主题列表，将这些作为Google图像搜索的查询，并下载了排名靠前的结果。这些图像被手动过滤成与课程内容相似的图像利用众包技术获得4.每个人类受试者都被提供了完整的课程和图表，并被要求写下一个中学科学问题，需要图表正确回答，并使用提供的课程回答。教学图表我们使用与上述相同的方法，为每节课获得一组教学图表这组图表的丰富说明也是通过众包获得的。每个人类受试者都提供了丰富的标题，课程和图表的例子，并要求使用课程中解释的词汇和科学概念写下丰富的标题4. TQA分析在本节中，我们分析了课程背景、问题、答案以及回答TQA数据集中问题所需的信息内容。4.1. 课程背景图2显示了数据集中各个课程中句子和图像数量的分布。大约50%的课程有5-10个图像，超过75%的课程有50个以上的句子。TQA中的课程长度通常高于过去的MC数据集，如SQuAD [18]，这使得很难将整个上下文添加到内存中，然后注意到它。这表明需要基于信息检索的预处理步骤或分层模型，如分层记忆网络[5]。此外，经验教训和问题的背景的多模态性质提出了新的挑战，值得进一步研究。4.2. 问题文本问题图3（a）显示了数据集中问题长度的分布。这种分布表明，与VQA [1]相比，TQA的问题更长（这里的分布模式为8，而VQA为5）。图3（b）显示了W类问题的分布情况（什么、哪里、何时、谁、为什么、如何和哪些）。有趣的是，其他类别有相当多的问题。进一步的分析表明，在标准练习册中写下的问题中，有很大一部分是断言性陈述，而不是疑问性陈述。这可能是第5节中的基线模型在数据集上表现不佳的另一个原因。图表问题TQA数据集问题中的图表与Kembhavi等人提出的AI2D数据集问题中的图表相似。[13]在因此，我们获得了2，749张图表，分布在85节课中。这些图表的多项选择题是ob-4，我们使用MightyAI来满足这个数据集中的所有众包需求。5003(a)(b)（c）第（1）款图3.对TQA数据集中的问题进行分析。(a)问题长度的分布（b）在7W类别中的分布（c）问题中图表的文本框数量的分布。进一步讨论参见第4.2（c）（d）图4. 对回答TQA数据集中的问题所需的信息范围进行分析。“sent”、“para”、"ctxt“、" q”、“qd”、“img”和“ext”指句子、段落、上下文、问题、图中的问题、图像和外部。(a)文本问题所需的范围。(b)图表问题所需的范围。(c)在需要图表的问题中，需要解析的程度。(d)在需要图表的问题中，仅使用图表的OCR即可回答的问题的百分比第4.3节提供了更多详细信息。内容和复杂性。Kembhavi等人建议使用图表解析图来表示图表，并使用成分和关系的层次表示。我们分析了AI2D，发现图表的复杂性（通过图表中的成分和关系的数量来衡量）与该图表中的文本框数量之间图3（c）显示了TQA数据集中问题中图表上的文本框数量的分布，作为图表复杂性分布的代理这表明问题中的图表相当复杂，下面的进一步分析表明，回答问题通常需要对这些图表进行丰富的解析4.3. 回答问题我们还分析了回答图4中数据集中每种问题类型的问题所需的知识范围该分析由人类受试者对每种类型的250个随机抽样问题进行图4（a）显示了文本问题所需的范围大量的文本问题需要在一个段落中有多个句子才能正确回答，有些问题需要在整个课程中传播信息。这与过去的MC数据集（如SQuAD [18]）形成鲜明对比，其中大多数问题都可以用一句话来图4（b）显示了图表问题的范围。大多数问题都需要解析问题diagram，其中，大量问题还需要文本和图像从上下文。图4（c）显示了在需要图表的情况下，回答问题所需的图表解析程度只有很少的问题可以通过对图的分类来解决，超过50%的问题需要从图中解析出丰富的结构。最后，图4（d）显示，只有不到5%的图表可以通过原始OCR文本简单地回答。这种情况的一个例子是，正确的answer选项位于图像的文本框中，而错误的选项与图表无关。该分析表明，TQA数据集中的问题通常需要以多种形式呈现的多条上下文信息，这使得数据集具有挑战性。4.4. 定性示例True/False数据集中的几个选择题只有2个选择：真与假。正如人们对中学问题所期望的那样，这些不是简单的查找问题，而是需要复杂的解析和推理。图5示出了3个示例。第一个需要关联太高和太低，还需要解析多个句子。第二个要求解析图中的流程图并计算步骤。计数对于当今的QA系统来说是一项非常困难的任务，正如在VQA数据集中所看到的那样[1]。第三个需要将数字短语2/3转换为三分之二，而不是二和三，然后推理三分之二大于三分之一。多项选择图6显示了问题的示例（（5004：t不我：j：t我问：频率太高，人类听不见的声音被称为次声A：错问：珠穆朗玛峰顶部的大气压大约是海平面气压的2/3。答：假的问：工艺设计过程的第一步是确定问题。答：确实如此一支军乐队正沿街行进…频率在20 Hz到20，000 Hz之间的声音。频率低于20赫兹的声音称为次声。频率超过20，000赫兹的声音称为超声波。人类通常能听到图2.13显示了工艺设计过程的步骤。在地球上最高的山峰珠穆朗玛峰上，气压只有海平面气压的三分之图5.TQA中的大多数真/假问题需要复杂的解析和推理，而不是简单的查找（第4.4节）几个有趣的类别。(a)需要丰富的图表解析以及进位的概念。(b)需要多个句子和释义。(c)文本和图表上下文都有帮助。（d）需要多个句子，然后需要一个顺序概念（e）需要多个句子和所有上述内容的概念来汇集结果。有趣的是，这在数据集中是一个很常见的场景。(f)假设问题，也是常见的数据集（g）问题需要类比。(h)需要简单数学的问题。很明显，目前最先进的QA模型并不是为这样复杂的任务而设计的，并且毫不奇怪，在这个数据集上的表现非常差。5. 基线我们现在描述几个基线模型，并报告它们在TQA数据集中的图表和文本问题上的性能。这些基线分别是图问题回答和文本阅读理解的当前最先进模型的扩展。我们从描述纯文本模型开始。文本和图模型具有非常相似的体系结构，可以被认为是纯文本模型的扩展。5.1. 纯文本模型这可能降低性能）。处理这个问题的一个潜在解决方案是使用分层内存网络[5]。在这里，我们选择列表中最相关的段落。我们采用信息检索方法：我们使用每个词的TF-IDF得分来计算每个段落与问题的相关性，并获得具有最高相关性得分的段落。设M∈Rd×T表示所选段落的嵌入，其中T是段落中的字数，而d是每个字的嵌入的大小类似地，令U∈Rd×J和Ci∈Rd×K分别表示问题和每个选择（第i个选择）这里，J是问题词的数量，K是每个答案选择句的数量注意我们使用必要时填充和掩蔽，以考虑答案选项之间的不同单词长度。我们使用长短期记忆（LSTM）[12]将每个句子嵌入段落，问题和答案选项中。这为每个单词提供了相邻的上下文。我们使用（′）来表示LSTM已经应用于每个模态（例如，M′是M的LSTM输出）。然后，我们通过注意力机制从段落中软选择与问题最相关的单词令Stj表示段落的第t个词与问题的第j个词之间的标量相似度，通过下式计算：纯文本模型是对architec的扩展STJ=M′U′，记忆网络的本质[26]它只考虑了特克斯-问题和课程背景的实际部分作为我们其中M′：t是M′的第t个列向量（corre-图4中的分析表明，在大多数情况下，这些信息对于回答文本问题应该足够了，但是对于回答图表问题是不够的。模型的输入是来自课程上下文的段落列表、问题句子和答案选择（2个用于真/假问题，4-7个用于多项选择问题）。目标是在答案选项中输出正确答案。将所有段落放入GPU的内存中通常是禁止的。例如，在一个相对简单的架构中，一个512个单词的段落和一个32的批量大小可以消耗高达12GB的GPURAM每一个les-响应于第t个字的LSTM输出注意-通过a=softmax（ maxcolS）∈RT获得段落词上的权重，其中max在S的列上计算。那么参与向量是M′的列向量的加权和：m=aM′ ∈Rd，不这可以被认为是预测的答案，问题我们将向量与每个选择进行比较。更具体地说，我们计算向量与列上每个C′的子通常包含超过1000个字，因此单个GPU不能包含所有字（或者批量大小应该减小，r=mC′Ki，：k∈R.5005则每个选择的概率是r的softmax，即y∈tmax（r）∈RN，其中N是选择的个数。在训练过程中，我们最小化正确答案选择的负对数概率5.2. 文本+图表模型文本+图模型遵循与纯文本模型类似的架构。唯一的区别是问题和课文在记忆中的模式不同。我们提出了两个图基线模型：Text+Image是VQA范式中最先进模型的扩展，Text+Diagram是Kembhavi等人对DSDP-NET模型的扩展。[13]回答图表问题。文本+图像图像通过VGG网络[22]（在Imagenet [7]上预训练），最后一个卷积层的输出被添加到内存中。输出是512D图像块矢量的7 × 7网格。作为一个简单的基线，这49个矢量可以被认为是问题所指的背景。这类似于VQA范式中采用的流行模型（例如[28]）。我们的扩展涉及以与第5.1节中文本段落的LSTM输出相同的方式处理每个网格向量。为了匹配段落的LSTM输出和网格向量之间的维度，我们使用2个带有tanh激活的感知器层来将每个512 D向量映射到d-dim向量。变换后的向量被连接到LSTM输出，这样除了句子之外，问题还可以关注这些图像块。Text + DPGDiagram Parse Graph（DPG）对图的结构化信息进行编码，通过[13]的解析器获得。正如作者所实践的，DPG可以通过几个翻译规则被翻译成描述图的事实句子。例如，如果“mouse”对象和“cat”对象在DPG中连接，则翻译器产生句子“mouse is connected tocat "。模型的作用是然后，这些产生的句子可以以同样的方式处理的段落句子。段落最初是用这些生成的句子来扩充的;其余部分遵循与5.1节相同的程序。5.3. 机器理解模型我们还报告了最近发布的MC模型（Bioscience）[21]在文本问题上的性能。目前在SQuAD排行榜上排名第二，并拥有公开的代码。由于Birobot最初设计用于预测给定段落（上下文）中的答案范围，因此我们修改其输出层以回答多项选择题。特别地，预测的答案跨度与每个答案选择进行比较，并且选择具有最高相似性的答案作为最终答案。5.4. 基线结果表1显示了上述四种基线模型的性能有趣的是，两个文本模型在T/F问题上的表现都很差。该数据集中的大多数T/F问题不是简单的查找，而是需要释义，多个句子，正确回答的推理（参见图5），标准注意力模型并不擅长。文本模型在多项选择题上表现更好，比随机基线提高了大约10%。我们在第4.3节中的分析和图6中的示例表明，许多多项选择题都很复杂，这解释了基线表现不佳的原因。在图表多项选择（MC）问题上，我们观察到文本+图像模型没有给出超出纯文本模型的值，但文本+DPG模型的表现略好于纯文本模型。这与Kembhavi等人的研究结果一致。在AI2D数据集中[13]。我们在4.3节中的分析表明，大多数图表问题需要丰富的图表解析，并且通常需要整个课程的信息。与我们对文本问题的研究结果相似，这些基线中的标准注意力框架是不一致的。能够处理这种复杂程度我们推测，这主要是由于：（a）与其他MC数据集相比，TQA中的上下文通常较长;（b）将多模式来源装入单一存储器带来了新的挑战;（c）问题通常需要推理，或因上下文而有很大的词汇差异。这为超越合成数据集的多跳推理算法带来了新的挑战。模型灵感来自文本T/F文本MC图MC所有随机N/A50.022.725.028.4纯文字[26]第二十六话50.232.929.933.8文字+图片VQA [1]N/AN/A29.933.8文本+DPG[13]第十三话N/AN/A31.334.6比约恩[第21话]50.432.230.133.7表1.基线结果（%准确度）。参见第5节。6. 结论本文介绍了一种新的任务M3C，它是MC和VQA的扩展.我们将TQA数据集作为测试平台来评估M3C任务.TQA数据集包含1，076节课，26，260个多模态问题。我们的实验表明，MC和VQA的最先进方法的扩展在这个数据集上表现不佳，证实了这个数据集带来的挑战未来的工作包括设计能够解决TQA数据集中M3C任务的系统.鸣谢：这项工作是在部分由ONR N00014-13-1-0720 、 NSF IIS-1338054 、 NSF- 1652052 、 NRI-1637479、NSF IIS-1616112、Allen Dis-曾获美国研究员奖、谷歌研究学院奖、三星GRO奖和艾伦人工智能研究所奖。5006(a) 丰富的图表解析问：这是一根狭长的管子，把食物从咽部送到胃里。a. 嘴b. 唾液腺c. 肝d. 食管(b) 多个句子问：大多数nadh和fadh2是什么时候产生的？a) 糖酵解期间b) 在克雷布斯循环中c) 在电子传递链d) 在细胞呼吸过程(c) 文本和图表问：下列哪个选项列出了从较低频率到较高频率的电磁波a. 无线电波红外线微波b. 紫外线、红外光、X射线c. 红外线紫外线伽马射线d. 可见光、微波、紫外线(d) 的事件问：按对流在地幔中的移动顺序排列。I.向上移动的物质冷却并下沉到地幔中。二. 地幔物质的底层上升并水平扩展三. 靠近地核的地幔物质被加热。四. 地幔的底层变得不那么致密。a) 四、三、二、一b) 三、四、二、一c) 一、二、三、四d) 三、一、四、二光无线电波是所有电磁波中波长最长、频率最低的。.在图的右边是X射线和伽马射线。它们在所有电磁波中具有最短的波长和最高的频率。热流科学家知道... 2.对流：就像炉子上一壶水的对流一样(e) ‘N of Above’问：两栖动物用什么器官来获取氧气？a. 鳃b. 肺c. 皮肤d. 所有上述(f) 假设性的问题问：如果甲虫幼虫的数量减少，蜗牛的数量会发生什么a. 减小b. 增加c. 略有下降d. 保持不变两栖类皮肤在他们狩猎的箭头上下毒两栖动物的皮肤含有角蛋白，这种蛋白质也存在于大多数其他四足脊椎动物的外壳两栖动物的角蛋白并不太坚韧让气体和水通过皮肤。大多数两栖动物幼虫用鳃呼吸，成虫用肺呼吸然而，额外的氧气通过皮肤吸收。(g) 类比问：爱因斯坦的重力概念类似于你把一个保龄球放在蹦床表面时发生的情况在这个类比中，如果保龄球代表地球，那么蹦床的表面代表a) 时空b) 地球引力c) 地球质量d) 名单中没有任何爱因斯坦解释了一切在20世纪初，阿尔伯特·爱因斯坦(h) 简单的数学问：假设一根导线的电阻为1.5欧姆如果电线连接到两个1.5伏的电池，有多少电流会流过电线？a. 3.0安培b. 2.3安培c. 2.0安培d. 1.0安培图6. TQA中有趣的问题类别示例。绿色文本表示正确答案。红色边框的黄色框说明了有助于回答问题的部分课程文本背景。（参见第4.4节）三羧酸循环在有氧条件下，丙酮酸在氧气存在下进入线粒体，进入克雷布斯循环。细胞呼吸的第二阶段是将丙酮酸中的能量（最初是葡萄糖中的能量）转移到两种能量载体NADH和FADH 2中。在这个过程中也会产生少量的ATP。这个过程发生在一个连续的循环中，以其发现者汉斯·克雷布斯的名字命名。克雷布斯循环使用一种2碳分子（乙酰辅酶A），来源于丙酮酸并产生二氧化碳。欧姆定律电压，用欧姆定律计算电流…If通过电线？电流= 12伏= 4安培3欧姆你试试！重力是空间的扭曲，时间，这使得... 相对论5007引用[1] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在ICCV，2015年。二三四五七[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器ICLR，2015年。3[3] J. Berant，A.周河Frostig和P.梁基于自由基的问答对语义分析。载于EMNLP，2013年。1[4] Q. Cai和A.耶茨基于模式匹配和词典扩展的大规模语义分析。在ACL，2013年。1[5] A. P. S. 巴扎尔， S. 安 H. 拉罗谢尔 P·文森特，G. Tesauro和Y.本吉奥。分层记忆网络。CoRR，abs/1605.07427，2016。四、六[6] D. Chen，J. Bolton，and C. D.曼宁cnn/每日邮报阅读理解任务的彻底检查。在ACL，2016年。3[7] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。7[8] A. 福井D.H. 帕克D。Yang，杨树A.Rohrbach，T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在EMNLP，2016。3[9] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？多语言图像问题的数据集和方法。2015年，在NIPS中。2[10] K. M. Hermann，T. Kocisk y'，E. 格雷芬斯特湖埃斯佩霍尔特W. Kay，M. Suleyman和P. Blunsom教机器阅读和理解。2015年，在NIPS中。3[11] F. Hill，A.Bordes，S.Chopra和J.韦斯顿金发姑娘原则：用外显记忆表征阅读儿童书籍。ICLR，2016年。3[12] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。6[13] A. Kembhavi ， M.Salvato ， E.Kolve ， M.J. 徐，H.Hajishirzi和A.法哈迪。一张图表胜过一打图像。在ECCV，2016年。二四七[14] T.- Y. 林， M 。迈尔， S 。 J. 贝隆吉， J.Hays ，P.Perona，D.Ra-manan ， P.Doll a'r 和C. L. 齐特尼克Microsoftcoco ：上下文中的通用对象。 2014 年，在ECCV。2[15] J. Lu，J. Yang，D. Batra和D.帕里克用于视觉问答的分层问题图像共注意在NIPS，2016年。3[16] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。在NIPS，2014。2[17] M.马林诺夫斯基，M。Rohrbach和M.弗里茨问问你的神经元：基于神经的方法来回答有关图像的问题。在ICCV，2015年。二、三[18] P. Rajpurkar，J. Zhang，K. Lopyrev和P.梁Squad：100，000+个文本机器理解问题。在EMNLP，2016。二、四、五[19] M. Ren，J. R. Kiros，和R. S.泽梅尔探索图像问答的模型和数据。2015年，在NIPS中。25008[20] M.理查森角Burges和E.伦肖Mctest：一个开放域机器文本解析的挑战数据集。载于EMNLP，2013年。二、三[21] M. Seo，A. Kembhavi、A. Farhadi和H. Hajishirzi机器理解的双向注意流。在ICLR，2017。三、七[22] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。7[23] M. Tapaswi，Y.朱河，巴西-地Stiefelhagen，A.托拉尔瓦河Urta-sun和S.菲德勒Movieqa：通过问答理解电影中的故事在CVPR，2016年。2[24] M. Wang，N. A.史密斯和T。三田村什么是危险模型？用于QA的准同步语法。载于EMNLP-CoNLL，2007年。1[25] J. Weston，A. Bordes，S. Chopra和T.米科洛夫面向AI-完全问答：一套必备的玩具任务。ICLR，2016年。2[26] J. Weston，S. Chopra和A.博德斯记忆网络。在ICLR，2015年。二三六七[27] C. Xiong，S. Merity和R.索彻用于视觉和文本问题回答的动态记忆网络。InICML，2016. 3[28] H. Xu和K.萨恩科提问、出席并回答：探索视觉问题回答的问题引导空间注意。在ECCV，2016年。三、七[29] L. Yu，E.帕克A. C. Berg和T. L.伯格。目视检查手册：填写空白描述生成和问题回答。在ICCV，2015年。2[30] Y. Zhu，O.格罗斯M.S. Bernstein和L.飞飞Visual7w：在图像中回答问题。在CVPR，2016年。二、三

下载后可阅读完整内容，剩余1页未读，立即下载