没有合适的资源?快使用搜索试试~ 我知道了~
1The Amazing Mysteries of the Gutter的评论:漫画叙事中的面板间推理Mohit Iyyer11Varun Manjunatha11 Anupam Guha1YogarshiVyas1 Jordan Boe-Graber2Hal Daume 'III1 Larry Davis11马里兰大学帕克分校2科罗拉多大学博尔德分校{miyyer,varunm,aguha,yogarshi,hal,lsd}@ umiacs.umd.edujordan.boyd. colorado.edu摘要视觉叙事通常是明确的信息和明智的省略的结合,依赖于观众提供缺失的细节。在漫画中,大多数时间和空间上的运动都隐藏在面板之间的“排水沟”中。为了了解故事,读者通过一个叫做“关闭”的过程,通过推断看不见的动作,将面板逻辑地连接在一起。虽然计算机现在可以描述自然图像中明确描绘的内容,但在本文中,我们将研究它们是否能够理解漫画书面板中风格化艺术品和对话所传达的封闭驱动的叙述。我们构建了一个数据集,COMICS,它由超过120万个面板(120 GB)与自动文本框转换配对组成。对漫画的深入分析表明,文本和图像都不能单独讲述漫画故事,因此计算机必须理解这两种模式才能跟上情节。我们介绍了三个完形填空式的任务,要求模型预测一个小组的叙事和字符为中心的方面,给定n个前面的面板作为上下文。各种深度神经架构在这些任务上的表现低于人类基线,这表明COMICS包含视觉和语言的基本挑战。1. 介绍漫画是由读者的想象力将漫画创作者可以将任何东西,从长达几个世纪的星系间战争到普通的家庭晚餐浓缩到一个单一的面板中。但正是创作者从他们的页面中隐藏的东西使漫画真正有趣:隐藏在相邻面板之间的空间(或排水沟)中的无声对话和看不见的行动。例如,图1中的对话表明,在第二和第三面板之间,吉尔达命令她的蛇追逐受到惊吓的迈克尔,*作者平均贡献图1. 最后一个面板上的蛇是从哪里来的?它为什么咬那个人?第二个面板里的人和第一个面板里的人为了回答这些问题,读者通过在面板上应用闭合,从叙述框、对话框和艺术品中形成更大的意义。一种奇怪的宗教仪式通过一个被称为闭合的过程[40],包括(1)理解单个面板和(2)跨面板进行连接推理,读者从看似不同的面板中形成连贯的故事情节。在本文中,我们研究计算机是否可以做同样的收集漫画书(COMICS)的数据集,并设计了几个任务,需要关闭解决。第2节描述了我们如何创建COMICS,1其中包含1.1。200万个展板来自美国漫画“黄金时代”(1938-1954)出版的近4,000本公开出版的漫画书。与自然图像相比,漫画在风格和内容上都具有挑战性(例如,照片),这是大多数前-数据集和方法[32,56,55]。漫画艺术家与画家一样例如,图2中的狮子是以不同程度的真实感绘制的:越卡通化-1盲态审查后提供的数据、代码和注释71867187书籍数量3,948页数198,657面板数量1,229,664#文本框2,498,657文本完形填空实例89,412视觉完形填空实例587,797Char.相干实例72,313表1. 描述数据集大小的统计数据(顶部)和三个任务中每个任务的总实例数(底部)。图2. 取自漫画数据集的狮子的不同艺术效果图。面向左的狮子比面向右的狮子更卡通(和幽默),后者来自依赖现实主义提供刺激的动作来自幽默漫画的狮,呈现出人类的表情(例如,惊喜,肮脏),而那些从冒险漫画更逼真。漫画不仅仅是视觉上的:创作者通过文本对话气球、思想云和叙事框来推动他们的故事,我们使用光学字符识别(OCR)来识别和转录。文本和图像通常错综复杂地交织在一起,讲述一个既不能单独讲述的故事(第3节)。为了理解一个故事,读者必须将对话和叙述与人物和环境联系起来;此外,文本必须以正确的顺序阅读,因为面板通常描绘长场景而不是单个时刻。文本在漫画中扮演的角色要比它在现有的视觉故事数据集中扮演的角色大得多[25]。为了测试机器在第5节中,我们设计了四种神经结构,以检查多模态和上下文理解通过关闭的影响。所有这些模型在我们的任务中的表现都比人类差得多;最后,我们进行了误差分析(第6节),提出了未来改进的途径。2. 创建漫画书数据集漫画,被漫画家威尔·博纳定义为序列艺术[13],以一系列的面板或可以包含图像和文本的单帧来讲述他们的故事。现有的漫画数据集[19,39]太小,无法训练用于叙事理解的数据饥渴机器学习模型;此外,它们缺乏视觉风格和流派的多样性因此,在本发明中,我们建立了自己的数据集,漫画,通过(1)下载公共领域的漫画,(2)将每个页面分割成面板,(3)从面板中提取文本框位置,(4)在文本框上运行OCR表1总结了漫画的内容。本节的其余部分将描述数据创建管道的每个步骤2.1. 我们的漫画从何而来“漫画的黄金时代”开始于美国的大萧条时期,一直持续到第二次世界大战,并在20世纪50年代中期随着严格的审查制度的通过而结束。与后来流行的长篇、构建世界的故事弧线相反,黄金时代的漫画往往是小而独立的;一本书通常包含共享共同主题的多个不同故事(例如,犯罪或神秘)。虽然最畅销的黄金时代漫画讲述了美国超级英雄战胜德国和日本恶棍的故事,但其他各种类型(如浪漫,幽默和恐怖)也很受欢迎[18]。数字漫画博物馆(DCM)2托管用户上传的许多漫画扫描由鲜为人知的黄金时代出版商,现在在公共领域由于版权到期。由于扫描的分辨率和质量各不相同,为了避免出现不对称图像和缺页,我们从DCM下载了4,000本评价最高的漫画书。32.2. 将漫画分解为基本元素DCM漫画以JPEG页面扫描的压缩存档形式分发。为了分析从面板到面板发生的关闭,我们首先从页面图像中提取面板接下来,我们从面板中提取文本框,因为文本框的位置和内容对于字符和叙事理解都很重要面板分割:之前的面板分割工作使用了密度梯度法[34]或 算 法 ( 如 密 度 梯 度 法 和 递 归 切 割 法 [52 , 43 ,48]),这些算法依赖于具有均匀白色背景和干净沟槽的页面。不幸的是,80年前的漫画扫描图像2http://digitalcomicmuseum.com/漫画中的一些版面包含反映美国历史上那个时期的攻击性漫画和观点。7188不特别遵守这些标准;此外,许多DCM漫画具有非标准的面板布局和/或文本框,其跨越沟槽延伸到多个面板。在我们尝试使用现有的面板分割软件失败后,我们转向了深度学习。我们从我们的数据集中随机选择了500个页面,并为面板添加了直角边界框。每个边界框包围面板插图和面板内的文本框;在文本框跨越多个面板的情况下,我们还必须包括相邻面板的部分。标注后,我们训练一个基于区域的卷积神经网络来自动检测面板。特别是,我们使用FasterR-CNN [45],使用预训练的VGG CNN M 1024模型[9]初始化,并交替优化区域建议网络和检测网络。在西方漫画中,面板通常是从左到右,从上到下阅读的,所以我们还必须在提取后正确排序页面中的所有面板。我们计算每个面板的中点,并使用Morton或- der [41]对它们进行排序,该方法仅对罕见和复杂的面板布局进行错误排序。文本框分割:由于我们对文本和艺术品之间的相互作用建模特别感兴趣,我们还需要将每个面板中的文本转换为机器可读的格式。4与面板分割一样,现有的漫画文本框检测算法[22,47]无法准确地定位我们数据的文本框。 因此,我们再次重新排序为FasterR-CNN:我 们为 文本 框注 释了 1,500 个 面板 , 5训 练Faster-R-CNN,并使用Morton顺序对每个面板中提取的文本框进行排序。2.3. OCR我们数据创建管道的最后一步是将OCR应用于提取的文本框图像。我们尝试了两个可训练的开源OCR系统,Tesseract [50]和Ocular [6],以及Abbyy的消费级FineReader,但这些系统的无效性可能是由于漫画字体的相当大的变化以及与预先训练的语言模型的域不匹配(漫画文本总是大写,对话现象,如方言可能无法在训练数据中充分Google虽然它有时很难检测到简短的单词或标点符号,但翻译的质量很好。4或者,文本定位和识别模块[27]可以内置到我们下游任务的架构中,但由于漫画对话可能相当长,这些模块可能会表现不佳。5我们区分叙述和对话;前者通常出现在每个面板顶部的严格矩形框中,包含描述或介绍新场景的文本,而后者通常出现在讲话气球或思想云中。6http://www.abbyy.com7http://cloud.google.com/vision考虑图像的域和质量。我们使用Cloud Vision API在所有250万个文本框上运行OCR,成本为3,000美元。我们通过删除系统性拼写错误(例如,无法识别单词的第一个字母)。最后,我们数据集中的每本书都包含三到四个整版的产品广告;由于它们与我们的目的无关,因此我们在transmittance上训练分类器以去除它们。83. 数据分析在本节中,我们将探讨是什么使得理解漫画中的叙事变得困难,特别关注面板内行为(图像和文本如何在面板内交互)和面板间转换(叙事广告如何从一个面 板 到 下 一 个 面 板 ) 。 我 们 使 用 Scott McCloud 的“Understanding Comics”[ 40 ]中的注释方案的修改版本来表征面板和过渡超过90%的面板依赖于文本和图像来传递信息,而不仅仅是使用单一的模态。关闭也很重要:为了理解面板之间的大多数转换,读者必须做出通常需要常识的复杂推断(例如,连接空间和/或时间上的跳跃,识别何时将新的字符引入现有场景)。我们的结论是,任何模型训练,以了解叙事流漫画将有效地捆绑在一起,通过关闭多模态输入。为了进行分析,我们手动注释250个随机选择的漫画连续面板对。一对面板中的每个面板都被注释为面板内行为,而面板间注释被分配给面板之间的过渡。两个注释者独立地对每一对进行分类,当他们不同意时,第三个注释者做出最后的决定。我们使用四个面板内类别(来自McCloud的定义,来自我们注释的百分比):1. 特定于单词,4.4%:图片说明,但不会显著增加基本完整的文本。2. 特定于图片的,2.8%:这些文字只不过是在视觉上讲述的序列中添加了一个配乐。3. 平行,0.6%:文字和图片似乎遵循非常不同的路线,但没有交叉。4. 相互依赖,92.1%:文字和图片携手并进,传达一个想法,既不能单独传达。我们将面板间过渡分为五类:1. 瞬间,0.4%:几乎没有时间在面板之间传递,就像视频中的相邻帧一样。2. 动作间(34.6%):相同的受试者在同一场景中通过一个动作取得进展。8有关我们的后处理的详细信息,请参阅补充材料。7189面板内词语特异性:4.4%图片特定:2.8%平行:0.57%相互依赖:92.1%持续对话:17.7%场景到场景:13.8%行动对行动:34.6%受试者对受试者:32.7%即时交易:0.39%图3. 五个例子面板序列从漫画,一个为每一种类型的面板间的过渡。各个面板边框采用颜色编码,以匹配其面板内类别(左下角的瞬间到瞬间的转换就像电影中的画面一样展开,而场景到场景的转换则由叙事框松散地串在一起漫画类型是指在漫画的注释子集中过渡或面板类型的相对普遍性。3. 主体对主体,32.7%:新的主体被引入,同时停留在相同的场景或想法。4. 场景到场景,13.8%:两个面板之间的时间或空间发生重大变化。5. 继续对话,17.7%:受试者继续跨面板进行对话,没有任何其他变化。两个注释者同意96%的组内注释(Cohen的κ = 0。657),这并不奇怪,因为几乎每个面板都是相互依赖的。面板间的任务要困难得多:一致性仅为68%(Co-hen的κ = 0. 605)。面板转换更加多样化,因为除了瞬间转换之外的所有类型都相对常见(图3);有趣的是,瞬间转换需要的闭合量最少,因为面板之间的时间或空间几乎没有变化。在同一个小组中可能发生多个转换类型,如主体和行为的同时转换,这也是导致小组间一致性较低的原因。4. 测试闭包的任务为了探索封闭的漫画,我们设计了三个新的任务(文本完形填空,视觉完形填空和字符连贯性),测试模型的能力,理解叙述和字符给定的几个面板的上下文如前一节的分析所示虽然他们的目标不同,但这三项任务遵循相同的格式:给定前面的面板pi-1,pi-2,. . . ,pi−n作为kxt,模型被用来预测面板pi的某些方面。 虽然以前的工作关于视觉故事讲述的重点是在给定一些上下文的情况下生成文本[24],漫画中对话沉重的文本使得评估变得困难(例如,方言,语法变化,许多罕见的单词)。我们希望我们的评估特别关注闭包,而不是生成的文本质量,所以我们使用了一个完形填空风格的框架[53]:给定c候选项,只有一个正确的选项,模型必须使用上下文面板将正确的候选项排在其他候选项之前。本节的其余部分将详细描述这三项任务中的每一项;表1提供了上下文面板数量n = 3的每个任务的总实例。文本完形填空:在文本完形填空任务中,我们要求模型在给定上下文面板(文本和图像)以及当前面板图像的情况下,预测一组候选文本中的哪些文本属于虽然最初我们没有对任务设计施加任何限制,但我们很快注意到了两个主要问题。首先,由于面板图像包括文本框,因此在此任务上训练的任何模型原则上都可以通过将文本候选与文本的实际图像进行匹配来粗略地模仿OCR为了解决这个问题,我们将9其次,面板通常有多个文本框(例如,人物之间的对话);专注于面板间的转换,9为了减少模型将候选长度与文本框大小无关的机会,我们删除了非常短和非常长的候选。7190谢谢老前辈!我叫斯科蒂。蝙蝠会我是说有我们,当然!告诉你他们从哪里来听说过蝙蝠吗?从?我叫斯科蒂。 我是警长。 意思是你从来没有听说过蝙蝠?谢谢老前辈! 蝙蝠会抓住我们的,当然!他们从哪里来的?字符连贯视觉完形填空图4. 在字符连贯性任务(上)中,模型必须对最后一个面板中的对话进行排序,而视觉完形填空(下)需要选择符合给定上下文的面板图像。出于可视化的目的,我们显示了原始的上下文面板;在模型训练和评估期间,每个面板中的文本框都被涂黑。与面板内复杂性相比,我们将Pi限制到仅包含单个文本框的面板因此,除了艺术品之外,当前面板中的任何内容都不重要;大多数预测信息来自先前的面板。视觉完形填空:我们从第三节中知道,在大多数情况下,文字和图像相互依赖地讲述一个故事。在视觉完形填空任务中,我们遵循与文本完形填空相同的设置,但我们的候选人是图像而不是文本。一个关键的区别是,模型没有从最终面板的文本;在文本完形填空中,模特们可以看最后一组的插图。这种设计的动机是单面板漫画中的眼动追踪研究,该研究表明读者在阅读文本之前先看艺术作品[7],尽管非典型字体风格和文本长度可以颠倒这种顺序[16]。性格连贯性:虽然前两项任务-第三个任务主要针对叙事结构,试图通过重新排序任务来分离人物理解。给定来自面板pi中的文本框的一组混乱的文本,模型必须学会将每个候选项与其对应的文本框相匹配。我们将此任务限制为包含前两个对话框的面板(不包括叙述框,以将任务集中在字符上)。虽然通常很容易仅基于语言对文本进行排序(例如,“怎么样”总是在“很好,你呢?“),许多情况需要基于人物先前的话语和他们的外表来推断哪个人物可能说出特定的对话(例如,图4,顶部)。4.1. 任务难度对于文本完形填空和视觉完形填空,我们有两种难度设置,这两种难度设置在如何选择完形填空候选项方面有所不同在简单的设置中,我们从整个COMICS数据集中随机抽取文本框(或面板图像)。在简单的设置中,大多数不正确的candidates与所提供的上下文无关,因为它们来自完全不同的书籍和流派。因此,这种设置更容易让模型通过依赖风格指示符而不是上下文信息来“欺骗”。话虽如此,这项任务仍然是不平凡的;例如,许多简短的对话可以应用于各种场景。在困难的情况下,候选项来自附近的页面,因此模型必须依赖于上下文才能良好地执行。对于文本完形填空,所有的候选人都可能提到相同的字符名称和实体,而颜色方案和纹理变得不那么明显的视觉完形填空。5. 模型实验为了衡量深度学习模型的这些任务的难度,我们将多模态语言和视觉理解任务的强基线调整为漫画主题。我们评估了四种不同的神经模型,其中的变体也用于对Visual Question Questioning数据集进行基准测试[2],并对视觉故事的上下文进行编码[25]:纯文本,纯图像和两个图像-文本模型。我们性能最好的模型使用分层LSTM架构对面板进行编码(参见图5)。7191LSTMLSTMLSTM-爱丽丝! 我到处找你!-ReLUReLUReLU你好孩子!独自一人?z1LSTMLSTMz1LSTMLSTMz+3t11t12t11t12t4z4图5. 图像-文本结构应用于文本完形填空任务的实例。在分层LSTM架构中,预训练的图像特征与学习的文本特征相结合,以形成上下文表示,然后用于对文本候选进行评分。在文本完形填空中,当模型除了文本之外还被赋予图像(以预训练的VGG-16特征的形式)时,准确率增加;在其他任务中,合并两种模式不太重要。此外,对于文本完形填空和视觉完形填空任务,模型在硬集上的表现远不如在易集上的表现,这证实了我们的直觉,即当我们控制候选人之间的文体差异时,这些任务是不平凡的最后,没有一个架构优于人类基线,这证明了理解漫画的困难:从自然图像训练的模型中获得的图像特征无法捕捉艺术风格的巨大变化,并且文本模型与高度依赖于视觉上下文的口语对话的丰富性和模糊性作斗争。在本节的其余部分,我们首先介绍一个共享符号,然后使用它来指定我们所有的模型。5.1. 模型定义在我们所有的任务中,我们都被要求对一个特定的面板进行预测,给定前面的n个面板作为背景。10.每个小组由三个不同的部分组成:图像、文本(OCR输出)和文本框边界框坐标。 对于任何面板pi,对应的图像是zi。由于每个面板可以有多个文本框,因此我们引用单个文本框内容和边界框文本/边界框对,{ta1/ba1,ta2/ba2}和{ta1/ba2,ta2/ba1}。 我们的架构主要在编码函数g上有所不同,该编码函数g将上下文pan-els的序列pi-1,pi-2,. . . ,pi−n转换为固定长度的向量c。我们通过将答案候选者的内积与c相乘并用softmax函数进行归一化来对答案候选者进行评分s=softmax(ATc),(1)并且我们最小化相对于地面真实标签的交叉熵损失11纯文本:纯文本基线只能访问每个面板中的文本tix。我们的g函数在多个级别上编码此文本:我们首先用单词嵌入和12计算每个tix的表示,然后使用面板内LSTM将同一面板内的多个文本框组合在一起[23]。最后,我们将面板级表示馈送到面板间LSTM,并将其最终隐藏状态作为上下文表示(图5)。对于文本完形填空,候选答案也用词嵌入和进行编码;对于视觉完形填空,我们将VGG-16的4096-d fc 7层向下投影到具有全连接层的单词嵌入维度。1311在使用对比最大边际损失函数[51]代替我们的softmax替代方案的开发集上,性能略有下降。作为tix和bix。我们的每一项任务都有不同的-[12]与以前的视觉问答工作一样[57],我们观察到没有答案的候选人一个:文本完形填空有三个文本候选人一个1. 3、视觉完形填空有三个图像候选人za1. 3、字符连贯有两个组合:10所有任务的测试和验证实例都来自训练期间看不到的漫画书更复杂的编码架构带来了显著的改进。[13]对于训练和测试,我们使用三个背景面板和三个候选项。我们使用30,000个单词的词汇量,将每个面板的最大文本框数量限制为3个,并将单词嵌入和LSTM隐藏状态的维度模型使用Adam [29]优化10个epoch,之后我们在开发集中选择性能最好的模型7192模型文本完形填空视觉完形填空字符。科恩轻松轻松设置;我们假设,困难的情况下,需要移动远离预训练的图像特征,并转移学习-在这里,方法可能是有效的差异性格连贯性的模型是次要的;我们怀疑更复杂的注意力结构,利用边界框位置b1x是“跟随”语音所必需的表2. 在神经架构中结合图像和文本,提高了他们预测漫画叙事中下一个图像或对话的能力。出现在前置面板中的上下文信息对所有任务都很有用:仅查看单个面板(NC-图像-文本)的模型总是不如其上下文感知的对应物。然而,即使是表现最好的模型也远远落后于人类。仅图像:仅图像基线更简单:我们将每个上下文面板的fc7特征提供给LSTM,并使用与之前相同的目标函数来对候选者进行评分。对于视觉完形填空,我们在评分之前将上下文和答案表示投影到512-d中,并添加了完全连接的层。虽然COMICS数据集肯定很大,但我们并没有尝试从头开始学习视觉特征,因为我们的任务特定信号远比简单的图像分类复杂得多。我们还尝试微调VGG-16 [4]的较低级别层;然而,即使微调层的学习率非常小,这也会大大降低任务的准确性图像-文本:我们通过将面板内LSTM的输出与图像的fc 7表示连接起来,并将结果传递给一个完全连接的层,然后将其馈送到面板内LSTM,从而将前两个模型结合起来(图5)。对于文本完形填空和字符一致性,我们还试验了一种无法访问上下文面板的图像-文本基线变体,我们称之为NC-图像-文本。在该模型中,评分函数计算pi的图像特征与文本候选之间的内积。146. 误差分析表2包含了我们完整的实验结果,我们在这里简要总结在文本完形填空中,图像-文本模型占主导地位。然而,文本对视觉完形填空的帮助要比文本完形填空小得多,这表明视觉相似性在视觉完形填空中占主导地位。有了前面的面板的背景有助于全面,虽然改善是较低的硬设置。在简单的模型中,[14]我们不能将这个模型应用于视觉完形填空,因为我们不被允许接触pi中的插图。泡泡尾巴的人。我们还将所有模型与人类基线进行比较,其中作者手动解决了每个任务的100个实例(在硬设置中),给定了馈送到神经架构的相同预处理输入。大多数人为错误是OCR质量差的结果(例如,拼写错误的单词)或低图像分辨率。人类轻松地超越了所有模型,这使得研究计算机失败而人类成功的地方是值得的。图6中的顶行演示了一个实例(来自简单文本完形填空,其中图像帮助模型做出正确的预测。纯文本模型不知道面板序列中存在飞机(这里称为“船”),因为上下文面板中的对话没有提到它。相比之下,图像-文本模型能够使用艺术品来排除两个不正确的候选者。图6中最下面的两行显示了硬文本完形填空实例,其中图像-文本模型被最后一个面板中的插图欺骗了。虽然中间一行的最后一个面板确实包含了看起来像小溪的东西类似地,相机拍摄最后一行的打斗场景;模型选择描述打斗的候选日期,而不是关注场景发生的上下文。这些例子表明,上下文信息被文本和图像之间的强关联所覆盖,激励架构通过利用外部世界知识来确定话语在给定情况下是否真正合适,从而超越相似性。7. 相关工作我们的工作涉及三个主要领域:(1)需要语言和视觉理解的多模态任务,(2)专注于非自然图像的计算方法,以及(3)表征基于语言的叙述的模型。深度学习重新激发了人们对视觉和语言联合推理的兴趣。MS COCO[35]和Visual Genome [31]等数据集已启用图像标题[54,28,56]和视觉问答[37,36]。与我们的角色连贯性任务类似,研究人员已经建立了将电视节目角色与他们的形象相匹配的模型,[15][21 ][22][23][24][25]最接近我们自己的漫画书设置的是视觉故事讲述任务,其中系统必须生成[24]或重新排序[1]故事给定照片数据集(SIND),随机33.333.333.333.350.0纯文本63.452.955.948.468.2仅图像51.749.485.763.270.9NC图文63.159.6--65.2图文68.661.081.359.169.3人类–84–88877193猫鱼溪监狱正确候选人不正确候选人剪贴画数据集中的Mantic场景属性,坚持住,埃娃一号-我们不适合喝酒!枪击开始了你就谢谢,LemAhShoNuff将这是巫术黑魔法打倒他,伙计们!为什么我可能会被谋杀!在有限的各种设置中的角色和对象。 Ap-深度学习对绘画的应用包括检测油画中的物体[11,12]和回答有关艺术品的问题[20]等任务。以前的漫画计算工作主要集中在提取元素,如面板和文本框[46];除了第2节中的参考文献,还有大量关于漫画的分割研究[3,44,38,30]。据我们所知,我们是第一个对漫画书中的内容进行计算建模的公司,而不仅仅是提取它们的元素。 我们遵循以前的工作,在语言为基础的叙事理解;与我们的文本完形填空任务非常相似的是“故事完形填空测试”[ 42 ],其中模型必须预测一个简短(四句长)故事的结尾。就像我们的任务一样,故事完形填空测试对计算机来说是困难的,并激发了未来对常识知识获取的研究。其他人研究了小说中的人物[14,5,26]和叙事结构[49,33,88. 结论今后的工作我们呈现了COMICS数据集,其中包含来自“黄金时代”漫画书的超过120万个面板。我们设计了三个关于漫画的完形填空式任务来探索闭合,或者读者如何将不同的面板连接成连贯的故事。使用不同神经架构的实验,以及手动数据分析,证实了结合文本和图像的多模态模型对于漫画理解的重要性我们还表明,上下文是至关重要的预测叙事或字符为中心的方面的面板。然而,为了让计算机达到人类的性能,它们需要更好地利用上下文。读-图6. 三个文本完形填空的例子,从发展集,显示了一个单一的面板的背景(框候选人是预测的文本图像模型)。最上面一行的飞机插图帮助图像-文本模型选择正确的答案,而纯文本模型则因为对话缺乏上下文信息而失败。相反,下面的两行显示了图像-文本模型,它忽略了上下文,而选择了一个候选项,该候选项提到了最后一个面板中视觉上存在的东西。Flikr画廊的“故事”的事件,如婚礼和生日聚会。SIND漫画是由熟练的专业人士创作的,而不是众包工人,他们提供了更多以角色为中心的故事,这些故事依赖于对话来进一步叙述;也就是说,由于OCR错误,漫画中的文本不太适合生成。我们在这里建立在以前的工作,试图了解非自然的图像。Zitnick等人[58]第五十八话用户依赖常识知识来理解戏剧场景和相机变化;我们如何将这些知识注入到我们的模型中?另一个潜在的诱人方向,特别是考虑到生成对抗网络的最新进展[17],是在给定对话的情况下生成艺术品(反之亦然)。最后,漫画为迁移学习提供了一个千载难逢的机会;我们能像人类一样训练模型来概括自然和非自然图像吗?9. 致谢我们感谢匿名评论者的深刻评论,以及UMIACS和Google Cloud Sup- port 工 作 人 员 对 OCR 的 帮 助 。Manjunatha 和 Davis 得 到 了 海 军 研 究 办 公 室 拨 款 N000141612713 的 支 持 , 而 Iyyer 、 Boean-Graber 和Daume得到了NSF拨款IIS-1320538的支持。此处表达的任何观点、发现或结论均为作者的观点,不一定反映申办者的观点我想我会...很棒的枪!另一艘船!黑罩克服天蝎座7194引用[1] H. Agrawal、A. Astrasekaran,D. Batra,D.帕里克,还有M.班萨尔排序故事:将杂乱的图像和标题排序到故事中。自然语言处理中的经验方法,2016年。7[2] S. 安托尔,A. 阿格拉瓦尔J. Lu,M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa:可视化问答。2015年国际计算机视觉会议。5[3] Y.阿拉迈基岛Matsui,T. Yamasaki和K.相泽漫画的互动分割在计算机图形学和交互技术会议特别兴趣小组,2014年。8[4] Y. 艾塔尔湖 卡斯特雷洪角 Vondrick,H. Pirsiavash,以及A.托拉尔巴跨模态场景网络。arXiv,2016. 7[5] D. Bamman,T. Underwood和N. A.史密斯文学品格的贝叶斯混合效应模型。在计算语言学协会的会议记录,2014年。8[6] T. Berg-Kirkpatrick,G.Durrett和D.克莱恩历史文件的无监督转录。在计算语言学协会的会议记录,2013年。3[7] P. J. Carroll,J.R. Young和M.S. 古丁漫画的视觉分析:从远处看眼动和视觉认知。Springer,1992年。5[8] N. Chambers和D.朱拉夫斯基叙述图式及其参与者的无监督学习在计算语言学协会的会议记录,2009年。8[9] K. Chatfield,K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节:深入研究卷积网。在2014年英国机器视觉会议上。3[10] N.科恩时间和转换的限制:挑战序列图像理解理论漫画研究,1(1),2010年。2[11] E. Crowley和A.齐瑟曼。最新技术水平:使用区分区域的绘画中的对象检索。在2014年英国机器视觉会议8[12] E. J. Crowley,O. M. Parkhi和A.齐瑟曼。表面涂漆:用照片查询艺术品。2015年英国机器视觉会议。8[13] W. 艾斯纳漫画连续艺术。出版社:Poorhouse Press,1990。2[14] D. K. Elson,N. Dames和K. R.麦基翁从文学小说中提取社交网络。在计算语言学协会的会议记录,2010年。8[15] M. Everingham , J.Sivic 和 A. 齐 瑟 曼 。 你 好 啊 ! 我叫...Buffy2006年英国机器视觉会议论文集7[16] T. Foulsham,D. Wybrow和N.科恩 不带字的阅读:连环画理解中的眼动。应用认知心理学,30,2016。5[17] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展论文集,2014年。8[18] R.古拉特漫画百科全书:漫画宇宙中人物,图形小说,作家和艺术家的终极指南。HarperCollins,2004年。2[19] C. Gu e'rin,C. Rig aud,A. Mercie r,F. 安·玛·布杰拉尔,K. Bertet,A. Bouju,J.- C.布里湾路易斯,J。M. Ogier和A.狂欢eBDtheque:漫画的代表性数据库。在2013年的文件分析和识别国际会议上。2[20] A. Guha,M. Iyyer和J.博伊-格雷伯一个扭曲的头骨位于底部中心:从文字中辨认出画作。在NAACL人机问答研讨会,2016年。8[21] M. Haurilet,M.塔帕斯维角Al-Halah和R. Stiefelhagen通过观察和分析对话来理解电视人物。在2016年IEEE计算机视觉应用冬季会议上7[22] A. K. N.霍杰C. Burie和J. - M.奥吉尔从漫画书中提取的小 组 和 演 讲 气 球 。 IAPRInternational Workshop onDocument Analysis Systems,2012。3[23] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,1997年。6[24] T.- H. K. Huang,F. Ferraro,N. 穆斯塔法扎德岛米斯拉A. Agrawal,J.德夫林河格希克,X。他,P。Kohli,D.Batra等人视觉故事。在计算语言学协会北美分会会议上,2016年。四、七[25] T. K. Huang,F.Ferraro,N.穆斯塔法扎德岛米斯拉A. Agrawal,J.德夫林河B. 格希克,X。他,P。Kohli,D.巴特拉角L. Zitnick,D.帕里克湖Vanderwende,M.厨房,和M.米切尔视觉故事。在计算语言学协会北美分会上,2016年。二、五[26] M. Iyyer,A. 古哈 查图维迪博伊德-格雷伯公司,还有H.道姆三世。不和的家庭和以前的朋友:动态虚构关系的无监督学习。在计算语言学协会北美分会会议上,2016年。8[27] M. Jaderberg,K. Simonyan、A. Vedaldi和A.齐瑟曼。使用卷积神经网络在野外阅读文本国际计算机视觉杂志,116(1),2016。3[28] A. Karpathy和F.李用于生成图像描述的深度视觉语义对齐。在IEEE计算机视觉和模式识别会议上,CVPR2015,波士顿,MA,美国,2015年6月7日至12日。7[29] D. Kingma和J. BA. Adam:一种随机优化方法。在2014年学习表征国际会议上6[30] S. Kovanen和K.相泽一种确定漫画文本气泡阅读顺序的分层方法. 2015年国际图像处理会议。8[31] R. Krishna,Y.Zhu,O.Groth,J.约翰逊,K。Hata,J.克拉维茨S. Chen,Y.卡兰蒂迪斯湖J. Li,D. A. Shamma,M.Bernstein和L.飞飞可视化基因组:使用众包密集图像注释连接语言和视觉。2016. 7[32] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在7195Proceedings of Advances in Neural Information ProcessingSystems,2012。1[33] W. G. 莱纳特情节单位和叙述性总结。《齿轮科学》,5(4),1981年。8[34] L. Li,Y.Wang,Z.Tang和L.高. 基于多边形检测的漫画页面自动多媒体工具和应用,69(1),2014年。2[35] T.林,M。迈尔,S。贝隆吉湖D.布尔代夫河B.吉尔希克,J。海斯角Perona,D. 拉马南山口 Doll a'r和C. L. 齐特尼克Microsoft COCO:上下文中的通用对象2014年7[36] J. Lu,J. Yang,D. Batra和D.帕里克视觉问答的分层问题-图像共同关注,2016年。7[37] M.马林诺夫斯基,M。Rohrbach和M.弗里茨问问你的神经元:基于神经的方法来回答有关图像的问题。在计算机视觉和模式识别,2015年。7[38] Y.松井漫画加工面临的挑战:基于草图的漫画检索。2015年第23届ACM多媒体年会论文集。8[39] Y. 松井K.伊藤,Y.Aramaki,T.Yamasaki和K.相泽使用manga109数据集进行基于草图的漫画检索arXiv预印本arXiv:1510.04389,2015。2[40] S.麦克劳德理解漫画。HarperCollins,1994年。第1、3条[41] G. M.莫尔顿面向计算机的大地测量数据库和文件排序新技术。国际商业机器公司,1966年。3[42] N. Mostafazadeh,N.钱伯斯,X。He,D. Parikh,D.巴特拉湖Vanderwende,P. Kohli和J.艾伦语料库和完形填空评估,以加深对常识性故事的理解。在2016年计算语言学协会北美分会会议上。8[43] X. 庞湾,澳-地曹河,巴西-地W. Lau和A.B. 陈一种鲁棒的漫画面元提取方法。ACM International Conference onMultimedia,2014。2[44] X.庞湾,澳-地曹河,巴西-地W. H. Lau和A. B.陈一种鲁棒的漫画面元提取方法。ACM International Conferenceon Multimedia,2014。8[45] S. Ren,K.赫利河Girshick和J.太阳更快的R-CNN:用区域建议网络进行实时目标检测。神经信息处理系统进展论文集,2015年。3[46] C.里戈漫画图像中复杂物体的分割与识别。博士论文,拉罗谢尔大学法国,2014年。8[47] C.里 戈 ,J. - C.布 里 ,J. - M.奥 吉 尔D.Karatzas,以及J. Van de Weijer.一种用于漫画中语音平衡检测的活动轮廓模型。在2013年的文件分析和识别国际会议上。3[48] C. Rig aud,C.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功