多主题知识丰富的艺术描述生成

2 浏览量更新于2023-10-14 收藏 18.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

54220向我解释这幅画：多主题知识丰富的艺术描述生成0Zechen Bai * Yuta Nakashima 1 Noa Garcia 101 大阪大学0zechenbai@outlook.com n-yuta@ids.osaka-u.ac.jp noagarcia@ids.osaka-u.ac.jp0摘要0你是否曾经看着一幅画想知道背后的故事是什么？本研究提出了一个框架，通过生成细致的艺术品综合描述，将艺术品更贴近人们。然而，为艺术品生成信息丰富的描述是非常具有挑战性的，因为它需要1）描述图像的多个方面，如风格、内容或构图，以及2）提供关于艺术家、他们的影响或历史时期的背景和上下文知识。为了解决这些挑战，我们引入了一个多主题和知识丰富的艺术描述框架，根据三个艺术主题对生成的句子进行模块化，并通过外部知识增强每个描述。该框架通过详尽的定量和定性分析以及比较人工评估进行验证，展示了在主题多样性和信息真实性方面的出色结果。01. 引言0对于普通大众来说，艺术往往被认为是一门神秘而遥远的学科，需要大量的学习才能完全欣赏。近年来，许多努力已经被投入到将人工智能技术应用于艺术领域，以使其更易接近[16]。由于全球各地艺术品的大规模数字化[22, 66, 49,61]，计算机视觉技术已被广泛应用于解决不同的与艺术相关的问题[30, 45, 11, 20, 44, 34, 8, 59, 18,69]。该领域的大部分现有工作都集中在绘画的自动分析上，解决诸如属性预测[45, 59]、内容分析[11,21]或风格识别[29, 54,30]等问题。然而，目前还缺乏向普通大众传达艺术品深入和全面信息的研究。换句话说，大多数以前的工作只允许人们通过提供一个与风格或内容相关的单一标签来理解艺术品的一个独特方面。0* 在大阪大学远程实习期间完成的工作。0现实世界图像0艺术绘画图像0图像0字幕生成者0艺术0描述者0（背景）瓦萨里的记载说，西尼奥雷利想在裸体的基督形象中表达他自己的儿子，他在1502年死于瘟疫。（内容）在绘画的中间，有一个虚幻的景观，明亮而...（形式）由于其尺寸和生动性，它给观察者带来巨大的震撼...0（事实性）一个年轻男孩正在滑板上表演技巧。0外部0知识0瓦萨里西尼奥雷利哀悼 1502基督科尔托纳...0图1.艺术描述生成。标准图像字幕（上）与艺术图像描述生成（下）的比较。标准图像字幕通常生成一个单一的事实自然句子来描述现实世界图像的内容，而我们的艺术图像描述包含多个句子，从不同的艺术角度解释一幅艺术作品。0通过提供一个单一的标签，通常与其风格或内容相关联，来理解艺术品的一个独特方面。0然而，对艺术的真正理解远比能够成功地将每件作品归类为一组预定义标签要复杂得多。每幅艺术作品的内容、形式和背景之间的复杂关系在简单的分类过程中无法得到。在这项工作中，我们通过提出从多个艺术角度自动生成绘画的丰富描述来在艺术理解和可访问性领域迈进一步。我们提出了一个多主题和知识丰富的艺术描述生成框架，可以对绘画的不同方面提供详细的解释。这样的服务将促进公众与艺术品之间更深入的互动，同时还可以通过自动生成绘画评论来减轻艺术策展人的工作。2. Related Work54230艺术描述生成可以被视为类似于图像字幕[64, 12,1]的问题，其目标是自然而准确地描述图像场景的内容。然而，与传统的图像字幕相比，为艺术品生成描述面临着两个额外的挑战。首先，对艺术品的全面解释不仅需要对其内容进行事实描述，还需要背景知识，如有关作者、创作过程的背景等细节。这些信息很少包含在艺术品图像本身中。其次，根据艺术史学家的观点[2]，对艺术品的信息丰富描述应涉及三个主要主题：内容、形式和背景。而在标准的图像字幕中，只考虑了内容，区分不同艺术主题需要处理更复杂的语言建模方案。为了解决这些挑战，我们引入了一个多主题和知识丰富的艺术描述生成框架：1）将外部知识引入到描述生成过程中；2）提出了一个多主题语言模型来描述绘画的不同方面。主要思想如图1所示，其中艺术品图像用于生成描述并从外部来源检索相关知识。我们的框架分为三个步骤。首先，通过训练语言模型，我们生成一个带有可填充槽的掩码句子，这些槽需要外部信息才能知道，例如艺术家、创作日期、地点等。此外，语言模型还融入了有关不同艺术主题的信息，以便根据每个主题生成掩码句子。其次，使用知识检索模块从开放访问数据库（例如维基百科1）中检索与绘画相关的外部信息。最后，我们设计了一个知识填充模块，从检索到的知识中提取候选词，并为每个槽选择适当的概念。在我们详尽的实验部分，包括定量比较、定性分析和人工评估，我们展示了我们的框架比其他方法更准确、更具信息量的生成了令人满意的艺术描述。总的来说，我们的主要贡献有：0•我们提出了第一个用于细艺绘画的多主题长描述生成框架。到目前为止，艺术描述生成一直被视为图像字幕任务，只生成关于艺术品的简短事实句子。0•我们设计了一个多主题语言建模模块来生成多主题描述。此外，我们根据艺术史学家的协议[2]为艺术描述数据集添加了句子主题标签，并公开共享2，以激发未来不仅在艺术描述方面，而且在艺术理解方面的研究。01 https://www.wikipedia.org 2https://github.com/noagarcia/explain-paintings0• 相关工作0•我们利用知识检索器并训练一个知识填充模块作为填空任务，以整合与每幅绘画相关的艺术信息。该方法可以轻松应用于其他领域。0艺术品分析计算机视觉技术已被广泛应用于解决与艺术相关的问题[27, 45, 67,57]。该领域的一个基本任务是提取能够捕捉风格洞察力[30,20, 69, 26]或绘画内容[11, 10, 53,21]的代表性特征，并将其用于艺术品的自动分析，如分类[42, 5, 60, 17]、风格识别[29, 54, 30, 69]、物体识别[11, 9,21]或图像检索[5, 11,9]等任务。尽管由于艺术中的内在多样性和抽象性，艺术品分类具有挑战性，但它只研究了艺术品的一个方面。然而，绘画是充满象征主义的复杂图像。一个单一的标签无法完全代表描绘元素之间的复杂关系、画家的动机和制作的历史背景。为了全面理解绘画，我们提出以艺术描述的形式生成连贯的语言表达。迄今为止，只有少数几项研究[56, 18,19]将多模态视觉和语言技术应用于艺术领域。在[18]中，提出了一种根据文本描述找到绘画作品的系统，而其他方法[56,19]则预测了关于艺术品的问题的答案。然而，对于美术绘画生成全面的描述仍然很少研究。0图像字幕编码器-解码器模型是用于自然图像的数据驱动方法，使用深度神经网络[64, 70, 1, 48, 73, 36, 74, 41,65]。经典方案[64]将卷积神经网络（CNN）作为图像编码器，将循环神经网络（RNN）作为字幕解码器。出现了几种变体，例如添加注意力[70]或使用检测到的对象而不是纯粹的像素[1]。尽管这些模型在自然图像上取得了良好的结果，但它们在文化图像上的迁移效果不佳[55]。为了生成艺术品的描述，先前的工作引入了本体论[72]和分层模型[71]，利用低级特征，例如图像纹理和文化图像的元数据，这严重依赖于特征工程。此外，它们只能生成关于图像内容的单个事实句子。相比之下，我们生成多主题描述，依靠外部来源来提高信息质量。外部知识已经在图像字幕生成中使用过[68,73, 36, 74, 40,3]，主要依赖于与目标图像相关的可用标签[40]或文本[3]。与之不同的是，我们的外部知识仅通过使用图像来检索。LSTM* Religious* 1451-1500* Signorelli* ItalianLamentation over the Dead Christ is a 1502 tempera on panel painting by Luca Signorelli, painted for the church of Santa Margherita. In the left background is the Crucifixion and in the right background the Resurrection...(Context) An account of Vasari says that Signorelli wanted to represent in the figure of the naked Christ his own son, who died of plague in 1502. (Content) In the middle of the painting, there is an unreal landscape, clear and ... (Form) It strikes the observer with great power on account of its dimensions, the liveliness of ...* Person* Tree* Tie* ...Luca SignorelliSanta MargheritaCortonaVasari1502Christ...Traditionalimagecaptioningdatasets,suchasMSCOCO [38], provide high-quality general captions.Image captioning decoders trained on these corpora predicta probability distribution over a closed vocabulary togenerate text.However, these decoders have difﬁcultiesin generating speciﬁc entities that occur sparsely in thevocabulary. For example, in a vocabulary for art descrip-tion, the artist name, location, or timeframe may all be ina low frequency.Moreover, the desired art descriptions54240ResNet0LSTM LSTM ...0遮蔽句子生成0多属性预测0（内容）在图中央...（形式）它以...的强大力量打动观察者...（上下文）一个关于某人的描述说，某人想要在裸体人物的形象中代表他自己的儿子，他在某个时间死于瘟疫。0维基百科0知识检索知识提取与填充0目标检测0DrQA0知识检索器0内容0形式0上下文0主题0BERT0图2. 提出的框架。它由三个部分组成：遮蔽句子生成、知识检索和知识填充。03. 方法0我们的框架包含三个主要部分：1）遮蔽句子生成，2）知识检索，3）知识提取和填充。如图2所示，我们首先使用预训练的ResNet[24]从图像中提取L个空间位置的D维视觉特征[70]，将其作为多属性预测的全局视觉特征。我们还使用目标检测器来检测视觉概念。预测的属性和检测到的对象用于使用DrQA[7]从外部源中检索相关知识。最后，在知识提取和填充部分，给定生成的多主题遮蔽句子和检索到的知识文本，我们提取候选知识概念，并使用基于BERT的模型[14]得到最终描述。0V = {v1, v2, ..., vL}, vi ∈RD。然后，在遮蔽句子生成部分，我们将V输入到主题解码器中，生成描述绘画的多主题遮蔽句子，从多个方面描述绘画。这些遮蔽句子中的概念被留空以便在后期填充知识。在知识检索部分，我们将平均池化向量¯v = �0传统的图像字幕数据集，如MSCOCO[38]，提供高质量的通用字幕。在这些语料库上训练的图像字幕解码器预测一个概率分布，用于生成文本。然而，这些解码器在生成词汇表中稀疏出现的特定实体时存在困难。例如，在艺术描述的词汇表中，艺术家姓名、地点或时间范围可能都是低频词。此外，期望的艺术描述...03.1. 遮蔽句子生成0尽管存在领域差距，但在 ImageNet 数据集上预训练的 ResNet已被证明对艺术图片效果良好 [51, 59]。0应包含图像中直接不存在的外部知识。我们通过仅依靠解码器生成掩码句子来解决这些问题，然后通过知识提取和填充模块来完成。03.1.1 数据预处理0给定描述绘画的描述集合 D，我们通过进行命名实体识别（NER）来获得用于生成掩码句子的训练语料库。具体来说，我们使用 StanfordCoreNLP 名称标记器 [43]对描述进行实体提取，提取以下类型的实体：person、location、organization、ordinal、number、date 和misc。然后，我们用相应的实体类型替换描述中找到的实体，例如：0Vasari 的一份记述说 Signorelli想要在裸体的基督的形象中代表他自己的儿子，他在1502 年死于瘟疫。0被转换为0一个关于 [person] 的记述说 [person] 想要在裸体的[person] 的形象中代表他自己的儿子，他在 [date]死于瘟疫。03.1.2 主题解码器0我们设想一个能够处理多主题描述生成的解码器：给定一个视觉特征 V 和一个期望的主题 d，解码器应该生成相应的与主题相关的掩码句子。在本节中，我们首先介绍一个生成与主题无关的掩码句子的基准解码器。然后，我们探索两种变体来解决多主题的挑战。最后，我们解释如何生成多主题的掩码描述。附录 A中有每个解码器的图示。L�i=1αtivi,(4)T54250基准解码器根据 Xu 等人 [70]的方法，我们使用基于长短期记忆（LSTM）[25]的解码器将图像视觉特征解码为掩码句子。解码器根据基于注意力的视觉上下文向量 z t 、先前的隐藏状态 h t − 1和先前生成的单词 y t − 1 在每个时间步 t 上生成一个单词y t （以 one-hot 向量表示）。形式上：0h t = LSTM([z t , h t − 1 , Ey t − 1]) (1)0g ti = f att(v i , h t − 1) (2)0α t = softmax(g t) (3)0z t =0其中 [ ∙ ] 表示连接，E 是一个嵌入矩阵，f att是一个用于预测注意力权重的可训练函数，我们使用多层感知机，α t = { α t 1 , . . . , α tL }是总和为一的注意力分数。视觉上下文向量 z t是输入图像在时间 t 上相关部分的动态表示。基于 LSTM状态 h t 和视觉上下文向量 z t，我们使用全连接层计算输出词的概率：0p(y t | y 1: t − 1, V) = softmax(W y [h t , z t] + b y), (5)0其中 W y 和 b y是全连接层中的参数。给定真实的掩码序列 y � 1: T，解码器的权重通过在训练中最小化负对数似然来进行优化：0L mle = −0t =1 log p(y � t | y � 1: t − 1, V). (6)0由于不同艺术主题可能存在语言上的差异，我们建议使用不同的解码器独立地为不同主题生成掩码句子，即为每个主题使用不同的基准解码器作为子解码器。这种并行设置是直观的，因为它将与主题相关的句子分成不同的解码分支，使解码器彼此不干扰。形式上，可以将并行解码器表示为：0y(d)1:T = Parallel(V, d)（7）0其中d是主题标签，也用作子解码器的选择器。在每个子解码器中，计算过程与基线解码器中的计算过程相同：0h(d)t = LSTM(d)([z(d)t, h(d)t−1, E(d)y(d)t−1)（8）0方程（2）-（4）可以等价地写成。不同的子解码器在训练过程中分别进行优化。0主题条件解码器为了提高计算效率，并利用不同主题之间的共同知识，我们还提出了一种用于多主题描述生成的单模型解决方案。受到风格化字幕[23]的启发，我们探索了一种主题条件解码器。条件解码器将主题条件向量注入到解码过程中，形式化为：0y(d)1:T = Conditional(V, d)（9）0具体而言，主题标签d被转换为一个Ntopic维的独热向量d′，表示Ntopic个主题，其中每个元素表示相应的主题。然后，我们将d′馈送到一个主题嵌入层，并将得到的向量与基线解码器的标准输入连接起来，如下所示：0ht = LSTM([zt, ht−1, Ey t−1, E topic d′])（10）0其中Etopic是主题嵌入矩阵。为了确保生成的掩码句子正确包含目标主题，我们使用一个主题分类器TC进行约束，即TC(Conditional(V,d))−→d。主题分类器的实现方式与TextCNN[31]相同，并与主题条件解码器一起进行经典的交叉熵损失Lce的联合优化。总体而言，主题条件解码器的目标Lcond为：Lcond =Lmle + Lce（11）0多主题掩码描述给定N个主题，我们使用并行或条件主题解码器生成N个掩码句子，每个主题一个，然后将它们连接起来构成完整的多主题掩码描述。03.2. 知识检索0为了解决生成信息丰富描述的挑战，我们依赖于外部知识库，如维基百科。我们使用DrQA[7]，一种高效的文档检索器，来查找相关信息。形式上，给定查询文本q和知识库中的所有文章cj∈C，它们被分词并编码为TF-IDF向量，分别表示为ˆq和ˆcj。然后，计算相似度得分如下：0sj = ˆq�0∥ˆq∥∥ˆcj∥（12）0与以往使用现成标签[40]或文本[3]作为知识库查询的方法不同，我们通过提取以下内容自动构建图像的查询：1）使用多任务属性预测模型[17]提取艺术属性。具体而言，对于每幅绘画，我们预测其艺术家、类型、时间范围和学派；以及2）使用在VisualGenome中预训练的目标检测模型[47]提取视觉概念。54260[33]。例如，提取的概念如人、苹果等用于描述图像的一般内容，去除了不太可能出现在绘画中的视觉概念，如手机。两个来源的词被追加在一起构成我们的q。作为知识检索模块的输出，我们返回得分最高的前5篇文章cj。为了提高排名准确性，我们对每个cj进行预处理，包括1）停用词去除和词干提取，以及2）二元TF-IDF。03.3. 知识提取和填充0在这个模块中，我们使用一个或多个知识词来填充生成的多主题掩码描述中的掩码概念。在知识检索部分给出的前5篇文章中，我们进一步通过使用StanfordCoreNLP提取命名实体来缩小知识空间。我们使用提取的命名实体和第3.2节中的艺术属性来组成一组候选词G。然后，我们训练一个基于BERT的模型[14]作为序列到序列任务，从G中找到适当的词来填充生成的多主题掩码描述中的空白。具体而言，我们生成一个输入序列如下：0SEQ in = [[CLS], y, [SEP], k] (13)0其中k是G中所有单词的连接序列，y表示多主题掩码描述中的单词序列。输出描述为：0SEQ out = BERT(SEQ in) (14)0其中BERT(∙)通过最小化交叉熵损失来训练，以生成D中的原始图像描述。04. 实验0这里我们描述了实验及其结果。实现细节可以在附录B中找到。0艺术数据集我们使用SemArt数据集[18]，其中包含21,384张绘画图片。每张图片都与一个艺术评论和七个属性相关联，例如艺术家、标题或日期。数据集被分为19,244张用于训练，1,069张用于验证，1,069张用于测试。0艺术主题注释为了研究多主题描述生成，我们使用SemArt中的原始评论与其对应的艺术主题进行注释。按照艺术史学家的规定[2]，我们使用了三个主题：1）内容，描述艺术品的主题，即作品的信息；2）形式，描述作品的外观，即作品的构成要素，与其含义无关；3）背景，描述作品所处的环境或历史背景。我们依赖于亚马逊的Mechanical Turk[4]。04 https://www.mturk.com/0（AMT）。我们将原始评论在训练集和测试集中分成单个句子，并要求工人为每个句子注释三个主题之一。工人们可以看到图片、原始完整评论、标题、艺术家姓名和创作年份。总共标注了17,249张图片和33,543个句子。0知识库作为外部信息源，我们使用了英文维基百科2016-12-21的数据[6]。对于每个页面，我们只提取了纯文本。所有结构化和非文本数据部分，如列表和图表，都被剥离。在丢弃内部消歧、列表、索引和大纲页面后，我们保留了5,075,182篇文章。04.1. 人工评估0生成文本的评估是一项具有挑战性的任务[6]，因为不仅要自动测量语法正确性，还要测量真实性、信息量和多样性。设计用于评估事实任务的自动度量标准，如机器翻译（例如BLEU[46]）或图像字幕（例如CIDEr[63]），在我们这样更具创造性的任务上效果不佳。我们基于之前的工作[15,52,62]，以人们对我们模型生成的文本的感知为基础进行评估。我们在AMT上对100个随机选择的验证绘画进行了人工评估。对于每幅画，我们向3个注释者展示了生成的描述，同时还有图片、原始的SemArt评论、标题、艺术家和创作年份。我们要求注释者根据以下指标对每个描述进行评分（分数越高越好）：0•可理解性：取值范围为1到4，表示描述是否能够被人理解。0• 相关性：取值范围为1到4，表示描述是否与给定的绘画相关。0• 真实性：取值范围为1到4，表示描述是否根据给定信息正确。0• 内容存在性：如果描述中包含有关主题内容的信息，则为1，否则为0。0• 表单存在性：如果描述中包含有关主题表单的信息，则为1，否则为0。0•背景存在性：如果描述中包含有关主题背景的信息，则为1，否则为0。我们的提出的框架的不同变体的结果总结在表1中。基线模型（SAT[70]）不使用主题建模或外部知识。其他三个模型（标记为Ours）使用并行解码器、知识检索和知识提取和填充模块。它们之间的主要区别在于推理时使用的外部知识的来源。具体来说，在Ours（Wikipedia）中，我们使用维基百科作为知识来源。05我们从注释中排除了一些带有无意义评论的图像，例如“目录编号：F526”。6https://dumps.wikimedia.org/enwiki/latest/54270表1. 人工评估。根据六个指标对生成的描述进行人工评分（均值和标准差）。0模型知识理解相关性真实性内容形式上下文0SAT [70]（基准模型）- 3.62 ± 0.63 1.94 ± 0.94 1.30 ± 0.70 0.35 ± 0.48 0.05 ± 0.21 0.65 ± 0.48Ours（Wikipedia）检索维基百科2.71 ± 0.64 2.29 ± 1.04 1.56 ± 0.64 0.73 ± 0.45 0.33 ± 0.47 0.83 ± 0.38Ours（SemArt）检索SemArt2.77 ± 0.62 2.02 ± 1.08 1.39 ± 0.59 0.75 ± 0.44 0.37 ± 0.48 0.90 ± 0.30Ours（Oracle）原始SemArt2.71 ± 0.64 2.49 ± 1.00 1.72 ± 0.70 0.76 ± 0.43 0.38 ± 0.49 0.91 ± 0.290冰冻河流的风景，巴伦德∙阿弗坎普，1651-17000河流景观0亚伯拉罕∙范∙贝耶伦，1651-17000干草车0约翰∙康斯特布尔，1801-18500圣母与圣婴0洛伦佐∙迪∙克雷迪，1451-15000一群人站在一起。一幅画上有一只鸟坐在一块岩石上。一个人站在被水淹没的公园里。一个男人和一个女人抱着一只狗。0这幅画描绘了一幅河流景观，河上有一个村庄和一个未知物。0这幅画是扬∙范∙德∙乌恩克和扬∙范∙乌恩克的一对冬季风景画之一。0这幅画描绘了一幅河流景观，路上有人物。0圣母子画的构图基于年轻的提香的一幅画。它显示了乌尔比诺的影响。0这幅画展示了冬天的景色，背景是城市。这是艺术家成熟风格中关于光影的最重要的研究之一，它让人想起亨德里克∙阿弗坎普的构图。这是巴伦德∙阿弗坎普晚期绘画中最重要的作品之一。0这幅画描绘了一幅河流景观，前景有滑冰者和一艘划船。这幅画是贝耶伦风景画的典型例子，他在自己的一生中必须看到他的作品，并且他是他同时代人的一个很好的榜样。这幅画是贝耶伦最早的已知作品之一。0这幅画描绘了一幅有马车的树林景观，前景有一辆马车。这幅画是康斯特布尔最雄心勃勃的风景画之一。他从弗朗德和树木中学到了构图的技巧。这幅画是这位艺术家最早的作品之一。这幅画是英国风景画系列中最重要的作品之一。0据推测，这幅画代表了中央的圣母和圣婴。这幅画是艺术家成熟风格的一个很好的例子，他似乎在渲染光影方面学到了他的技巧，构图不仅仅是几米。这幅画是莱昂纳多早期的作品。0图3.定性评估。顶部一行显示了四幅测试绘画及其标题、艺术家和创作时间范围。下面的行分别包含了由SAT-Transfer、SAT-Baseline和我们的方法生成的描述。错误的单词用红色高亮显示。0来源。在Ours（SemArt）中，我们使用SemArt中的评论构建知识库，并使用知识检索模块找到最相关的评论。最后，在Ours（Oracle）中，我们使用原始关联的评论，假设知识检索模块的准确性完美。0结果显示，在可理解性指标上，基准模型获得了最高分。这是因为生成的文本比我们的模型生成的文本更简单、更短：例如，SAT输出的平均单词数为30.9，而在我们的模型中（Oracle）为71.8。句子越短，越不容易包含语法错误。然而，从所有其他与描述的信息方面更相关的指标中，我们观察到我们的框架大大优于基准模型。0当比较我们的三种不同设置时，我们的（Oracle）在所有指标上都取得了最佳性能，其中在相关性和真实性方面的差距很大。这是很自然的，因为使用了真实的评论作为知识来源。在存在性指标（即内容、形式和上下文）中，三个模型的性能非常接近，它们都比基线模型有很大的提升。这显示了主题解码器的有效性，它能够0产生不同类型的句子。我们的（维基百科）在这三种设置中表现最差，因为它使用了最具挑战性的知识来源，并且在训练来源（SemArt评论）和测试来源（维基百科文章）之间存在领域差距。04.2. 定性分析和示例0我们进一步通过定性分析来探索我们框架的结果，如图3所示。我们比较了三种方法。在第一行，我们使用在MSCOCO上训练的SAT[70]，即SAT-Transfer。生成的句子与为自然图像生成的标准标题非常相似。这个模型存在以下问题：1）不包含艺术特定的信息，2）从自然图像到绘画的转换中存在视觉领域差距，如在Madonna and Child和TheHay-Wain中误检测的概念，如“狗”和“人”。在第二行，SAT在SemArt数据集上训练，即SAT-Baseline。结果显示它可以生成一些简短而易懂的句子，如TheHay-Wain。然而，主要问题是它不包含背景知识，导致输出中的一些特定知识词被标记为unk。最后，最后一行54280加尔瓦里十字架画0贝尔纳特∙范∙奥尔利，1501-15500无监督这幅画展示了PERSON_生活中的NUMBER_个场景。这是LOCATION_中央面板的中央面板。这幅祭坛画是为LOCATION_教堂而创作的。0半监督在三联画的中央，中央的代表了对马吉的崇拜和。这个构图是基于PERSON_在LOCATION_的一幅素描。这是MISC_艺术中最重要的作品之一。0监督（已注释）这幅画展示了LOCATION_中央面板的中央面板中PERSON_生活中的NUMBER_个场景。这幅画分为NUMBER_个部分。构图受到PERSON_的影响。这幅画是LOCATION_艺术家职业生涯中最重要的例子之一。这幅画右下角有签名和日期。0图4.主题模型比较。使用不同设置训练主题解码器来预测主题标签。0展示了提出的框架，其中包括并行解码器和SemArt作为知识来源。主题解码器有效地为每个主题生成不同的句子，以不同的颜色显示。此外，每个句子都包含相关的知识，如Landscape with Frozen River中的“BarendAvercamp”和RiverLandscape中的“Beyeren”。附录E中还有更多示例。这些结果还揭示了我们方法的一些局限性。在RiverLandscape中显示了视觉内容的误检（传统图像字幕中常见的错误），其中船只被“滑冰者”混淆。在TheHay-Wain中，形式句子中存在语法错误（“aa”），这是基于BERT的知识填充部分产生的，即在基于LSTM的掩码句子解码器中不存在。我们假设这是因为BERT对于学习我们任务的语言结构来说，训练集的规模相对较小。这可以通过应用语言增强技术来解决。最后，在MadonnaandChild中，存在一个不完美的知识错误，即将这幅画归属给了错误的艺术家。04.3. 模块分析0探索艺术主题我们的主题解码器依赖于具有主题标签的语料库的可用性进行训练。为了更通用的方法，我们探索了无监督/半监督主题模型，以自动预测每个句子的主题标签。对于无监督设置，我们使用潜在狄利克雷分配（LDA）[4]，它假设每个主题是一组潜在词的混合。而对于半监督设置，我们使用Guided-LDA [28]，它0将词汇先验手动设置为种子词列表，以LDA为基础。在我们的情况下，种子词是从具有主题标签的句子子集中获得的，我们从中选择具有最高频率的前10个词。子集越大，种子词获得的准确性越高。这里我们使用了3245个样本。艺术评论被拆分为单个句子，并进行预处理以优化每个主题模型方法。训练之后，主题模型为每个句子预测一个伪主题标签，并用于训练我们的并行主题解码器。LDA在测试集上预测主题标签的准确率为43.3％，而Guided-LDA为51.6％。为了减少知识填充模块的影响，在图4中我们比较了不同主题模型生成的掩码句子。在无监督设置中，内容和上下文句子生成正确，而形式句子令人困惑。在半监督设置中，输出看起来更好，甚至接近监督方法，这表明只需要少量的主题注释就可以生成艺术描述。知识检索知识检索模块的影响以及它如何影响整个框架已经在第4.1节中讨论过。根据表1，检索知识越容易，得分越高。在附录D中，我们提供了知识检索模块在不同设置下的准确率。可以看出，知识检索模块的性能是我们系统的一个关键瓶颈。04.4. 比较评估0尽管自动评估指标可能与描述艺术所需的知识和创造力的评估不太相关，但我们包括了一个用于完整性的标准自动评估。我们将我们提出的模型与以下模型进行比较：0经典图像字幕（1）NIC[64]，基于LSTM的编码器-解码器模型，无注意力；（2）SAT[70]，包含软注意力（请注意，这对应于第3.1.2节中的基线解码器）；以及（3）Att2in[48]，类似于SAT，但其中注意力导出的上下文视觉特征仅输入到LSTM的细胞节点中。0风格化图像字幕我们的条件主题解码器可以看作是风格化图像字幕的一个用例。我们将我们的框架与（4）MScap[23]进行比较。在我们的重新实现中，我们将主题视为风格。0基于Transformer的图像字幕我们评估了最先进的Transformer（5）OSCAR[35]，它是视觉语言任务中最新的多模态方法之一。我们使用其原始预训练权重，并在SemArt数据集上进行微调。0文本摘要作为一种不同的视角，我们使用基于文本的摘要方法生成绘画描述。也就是说，给定在检索到的知识文章中54290表2.比较评估。我们将我们的模型与多种替代方法进行比较。所有方法都在等同条件下在SemArt数据集上进行训练。使用外部知识的方法（LSA和Ours）使用维基百科作为知识来源。GM：贪婪匹配，S-T：跳过思考，EA：嵌入平均。0模型 BLEU-4 CIDEr METEOR ROUGE-L GM S-T EA01 NIC [64] 7.3 39.4 10.9 28.6 71.5 24.8 64.5 2 SAT [70]（基线） 6.5 38.6 11.1 27.5 72.9 26.6 73.3 3 Att2in [48] 4.2 26.4 9.7 25.469.1 22.4 59.1 4 MScap [23] 0.4 0.1 6.3 14.2 64.0 19.3 50.7 5 OSCAR [35] 0.1 2.0 2.8 11.3 63.0 33.3 84.8 6 LSA [58] 0.2 0.1 8.510.9 75.1 37.4 90.6 7 Ours（并行解码器） 8.8 9.1 11.4 23.1 77.6 30.9 92.6 8 Ours（条件解码器） 0.9 0.4 5.8 14.8 70.1 27.7 89.30在第3.2节中，我们使用（6）LSA[58]对它们的内容进行总结，这是一种语言无关的代数方法。0我们比较了使用（7）主题并行解码器和（8）主题条件解码器时的方法。表2显示了比较结果。我们采用了广泛的自然语言评估指标，包括BLEU-4 [46]，CIDEr [63]，METEOR[13]，ROUGE-L [37]，GreedyMatching[50]，Skip-Thought [32]和EmbeddingAverage[39]。我们注意到，（1）得分远低于传统的图像字幕生成：例如，在MSCOCO中，BLEU-4得分约为30[64，70]，而在SemArt中则小于10；（2）不同指标之间的得分差异很大。一方面，这种现象表明所提出的任务非常具有挑战性。另一方面，这些自动评估指标可能不适合评估艺术描述生成的丰富性和多样性。因此，我们还在附录E中包括了定性比较结果。首先，我们的并行解码器比条件解码器表现更好。这是自然的，因为并行解码器在网络中具有更大的容量，并且可以以特定的方式适应不同的主题。与经典的图像字幕生成方法（NIC，SAT和Att2in）相比，我们的并行解码器方法在7个指标中有5个表现更好。性能的提升主要是由于掩码句子生成填充模式减轻了解码器处理低频词和命名实体的负担。在MScap中，我们直接让模型有条件地学习主题，而不需要掩码句子生成填充的帮助，性能甚至变得更差。对于基于Transformer的方法OSCAR，它在大多数指标上表现非常差。我们推测这是由于：1）训练集的规模，以及2）使用Bottom-Up-Top-Down[1]区域特征作为图像输入，这些特征是通过在自然图像中预训练的对象检测器提取的，并且不考虑与绘画之间的视觉领域差距。最后，文本摘要方法LSA在大多数指标上表现非常差，除了Skip-Thought，这表明仅依赖外部知识是不够的。0不“看”图像而生成绘画描述并不是最好的方法。这是因为使用总结方法：1）无法控制不同主题的生成过程，2）它们严重依赖于知识检索模块的准确性，3）当绘画的外部知识不存在时，无法生成描述。根据150个注释图像的随机子集，有80.7％的样本在维基百科上没有特定的文章。然而，其中71.3％的样本有艺术家的文章，这对于查找知识是有用的，但单独而言不足以产生相关的绘画描述。此外，即使检索到了一个不相关的文章，我们的方法也可以为内容和形式主题生成正确的句子。SemArt数据集中每个主题的插槽比例，即内容/形式/上下文句子中插槽的平均数量，分别为0.98/0.91/2.12，这表明内容和形式需要比上下文更少的外部数据。最后，从图像预测的艺术属性也用于填充插槽（第3.3节），即使检索到的知识失败，也可能产生有意义的信息。05. 结论0我们提出了第一个多主题知识框架，用于艺术描述生成。为了生成多主题描述，我们使用句级主题标签对艺术描述数据集进行了注释。我们从多个角度探索了这个问题，包括提出了两种类型的主题解码器，并在无监督/半监督以及监督设置下进行了实验。此外，我们引入了使用外部知识来增强绘画描述中的背景信息。全面的评估和比较显示了我们方法的有效性，我们希望这有助于指导未来的研究。致谢：本工作部分得到JSPS KAKENHI Grant NumbersJP20K19822和JP18H03264以及ROIS NII Ope

下载后可阅读完整内容，剩余1页未读，立即下载