没有合适的资源?快使用搜索试试~ 我知道了~
1不常见的:态势识别中的语义稀疏性Mark Yatskar1,Vicente Ordonez2,3,Luke Zettlemoyer1,Ali Farhadi1,21计算机科学工程,华盛顿大学,西雅图,WA2艾伦人工智能研究所(AI2),西雅图,WA3弗吉尼亚大学计算机科学系,弗吉尼亚州夏洛茨维尔[my89电子邮件:[cs.washington.edu,vicente@cs.virginia.edu摘要语义稀疏性是结构化视觉分类问题中的一个常见挑战;当输出空间是复杂的时,绝大多数可能的预测很少(如果有的话)出现在训练集中。本文研究了情景识别中的语义稀疏性问题,情景识别是一项任务,即对图像中正在发生的事情(包括活动、对象以及对象在活动中所扮演的角色)进行对于这个问题,我们根据经验发现,预测所需的大多数子结构都是罕见的,如果目标输出中存在一个这样的罕见子结构,那么当前最先进的模型性能就会急剧下降。我们通过以下方法避免了许多这样的错误:(1)引入一个新的张量组合函数,该函数可以更有效地学习跨子结构共享示例;(2)使用使用网络数据自动收集很少观察到的输出示例。当集成在一个完整的基于CRF的结构化预测模型中时,基于张量的方法在前5名动词和名词角色准确度上相对提高了2.11%和4.40%。使用我们的语义增强技术添加500万幅图像,在前5名动词和名词角色准确率上进一步相对提高1. 介绍许多视觉分类问题,如图像captioning [29],视觉问答[2],引用扩展[23]和情况识别[44]都有结构化的,语义可解释的输出空间。与ImageNet [37]等分类任务相比,这些问题通常会受到语义稀疏性的影响;存在组合数量的可能输出,没有数据集可以覆盖所有输出,并且在对罕见或不可见的数据进行评估时,现有模型的性能显着下降账面作用值作用值作用值剂人剂女人剂人项目婴儿项目桶项目表代理部分胸部代理部分头代理部分回来地方外面地方路径地方街图1:三种涉及搬运的情况,语义角色为施动者、搬运者、物品、被搬运者、施动者部分、施动者搬运的部分,以及情况发生的地点。对于携带,存在许多可能的可携带对象(可以填充项目角色的名词),这是语义稀疏性的示例。这种很少出现的子结构是令人困惑的,并导致重大错误,不仅影响角色价值观的表现,而且影响动词。Puts [3,46,9,44].在本文中,我们认为情况识别,一个典型的结构化分类问题,具有显着的语义稀疏性,并开发新的模型和语义数据增强技术,显着提高性能,更好地建模的底层语义结构的任务。情境识别[44]是对图像中发生的事情产生结构化摘要的任务,包括活动,对象以及这些对象在活动中扮演的角色这个问题可能是具有挑战性的,因为许多活动,如携带,具有非常开放的语义角色,如项目,被携带的东西(见图1);几乎任何物体都可以被携带,训练数据永远不会包含所有的可能性。这是语义稀疏性的一个原型实例:罕见的输出构成了719671971009080706050403020100109876543210010 20 30 40 50 60 70 80 90 1001101201009080706050403020100动词角色名词0 102030405060708090100110120最少观察角色的样本数,值对最少观察角色的样本数,值对图2:imSitu开发集中图像的百分比是每种情况下最不频繁的角色-名词对的训练示例总数的函数。不常见的目标输出,即在训练中观察不到10次的目标输出(黄色框),是常见的,占所有所需预测的35%。这种语义稀疏性是情境识别的核心挑战。大部分所需的预测(在imSitu数据集中为35%[44],参见图2),并且当即使一个参与对象的样本很少时,当前最先进的情况识别性能也会显着下降我们建议通过两种方式来解决这一挑战:(1)构建模型,更有效地在不同角色之间共享对象的示例;(2)语义上扩展我们的训练集,以填充很少表示的名词-角色组合。我 们 引 入 了 一 个 新 的 组 合 条 件 随 机 场 制 定(CRF),以减少语义稀疏的影响,鼓励不同角色的名词之间的共享。与以前的工作一样[44],我们使用深度神经网络直接预测CRF中的因素在这样的模型中,所需的因素CRF预测使用全局图像表示通过线性回归独特的每个因素。相比之下,我们提出了一种新的张量组合函数,该函数使用名词和角色的低维表示,并在所有角色和名词之间共享权重来对组合进行评分。我们的模型是组合的,名词和角色的独立表示被组合来预测因素,并允许在整个CRF中全局共享名词的表示。该模型使用一种新形式的语义数据增强进行训练,为很少观察到的名词-角色组合提供额外的训练样本。我们表明,它是可能的,以产生短的搜索查询,对应于部分的情况下(即。对于图1中的情况,可以使用“人背着婴儿”或“背上背着”),其可以用于网络图像检索。然后,可以通过优化边际似然性将这种噪声数据纳入预训练中,有效地执行针对情况的未标记方面的值的软聚类。这一数据也支持,因为我们图3:imSitu dev集上基线CRF [ 44 ]的动词和角色-名词预测准确度是训练集中最少观察到的角色-名词对频率的函数。水平实线表示整个即时开发组的平均性能,与频率无关。即使一个目标输出变得不常见(在黄色框中突出显示),准确性也会降低。将显示自训练,其中模型预测用于在训练最终预测器之前修剪图像集在imSitu数据集上的实验[44]表明,我们新的组合CRF和语义增强技术减少了语义稀疏性的影响,对于相对罕见的配置具有很强的增益。我们发现,每一个贡献都有显着的帮助,并且组合的方法相对于强CRF基线在前5名动词和名词角色准确性上分别提高了6.23%和9.57%在不常见的预测,我们的方法提供了一个8.76%的相对改善,平均在所有措施。总之,这些实验证明了在结构化分类任务中有效地针对语义稀疏性的好处。2. 背景情境识别情境识别最近被提出来对图像中的事件进行建模[19,36,43,44],以便回答不仅仅是“正在发生什么活动?“比如“谁在做?“,“他们在干什么?“,“他们用什么做的?“.一般来说,公式化建立在语义角色标签上[17],这是自然语言处理中的一个问题,其中动词与句子中的论元自动配对(例如,参见[8])。每个语义角色对应于关于事件的问题,(例如,在图1的第一幅图中,语义角色代理对应于“谁在搬运?“并且代理部分对应于我们在imSitu [44]中研究情境识别,这是一个人类注释情境的大规模数据集,包含超过500个活动,1,700个角色,11,000个名词,125,000个图像。收集即时图像以覆盖不同的现场,%图像累积图像%开发映像的百分比开发映像的累积%top-5精度7198我我我评估例如,如图2所示,在imSitu开发集中注释的35%的位置包含至少一个罕见的角色-名词对。即时情景识别是评估解决语义稀疏性的方法的强大测试平台:它规模大,结构化,易于评估,其中φe和φv编码由神经网络计算的分数。 为了学习这个模型,我们假设对于数据集Q中的图像i,通常可以有一个可能的地面真实情况1的集合A i。 我们优化观察到至少一种情况的对数似然性S2 Ai:在不同的动词和角色之间有一个明显可测量的语义稀疏范围。此外,如图3所示,语义稀疏性对于Xi∈Q⇣log 1- YS∈Ai⌘(1− p(S|i;θ))(四)现状识别模型。形式定义在情景识别中,我们假设动词V、名词N和框架F的离散集合。每个框架f2F与一组语义角色Ef配对.V中的每个元素都映射到一个f。动词集合V和框架集合F来自FrameNet [13],一个用于语义角色标注的词典,而名词集合N来自WordNet [34]。每个语义角色e2Ef与一个名词值n2N[{n}}配对,其中n表示在先前的工作中,使用全局图像表示(由VGG卷积神经网络导出的p维图像向量gi2 Rp)来计算CRF势(等式2和3)[40]。每个潜在值都是通过线性回归计算的,参数θ对于动词和动词-角色-名词的每个可能的决定都是唯一的(我们称之为图像图4中的回归),例如对于等式3中的动词-角色-名词势:该值要么未知要么不适用。 该组一对语义角色及其值称为已实现的φe(v,e,ne,i,θ)=gTθv,e,ne(五)帧,Rf={(e,ne):e2Ef}。 只有当每个e2Ef被指定一个名词ne时,实现框架才有效.给定一个图像,任务是预测一个情况,S=(v,Rf),由动词v2V和有效的实现框架Rf指定,其中f指的是由v映射的框架。例如,在图1的第一幅图像中,预测的位置-S=(carrying,{(agent,man),(item,baby),(agentpart,chest),(place,outside)})。3. 方法本节介绍了我们的成分CRF和语义数据增强技术。3.1. 复合条件随机场图4显示了我们的成分条件随机场模型的概述,如下所述。条件随机场我们的CRF 预测一个situation ,S =(v,Rf),给定一个图像i,分解在动词v和语义角色-值对(e,ne)的实现框架Rf={(e,ne):e 2Ef},类似于以前的工作[44]。完整的分布,包括动词potential和语义角色potentials,采取以下形式:Yp(S|i; θ)/v(v,i; θ)e(v,e,ne,i;θ)(1)(e,ne)∈RfCRF允许有效推理:我们可以列举出现的所有动词语义角色,然后对数据集中出现的所有可能的语义角色值求和。CRF中的每个电位均为对数线性:这样的模型并不直接表示名词在不同角色之间重用的事实,尽管底层神经网络可以假设地学习在微调期间对这种重用进行编码。相反,我们引入组合的潜力,使这种重用明确。为了公式化我们的成分势,我们引入一组m维向量D={dn2 Rm|n2N},N中的每个名词对应一个向量,名词集合。 我们创建一个集合矩阵T={H(v,e)2 Rp×o|(v,e)2Ef},每个动词一个标记,语义角色对出现在所有框架Ef中,它将图像表示映射到0维动词-角色表示.最后,我们引入了一个全局合成权张量C2Rm×o×p.我们定义一个张量加权函数T,它将动词v、语义角色e、名词n和图像表示gi作为输入:T(v,e,n,gi)=C(dngTH(v,e)gi)(6)张量加权函数通过将全局图像向量与动词角色矩阵gTH(v,e)相乘来构造图像特定动词角色表示。然后,它结合了一个全球名词表示,图像特定的角色表示,和全球图像表示与外积。最后,它用来自C的权重对外积的每个维度进行加权。C中的权重指示3向外积的哪些特征是重要的。最后一个势是通过对T产生的张量的所有元素求和而产生的:v(v,i;θ)=eφv(v,i,θ)(2)XMXOXPφe(v,e,ne,i)=T(v,e,ne,gi)[x,y,z](7)7199e(v,e,ne,i;θ)=eφe(v,e,ne,i,θ)(3)x=0y=0z=01imSitu为每个示例图像提供三个实现的帧。7200全局名词表示VGG图像表示图像特定角色表示猫刷海滩笔剂太我地方张量合成全局权重张量我我动-角色-名词潜势VGG条件随机场动词潜势图像回归图4:我们的组合条件随机场(CRF)预测情况的概述。深度神经网络用于计算CRF中的电位。动词-角色-名词势是从与加权张量积相结合的名词表示、图像特定角色表示和全局图像表示的全局库中构建的。该模型允许在不同角色的相同名词之间共享,从而导致显著的收益,如第5节所示。由T产生的张量通常是高维的,并且非常有表现力。这允许使用小维度表示,使得函数对每个名词的少量样本更鲁棒。等式7中定义的电势可以等效地公式化为:介词这种关系可以用于通过使用图像搜索来找到可能包含情况的元素的图像来降低语义稀疏性。我们通过详尽地列举在即时训练集中发生的所有可能的实现情况的子片段,将注释的情况转换为短语以进行语义增强(参见第4节的实现)。φe(v,e,ne,i)=gTA(dn(v,e))(8)细节)。比如说, 在图1的第一种情况下,第一步,我们得到了碎片:(carrying,{(agent,man)}),其中,A是具有与C相同参数的矩阵,将名词维度和角色维度平铺在一起。通过将项与方程5对齐,可以看到张量势提供了一种替代的参数化线性回归,其使用许多更通用的参数,即C的参数。此外,它消除了与一个回归唯一关联的任何一个参数,而是在组成上使用名词和动词角色表示来建立回归的参数。3.2. 语义数据扩充情境识别与语言有着密切的联系。每种情况都可以被认为是关于图像中发生的活动的例如,图1中的第一种情况可以(carrying,{(agent,man),(item,baby)})等。这些子结构中的每一个都被确定性地转换为短语使用特定于每个动词的模板。例如,携带的模板为{item}{withagentpart}{ inplace}.部分原位-通过在Wordnet中获取与子结构中的每个名词相关联的同义词集的第一个注释,将它们插入模板的相应槽中,并丢弃未使用的槽,将这些短语实现为短语。例如,用于以上子片段的短语被实现为这些短语用于从Google图像搜索中检索图像,并通过将检索到的图像分配给生成检索查询的子片段来构造用动词和部分完整的实现帧注释的图像的集合W={(i,v,Rf)}2虽然这些模板不能生成完全流畅的短语,但初步实验发现它们对于图像搜索足够准确。清洁剂源污垢工具地方人烟囱烟灰刷屋顶e7201ne预训练从网络上检索的图像可以在预训练阶段中进行合并。检索的图像只有部分指定的实现情况作为标签。考虑到这一点,我们转而计算W中部分观察到的情况的边际似然率,p?: Y增加的电位,n-e,使用从全局图像表示为每个唯一的n-e的回归计算。我们考虑的第二个基线是合成的,但不使用基于张量的合成方法。相反,该模型构建了许多动词角色表示,并使用内积p(S|i;θ)/v(v,i;θ)(e,ne)∈Rfe(v,e,ne,i;θ)(九)(表1和表2中的内部产品组成)。在这个模型中,与第3节中的张量模型一样,我们使用全局图像Y⇥e∈/Rf<$e∈EfXe(v,e,n,i;θ)n表示gi2 Rp和一组名词向量,对于每个名词n,dn2Rm。对Ef中的每个动词角色,设t个动词角色矩阵Ht,v,e2Ro×p.我们计算在预训练期间,我们优化边际对数似然本文对白亮 该目标提供了对如等式11中的相应电势:在检索过程中未标记的未观察角色自我培训从网络上检索到的图像包含sig-Xφe(v,e,ne,i)=KdTH(k,v,e)qi(11)巨大的噪音。 尤其是对于角色名词组合,不经常出现的国家,限制了他们的效用,为预先培训。因此,我们还考虑在模型已经在来自imSitu的完全监督数据上训练之后在W中过滤图像。We根据训练模型计算的pk对W中的图像进行排名,并过滤W中每个唯一Rf的所有不在前k中的图像。然后我们在W的这个子集上进行预训练,在imSitu上再次训练,然后增加k。我们重复这个过程,直到模型不再改善。4. 实验装置模型所有模型都在Caffe [21]中实现,并使用预训练的VGG网络[40]进行基本图像表示,最后两个完全连接的层替换为两个完全连接的维度层该模型的动机是用于语义角色标签的组合模型[14],并允许我们权衡减少与名词和表达相关的参数的需要。我们对t的值进行网格搜索,使得t·o最多为256,这是我们能够运行的最大规模网络,并且o=m,这是对内积的要求。我们发现最佳设置为t=16,o=m=16。解码我们尝试了两种解码方法,以找到CRF模型下的最佳评分情况。当第一次预测动词vm在语义角色上使用P最大值vm=arg maxv(e,ne)p(v,Rf|(1)预测一个真实的-化的框架,Rm,与Max评分为vm:Rm=f f1024. 我们为所有型号微调VGG的所有层为argmaxRf p(vm,Rf|i)。所有其他系统都表现得更好-我们的张量势我们使用名词嵌入大小m=32,角色嵌入大小o=32,并且我们的VGG网络的最后一层作为全局图像表示,其中p=1024。较大的m和o值似乎确实可以改善结果,但预训练太慢,所以我们省略了它们。在实验中,我们使用图像回归在conjunc-对于具有成分潜力的组合,我们删除了与imSitu训练集上出现少于10次的组合相关的回归参数,以减少过度拟合。基线我们将我们的模型与两种替代方法进行比较,以引入名词之间的有效共享。第一个基线(表1和表2中的名词势)为独立于角色的名词在基线CRF中我们从等式9中修改给定图像i的情况S的概率,以不仅在实现的框架Rf中通过角色e和名词ne对分解,而且还通过名词ne分解:Y我们称之为动词和已实现框架的联合最大化。优化所有模型均使用随机梯度下降进行训练,动量为0.9,权重衰减为5e。4.语义增强的预训练是在初始学习率为1 e-3,梯度裁剪为100,批量大小为360的情况下进行的。在对imSitu数据进行训练时,我们使用1 e-5的初始学习率。对于所有模型,当模型在imSitu dev集上没有改进时,学习率降低了10倍。语义增强在语义增强的实验中,使用Google图像搜索检索图像。我们检索了200个中等大小,全彩色,安全搜索过滤图像每个查询短语。我们生产了超过1.5来自imSitu训练集的数百万个可能的查询短语,大多数非常罕见。我们将这些短语限制在任何出现在10到100次之间的即时短语中,p(S|i; θ)/v(v,i; θ)(e,ne)∈Rfe(v,e,ne,i;θ)<$ne(ne,i)(十)我们只接受出现3到10次的短语最多只包含一个名词。大约4万个短语被用来从网络上检索500万张图像所有都-因为通常没有短语可以检索正确的图像。较长的短语往往具有低得多的精确度。删除了imSitu中出现的图像。对于预训练,我们运行了所有实验,最多更新50k(大约7202前1预测动词前5名预测动词地面真值动词是说动词值全值动词值全值值全值即时1基线:图像回归[44]32.2524.5614.2858.6442.6822.7565.9029.5036.322名词潜势+reg27.6421.2112.2153.9539.9521.4568.8732.3134.703内部产品组成+注册32.1324.7714.7158.3342.9323.1466.7930.236.624张量合成31.7324.0413.7358.0642.6422.768.7332.1436.725张量合成+reg32.9125.3914.8759.9244.524.0469.3933.1738.02+ SA6基线:图像回归32.4024.1415.1759.1044.0424.4068.0331.9337.537张量合成+reg34.0426.4715.7361.7546.4825.7770.8935.0839.538张量合成+ reg + self train34.2026.5615.6162.2146.7225.6670.8034.8239.57表1:在完整的即时开发集上的情况识别结果。结果分为仅在imSitu数据上训练的模型(第1-5行)和通过语义数据增强使用Web数据的模型(第6-8行标记为+SA)。用+reg标记的模型还包括基线中使用的图像回归电位。我们的张量组成模型,第5行,显著优于现有的最先进的,第1行,增加一个名词的潜力,第2行,和一个组成的基线,第3行。张量组成模型能够比基线(行6)更好地利用语义数据增强(行8)。前1预测动词前5名预测动词地面真值动词是说动词值全值动词值全值值全值即时1基线:图像回归[44]19.8911.682.8544.0024.936.1650.809.9719.922名词潜在性+reg15.889.131.8638.2222.285.4654.6511.9119.923内部产品组成+注册18.9610.691.8942.5323.283.6949.546.4619.634张量合成19.7811.282.2642.6624.425.5754.0611.4721.435张量合成+reg21.1211.892.2045.1425.515.3653.5810.6221.93+ SA6基线:图像回归19.9511.442.1343.0824.564.9551.558.4120.767张量合成+reg20.0811.582.2244.8226.025.5555.4511.5322.168张量合成+ reg + self train20.5211.912.3445.9426.996.0655.9012.0422.71表2:稀有部分即时开发集的情况预测结果。结果分为仅在imSitu数据上训练的模型(第1-5行)和通过语义数据增强使用Web数据的模型(第6-8行标记为+SA用+reg标记的模型还包括基线中使用的图像回归电位在极少数情况下,使用基线进行语义数据增强会造成伤害语义增强在罕见情况下产生较大的相对改善,需要一个基于组合的模型来实现这些收益。4个时期)。对于自我训练,我们只在很少实现的帧上进 行 自 我 训 练 ( 在 imSitu 训 练 集 中 只 有 10 次 或 更少)。自我训练在两次迭代后产生了递减的增益,我们在k=10时运行第一次迭代,在k=20时运行第二次迭代评估我们使用标准数据分割用于imSitu[44],具有75k训练,25k开发和25k测试图像。我们遵循为imSitu定义的评估设置,评估动词预测(动词)和语义角色-值对预测(值)以及完整结构正确性(值-所有)。我们在top-1,top-5报告准确性,并给出地面真实动词和所有测量的平均值(平均值)。我们还报告了需要罕见(imSitu训练集中10个或更少示例)预测的示例的性能5. 结果我们在完整的imSitu dev集上的结果在表1的第1-5行中呈现。总的来说,结果表明,增加名词电位(第2行)和我们的基线成分模型(第3行)是无效的,比基线CRF(第1行)表现更差。我们假设,系统的变化,在对象的外观之间的角色是具有挑战性的,这些模型。我们的张量组成模型(第4行)能够更好地捕捉这种变化,并有效地在名词之间共享信息反映在给定地面真实动词的值和值全部准确性的改进上,同时保持高的前1和前5动词准确性。然而,正如预期的那样,许多情况不能仅仅基于名词的成分来预测(考虑到马睡觉看起来与马游泳非常不同,并且不像人睡觉)。图像回归势和我们的张量合成势(第5行)的组合产生了最佳性能,表明它们正在对问题的互补方面进行建模。我们的最终模型(第5行)仅在imSitu数据上训练,在每个指标上都优于基线,总体提高了1.70分imSitu数据集罕见部分的结果见表2第1-5行。我们的最终模型(第5行)在仅使用imSitu数据训练的模型中,在罕见情况下提供了最佳的整体性能(平均值列),平均提高了0.64点。所有模型都很难获得正确的整个结构(所有列的值),这表明罕见的预测非常难以完全正确,而仅使用图像回归势的基线模型表现最好。我们假设,图像回归潜力可能允许模型更容易地同时协调角色之间的预测,因为总是共同出现的角色-名词组合总是具有相同的回归权重集。7203即时+ SA即时+ SA前1预测动词前5名预测动词基础真值动词是说动词值全值动词值全值值全值基线:图像回归[44]32.3424.6414.1958.8842.7622.5565.6628.9636.2537.97张量合成+reg32.9625.3214.5760.1244.6424.0069.232.97基线:图像回归32.324.9514.7759.5244.0823.9967.8231.4637.3639.48张量合成+ reg + self train34.1226.4515.5162.5946.8825.4670.4434.38表3:完整imSitu测试集的情况预测结果。模型在测试集上只运行一次。一般趋势与在开发集上运行的实验相同。前1预测动词前5名预测动词基础真值动词是说动词值全值动词值全值值全值基线:图像回归[44]20.6111.793.0744.7524.855.9850.379.3121.3421.55张量合成+reg19.9611.572.3044.8925.264.8753.3910.15基线:图像回归19.4611.152.1343.5224.144.6551.218.2620.5722.95张量合成+ reg + self train20.3211.872.5247.0727.506.3555.7212.28表4:imSitu测试集的稀有部分的情况预测结果。模型在测试集上只运行一次。支持在开发集上确定的一般趋势语义数据扩充我们在完整的即时开发集上的结果在表1的第6行-8.总体结果表明,语义数据增强有助于所有模型,而我们的张量模型(第7行)比基线(第6行)受益更多。自我训练稍微改进了张量模型(第8行),使其在前1和前5的预测中表现更好,但在给定黄金动词的情况下会损害性能。平均而言,我们的最终模型比在相同数据上训练的基线CRF高出2.04个点。imSitu数据集罕见部分的结果见表2第6-8行令人惊讶的是,在极少数情况下,增敏会损害基线CRF(第6行)。罕见的实例图像搜索结果非常嘈杂。密切1009080706050403020100基线CRF复合CRF+SA0 102030405060708090100110120最少观察角色的样本数,值对检查时,许多返回的结果根本不包含目标活动,而是包含目标名词。我们假设,如果没有有效的全局名词表示,基线CRF无法从这些额外数据中提取有意义的信息。另一方面,我们的张量模型(第7行)在这些罕见的情况下总体上有所改进,并且通过自我训练进一步改进(第8行)。总体结果实验表明:(a)我们的张量模型能够在可比数据设置中表现得更好(b)我们的语义增强技术在很大程度上使所有模型受益,以及(c)我们的张量模型从语义增强中受益更多我们还在图5中展示了所有样本中前5个动词的完整性能。虽然我们的语义增强的组合CRF优于基线CRF,但两种模型在罕见情况下仍然存在问题我们的技术似乎给最benefit的例子,需要预测的结构之间看到的5和35倍,而提供一些更少的benefit适合甚至罕见的。对极其罕见的输出进行进一步改进是未来工作的挑战。我们还评估了我们的模型在imSitu测试集ex-once。表3总结了完整的即时测试集的结果,表4总结了罕见部分的结果。根-图5:i m S i t u 开 发 集 上 的 前5名动词准确性。我们最终的具有语义数据增强的组合CRF在极少数情况下(少于10个训练示例)优于基线CRF,但两个模型都继续与语义稀疏性作斗争对于我们的最终模型,相对于基线的最大改进是训练集上有5-35个示例的情况。支持在即时开发集上建立的所有趋势。我们在图6中提供了我们的最终系统对开发集中罕见的示例进行预测的示例。6. 相关工作处理语义稀疏性的学习与zero-shot或k-shot学习密切基于属性的学习[24,25,12],跨模态迁移[39,28,15,26]和使用文本先验[32,18]都已被提出,但它们研究分类或其他简化设置。对于结构化的情况,已经观察到图像字幕模型[45,22,7,11,33,20,35,31]缺乏多样性和泛化[42]。最近对这些问题的深入了解的努力是从captions中提取主语-动词-宾语(SVO)三元组,并计算罕见元组的预测失败[3]。我们使用imSitu来研究语义稀疏性,避免了对标题和一般-前5名动词准确性7204修复牵引依偎剥离烧烤拖动作用值作用值作用值作用值作用值作用值剂人剂人项目水槽(1)剂卡车剂犀牛(0)剂人剂人项目轮胎(2)项目橙色(1)工具手项目船助剂犀牛(0)工具削皮器项目肉类(1)表面土地问题地方内部地方汽车旅馆(2)地方汽车旅馆(2)地方地方户外工具地方绳外面图6:包含稀有角色-名词对的开发示例的最终模型的输出。第一行包含模型正确预测前5个(top-5,value-all)中的整个结构的示例。我们用黄色框突出显示使示例罕见的特定角色-名词对,并将其出现的次数放入imSitu训练集中。第二行包含的示例中,动词在前5名中被正确预测,但并非所有值都被正确预测我们用红色突出显示不正确的预测许多这样的预测在训练集中出现零次(例如。第二行上的第三图像)。所有系统都在与这种情况作斗争。将两个以上的参数转换为动词。组合模型已经在自然语言处理中的许多应用中进行了探索,例如情感分析[41],依赖解析[27],文本相似性[4]和视觉问答[1],作为组合自然语言元素进行预测的有效工具。最近,双线性池化[30]和紧凑双线性池化[16]已经被提出作为细粒度识别和视觉问答等任务的二阶特征表示。我们建立在这样的方法,使用低维嵌入的语义单位和表达外积计算。使用网络作为图像理解的资源已经通过NEIL [ 6 ]和Levan [ 10 ]进行了研究,NEIL [6]是一种连续查询文本中发现的概念的系统,Levan [10]可以从用户指定的查询中创建检测器。Web监督也被用于预训练卷积神经网络[5]或细粒度鸟类分类[5]和常识推理[38]。然而,我们是第一个探索语义稀疏性和语言之间的联系,用于自动生成语义Web增强的查询,并且我们能够在大规模,完全监督的结构化预测任务上显示出改进。7. 结论我们研究了情况识别,一个典型的结构化分类问题,具有显着的语义稀疏性。尽管绝大多数可能的输出配置很少在训练数据中观察到,但我们证明了引入新的组合模型是可能的,这些模型可以在所需的输出和语义数据增强技术之间有效地共享示例,从而显着提高性能。在未来,引入类似的技术来解决语义稀疏的相关问题并将这些想法推广到零射击学习将是很重要的。致谢本工作是在部分由ONR N 00014 -13-1-0720 、 NSF IIS-1338054 、 NSF- 1652052 、 NRI-1637479、NSF RI-1525251、DARPA支持,CwC计划通过ARO(W 911 NF-15-1-0543),两个艾伦杰出研究员奖,和艾伦人工智能研究所。我们感谢Jayant Krish-namurthy对张量方法的作用有帮助的见解 。 此 外 , Eunsol Choi , Ricardo Martin , NicholasFitzgerald,Yannis Konstas,Wendon Lee以及所有反馈都大大改进了工作的评论家。表地方街地方地方外面地方地方外面地方刀工具建筑(3)源药物物质脂肪移除树(5)项目对ADRESSEE障碍注射器源土地DEST.肉类(5)项目CAT(5)剂土地DEST.马(2)DEST.冰熊(1)剂人剂车剂人剂人剂值作用值作用值作用值作用值作用值作用修剪撞眨眼跳注入滑7205引用[1] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩神经模块网络。在IEEE计算机视觉和模式识别会议论文集,第39-48页,2016年。[2] S. Antol,A. Agrawal,J. Lu,M.米切尔,D。巴特拉角L. zitnick和D.帕里克Vqa:可视化问答。2015年国际计算机视觉会议[3] Y. 阿特兹蒙,J. Berant,V. Kezami,A. 格罗伯森,G.谢奇克 学习归纳图像理解中的新构图。arXiv预印本arXiv:1608.07639,2016年。[4] M. Baroni和A.伦西分布式内存:基于语料库的语义学通用框架。计算语言学,36(4):673[5] X. Chen和A.古普塔。卷积网络的Webly监督学习在IEEE计算机视觉国际会议论文集,第1431-1439页[6] X. Chen,中国山核桃A. Shrivastava和A.古普塔。从网络数据中提取视觉知识在IEEE计算机视觉国际会议论文集,第1409- 1416页[7] X.Chen 等 人 , 《 LearningaRecurrentVisualRepresentation for Image Caption Generation》。arXiv:1411.5654,2014年。[8] D. 达斯自然语言语义学的半监督和潜变量模型。博士论文,CMU,2012。[9] J. Devlin,S.古普塔河,巴西-地格尔希克M Mitchell和C.L.小痘痘。探索最邻近方法的图像captioning。arXiv预印本arXiv:1505.04467,2015。[10] S. Divvala,A.Farhadi和C.Guestrin. 学习关于任何事情的一切:视觉概念学习。IEEE计算机视觉和模式识别会议论文集,第3270-3277页,2014年[11] H. 从字幕到视觉概念和背部。arXiv:1411.4952,2014。[12] A. Farhadi等人 按属性描述对象。 在CVPR,2009年。[13] C. J. Fillmore等人framenet的背景。国际词典学杂志,2003年。[14] N. FitzGerald等人基于神经网络因子的语义角色标注。在EMNLP,2015年。[15] A. Frome等人Devise:一个深度视觉语义嵌入模型。在NIPS,2013年。[16] Y. Gao、黄花蒿O. Beijbom,N. Zhang和T.达雷尔。紧凑 的 双 线 性 池 。 arXiv 预 印 本 arXiv : 1511.06062 ,2015。[17] D. Gildea和D.朱拉夫斯基语义角色的自动标注。计算语言学,28(3):245[18] S. Guadarrama等人Youtube2text:使用语义层次和零射击识别来识别和描述任意活动。InICCV,2013.[19] S. Gupta和J.马利克可视化语义角色标注。arXiv预印本arXiv:1505.04474,2015。[20] M. Hodosh等人将图像描述成帧作为排名任务:数据、模型和评估指标。JAIR,2013.[21] Y. Jia等人Caffe:用于快速特征嵌入的卷积架构arXiv:1408.5093,2014。7206[22] A. Karpathy等人用于生成图像描述的深度视觉语义对齐。arXiv:1412.2306,2014年。[23] S. Kazemzadeh,V. Ordonez M. Matten和T. L.伯格。推荐游戏:指自然景物照片中的物体。在2014年自然语言处理经验方法会议(EMNLP)的会议记录中,第787-798页[24] C. H. Lampert,H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。IEEE Transactions on Pattern Analysisand Machine Intelligence,36(3):453[25] C. H. Lampert等人学习通过类间属性转移检测不可见对象CVPR,2009。[26] A. Lazaridou等人这是万匹木克吗 在ACL,2014年。[27] T.雷,Y。张河,巴西-地Barzilay和T.贾科拉用于对依赖结构进行评分的低秩张量。计算语言学协会,2014年。[28] J. Lei Ba,K. Swersky,S. Fidler等人使用文本描述预测深度零触发卷积神经网络。在IEEE计算机视觉国际会议论文集,第4247-4255页[29] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Doll a'r 和 C. L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象。在欧洲计算机视觉会议上。2014年[30] T.- Y. Lin,L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn模型在IEEE计算机视觉国际会议论文集,第1449-1457页[31] T.- Y. Lin等人,Microsoft coco:上下文中的公用对象。在ECCV。2014年[32] C.卢河,巴西-地克里希纳,M。Bernstein和L.飞飞视觉关系检测与语言先验。在欧洲计算机视觉会议上,第852施普林格,2016年。[33] J. Mao等人用多模态递归神经网络解释图像。arXiv:1410.1090,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ***+SQL三层架构体育赛事网站毕设源码
- 深入探索AzerothCore的WoTLK版本开发
- Jupyter中实现机器学习基础算法的教程
- 单变量LSTM时序预测Matlab程序及参数调优指南
- 俄G大神修改版inet下载管理器6.36.7功能详解
- 深入探索Scratch编程世界及其应用
- Aria2下载器1.37.0版本发布,支持aarch64架构
- 打造互动性洗车业务网站-HTML5源码深度解析
- 基于zxing的二维码扫描与生成树形结构示例
- 掌握TensorFlow实现CNN图像识别技术
- 苏黎世理工自主无人机系统开源项目解析
- Linux Elasticsearch 8.3.1 正式发布
- 高效销售采购库管统计软件全新发布
- 响应式网页设计:膳食营养指南HTML源码
- 心心相印婚礼主题响应式网页源码 - 构建专业前端体验
- 期末复习指南:数据结构关键操作详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功