基于深度变分结构强化学习的视觉关系和属性检测

173 浏览量更新于2023-10-16 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1人脚穿着跪在圆木上对滑板头盔衬衫黄色冲浪板黄绿黑白色白色黄色日志蓝色站在基于深度变分结构强化学习的视觉关系和属性检测梁晓丹Lisa Lee Eric P.邢卡内基梅隆大学{xiaodan1，lslee，epxing}@ cs.cmu.edu摘要计算机仍然难以理解作为整体的场景中对象的相互依赖性，例如，对象或其属性之间的关系现有的方法往往忽略全局上下文线索捕捉不同对象实例之间的相互作用，只能通过穷尽地训练各个检测器来识别所有可能的关系。为了捕捉这种全局的相互依赖性，我们提出了一个深度的变分结构的再增强学习（VRL）框架，以顺序地发现整个图像中的对象关系和属性。首先，一个有向语义动作图是建立使用语言先验提供一个丰富和紧凑的表示对象类别，谓词和属性之间的语义相关性。接下来，我们用一个变体-女人具有对穿着对潜水服对象关系属性图1. 在每个示例中（左和右），我们显示了图像中对象的绑定框（顶部），以及我们提出的VRL框架识别的关系和属性（底部）。为了清楚起见，仅示出了前几个结果。识别对象之间的交互和关系结构化遍历动作图，以基于当前状态和历史动作为每个步骤构造小的自适应动作集具体地，使用模糊感知对象挖掘方案来解决对象检测器无法区分的对象类别之间的语义模糊。然后，我们使用深度RL框架进行顺序预测，将全局上下文线索和先前提取的短语的语义嵌入到状态向量中。我们在视觉关系检测（VRD）数据集和大规模视觉基因组数据集上的实验验证了VRL的优越性，它可以在涉及数千种关系和属性类型的数据集上获得显著更好的检测结果我们还证明了VRL能够通过学习共享图节点上的相关性来预测嵌入在我们的动作图中的不可见类型。1. 介绍虽然在图像分类[7]、检测[25，16，18]和分割[20，15，17]方面已经取得了很大的进展，但我们仍然远远没有达到整体场景理解的目标，即能够识别的模型并描述它们的属性。虽然对象是图像的核心构建块，但通常是关系和属性决定了对场景的整体解释。例如图1、左图可以理解为“一个男人站在黄绿相间的滑板上”，右图可以理解为“一个女人穿着蓝色的潜水衣跪在冲浪板上”。能够提取和利用这种视觉信息将有利于许多现实世界的应用，如图像搜索[24]，问题回答[1，9，14]和细粒度识别[34，4，32]。视觉关系是一对通过谓词连接的局部化对象;例如，谓语可以是动作（ “kick” ）、比较级（ “smallerthan”）、空间（“near to”）、动词（“wear”）或介词（“with”）。属性描述本地化对象，例如，颜色（“黄色”）或状态（“站立”）。由于以下原因，检测关系和属性比传统的对象检测更具挑战性[25]：（1）存在大量可能的关系和属性类型（例如，视觉基因组中有13，894种关系类型[13]），导致罕见和不常见类型的偏斜更大。(2)每个对象都可以与许多关系和属性相关联，这使得穷尽搜索每对对象的所有可能关系变得低效。（3）从全球、整体的角度，848849…喂养物镜：头盔sub：女…大象坐在…走在路…历史短语嵌入历史短语嵌入小球上述近后面高睡觉状态新对象实例物镜：头盔旁边人年轻虚拟化@结构化测试系统与…站在DeepQ@Networ k裤子属性操作（attributeactions）滑板头盔衬衫具黄绿色白色黑色日…对睡强年轻的微笑...+对象操作站在裤子戴着头盔在天空后面有......终端行动（g#，壮士站在滑板上的男人头盔木工板物镜：SKsub：man有向语义动作图状态DeepVariation@struc tReinfor cem en tLearnin g（VRL）新状态行动（g#，g%，g）ga=强g）=站立g+=头盔图2. VRL框架的概述，顺序检测关系（“主语-谓语-宾语”）和属性（“主语-属性”）。首先，我们建立一个有向语义动作图G来配置整个动作空间。在每个步骤中，输入状态由当前主体和对象实例（“sub：man”，“obj：skateboard”）以及历史短语嵌入组成G上的变分结构遍历方案动态地构造了三个小的动作集a，智能体预测三个动作：（1）ga∈a，主语的属性;（2）gp∈np，主宾之间的谓语;以及（3）gc∈nc，下一个感兴趣的对象类别（“obj：helmet”）。新状态由新的主体/客体实例（该图像对于解决语义歧义（例如，“穿潜水服的女人”vs.“穿衬衫的女人”）。实例方法[27，10，21，33]仅预测有限的关系类型集（例如，13 in Visual Phrase[27]）和通过单独评估场景内的每个区域来忽略关系和属性之间的语义相互依赖性[21]。对每个区域的所有位置进行穷尽式搜索是不切实际的，也偏离了人类的认知。因此，优选的是具有更有原则的决策框架，其可以在少量搜索步骤内发现所有相关关系和属性。为了解决上述问题，我们提出了一个深度变分结构强化学习（VRL）框架，该框架通过利用全局上下文线索来顺序地检测关系和属性实例。首先，我们使用语言先验来构建一个有向语义动作图G，其中节点是名词、属性和谓词，由表示语义相关性的有向边连接（见图2）。2）的情况。此图提供了一个信息量很大的紧凑表示，使用共享图节点从频繁关系和属性中学习罕见关系和属性的模型。例如，从“person-riding- bicycle”（人骑自行车）中学习到的“riding”（骑）的语义可以帮助预测罕见短语“child-riding- elephant”（小孩骑大象）。这种泛化能力允许VRL处理大量可能的关系类型。其次，现有的深度强化学习（RL）模型[29]通常需要几次代价高昂的试错来收敛，即使动作空间很小，我们的大动作空间也会加剧这个问题。为了在少量的步骤中有效地发现所有的关系和属性，我们在动作图上引入了一种新的变分结构遍历方案，基于当前状态和历史动作，为每个步骤设置小的自适应动作集 a、 b、 c： CAXA包含描述对象的可编辑属性;candip包含用于关联一对对象的候选谓词;并且BRAC包含要在下一步中挖掘的新对象实例。由于一个对象实例可能属于多个对象类别的对象检测器无法区分，我们引入了一个模糊感知的对象挖掘方案，分配给每个对象最合适的类别给定的全球场景上下文。我们的变分结构遍历方案提供了一种非常有前途的技术，用于将深度RL的应用扩展到复杂的现实任务。第三，为了更好地推理，我们将全局上下文线索明确编码在状态向量中先前提取的短语的语义嵌入。与之前的RL方法中附加历史帧[35]或二进制动作向量[2在Visual Relationship Detection（VRD）数据集[21]和Visual Genome数据集[13]上的大量实验表明，所提出的VRL在关系和属性检测方面优于最先进的方法，并且对于预测未知类型也具有良好的泛化能力。2. 相关作品视觉关系和属性检测。人们对视觉关系检测的问题越来越感兴趣[27，26，13]。然而，大多数现有方法[27] [13]只能通过训练单个检测器来检测少数预定义的频繁类型850对于每一种关系。最近，Lu等。[21]利用词嵌入来处理大规模的关系。然而，他们的模型仍然忽略了对象和关系之间的结构化关联此外，一些方法[10，28，19]将预测组织到场景图中，该场景图可以提供用于描述每个图像中的对象、其属性和关系的结构化表示特别地，Johnson et al.[10]介绍了一个条件随机场模型的推理可能接地- ings的场景图，而舒斯特等人。[28]提出了一种基于规则和分类器的场景图解析器。与此相反，建议的VRL使第一次尝试顺序发现对象，关系和属性，充分利用全球的相互依赖性。深度强化学习将深度学习方法与强化学习（RL）[11]相结合，最近在决策问题上显示出非常有前途的结果。例如，Mnih et al.[23]建议使用玩ATARI游戏的深度Q网络。Silver等人[29]提出了一种基于Monte-Carlo树搜索与深度RL集成的新搜索算法，该算法在围棋比赛中击败了世界冠军。其他努力将深度RL应用于各种现实任务，例如，机器人操作[6]、室内导航[35]和对象建议生成[2]。我们的工作涉及比ATARI游戏或在某些受限场景中拍摄的图像复杂数以千计的attribute类型）。为了处理这样一个大的动作空间，我们提出了一个变分结构的遍历计划，在整个动作图，以减少在每一步中可能的动作的数量，这大大减少了试验的数量，从而加快收敛。3. 深度变分结构强化学习我们提出了一个新的VRL框架，制定了一个顺序的决策过程中检测视觉关系和属性的问题。图1中提供了概述。二、VRL的关键组件，包括有向语义动作图、变分结构遍历方案、状态空间和奖励函数，将在以下部分中详细介绍。3.1. 有向语义动作图我们构建了一个有向语义图G=（V，E），将所有可能的对象名词、属性和关系组织成一个紧凑且语义有意义的表示(see见图2）。节点V由所有候选对象类别C、属性A的集合组成. C语言中的对象范畴是名词，可以是人、地点或对象的一部分A中的属性可以描述颜色、形状或姿势。包含谓词范畴P的关系是有向的，也就是说，它们通过谓语将主语名词和宾语名词联系起来。谓词边可以是空间的（例如，“inside of”）、组成（composite）（例如，“的一部分”）或动作（例如，“摆动”）。有向边E由属性短语EA <$C × A和谓词边组成。因此，谓语短语是C × P × C。属性短语（c，a）∈EA表示属于名词c∈ C的属性a∈A。例如，属性短语“younggirl”可以表示为（“girl”，“young”）∈ E A。谓语短语（c，p，c′）表示主语名词c ∈ C和宾语名词c′∈ C之间通过谓语边p∈ P相联系。例如，谓语短语“swinging”,最近发布的Visual Genome数据集[13]提供了一个大规模的图像注释，包含18，136个独特的对象类别，13，041个独特的属性和13，894个独特的关系。然后，我们选择在Visual Genome数据集中出现至少30次的类型，得到1，750个对象类型，8，561个属性类型和13，823个关系类型。从这些属性和关系类型中，我们通过提取所有唯一的对象类别词、属性词和谓词词作为图节点。因此，我们的有向动作图包含|C|=1750个对象节点，|一|=1049个属性节点，并且|P|=347个谓词作为边。平均每个宾语词与5个属性词和15个谓语词。这个语义动作图充当VRL的动作空间，我们将在下一节中看到。3.2. 变异结构强化学习我们提出了一种新的语义动作图上的变异结构遍历方案，而不是像在trans-weak deep RL [23，35为每一步动态构造小的动作集。VRL首先利用对象检测器得到候选对象实例集S，然后依次为每个实例s∈ S分配关系和属性。对于我们的实验，我们使用最先进的Faster R-CNN [25]作为对象检测器，其中网络参数使用预训练的VGG-16ImageNet模型进行初始化[30]。由于图像中的主题实例通常具有多个关系和属性，因此我们进行广度优先搜索：我们预测与当前感兴趣的主题实例相关的所有关系和属性，然后移动到下一个实例。我们从具有最可信分类分数的主题实例开始。为了防止代理被困在单个搜索路径中（例如，在小的局部区域中），如果代理在宽度优先搜索中已经遍历了5个相邻对象，则代理选择新的开始对象实例。多个场景中的相同对象可以由不同的、语义上模糊的名词类别来描述，851CC状态Conv5_3特征图状态特征整个变化（结构化4096（d）图像feat.附ROI池化4096（d）融合动作空间1049（d属性操作2048（d）动作空间4096（d）主题feat.347（d）谓词动作历史短语嵌入物4096（d）目标壮举。1751（d对象类别操作9600（d历史短语嵌入有向语义动作图变体（结构化遍历方案sub：manObj：Skateboard图3.深度VRL的网络架构状态向量f是（1）整个图像的4096-dim特征，取自预训练的VGG-16 ImageNet模型的fc 6层[30];（2）主体s和对象s'实例的两个4096-dim特征，取自训练的Faster R-CNN对象检测器的conv 5 3层;以及（3）9600-dim历史短语嵌入，它是通过连接来自VRL预测的最后两个关系短语（涉及s和s′）和最后两个属性短语（描述s）的Skip-thought语言模型[ 12 ]的四个2400-dim语义嵌入创建的。在有向语义动作图上的变分结构遍历方案从整个动作空间中产生较小的动作空间，该动作空间最初由以下组成|一|= 1049个属性，|P|= 347个同品种器械，以及|C|= 1750个对象类别加上一个终端触发器。从这个变化结构的动作空间中，模型选择在状态f中具有最高预测Q值的动作。1人人人人人具有头人在短裤人控股飞盘在图5中）。设N（s）≠ S是s的近邻对象集，其中s的近邻被定义为任意对象。2头3短裤项目 ∈S使得|sx−sx|0<的情况。5（sw+sw）和4飞盘5树树树6壁壁树背后人树旁边壁壁背后人|0的情况。|<0. 5（sh+sh）。F或每个对象s，设C（s）C为其置信度得分为最多100美元。比最自信的猫egoryy少1。让C=s<$∈N（s）\HSC（s<$）<${Terminal}，其中HS是图4. VRL会进行连续的广度优先搜索，预测-在移动到下一个实例之前，检查与当前主题实例相关的所有关系和属性。不能被物体检测器区分。为了解决这种语义上的歧义，我们引入了一个歧义感知的对象挖掘方案，利用场景上下文捕获的提取的关系和属性，以帮助确定最合适的对象类别。变分结构动作空间。有向色图G作为VRL的作用空间. 对于图像中的任何对象实例s ∈ S，用sc∈ C表示其对象类别，用B（s）=（s x，s y，s w，s h）表示其边界框，其中（s x，s y）是中心坐标，s w是宽度，SH是高度。给定当前主体实例s和对象实例s′，我们根据VRL网络选择三个动作ga∈ A，gp∈ P，gc∈ C，如下所示：(1) 从集合中选择一个描述s的属性ga，{a：（s c，a）∈EA\HA（s）}，其中HA（s）表示s的先前挖掘的属性短语的集合。(2) 从p={p：（s c，p，s′）}中选择一个与主语名词s c和宾语名词s ′相关的谓语g p。一组先前提取的对象实例，Terminal是一个终端触发器，指示此主题实例的对象挖掘方案的结束。如果N（s）\Hs为空或终端触发器被激活，则我们选择遵循宽度优先方案的新终端trigger允许动态指定每个主题实例的对象挖掘步骤数，并将其限制为一个小数目。每个对象都可以用许多属性自然地描述，而地面实况注释通常是因此，我们消除了终端触发属性，以允许VRL预测更多的属性。为了消除最终结果中的不良预测，我们过滤掉具有低置信度分数的检测到的属性。在每一步中，VRL从自适应动作集合中选择动作，由于它们的动态结构，我们称之为变化结构动作空间。状态空间。状态特征提取过程的详细概述如图所示3 .第三章。给定每个时间步中的当前主体s和对象s′实例，状态向量f是（1）s和s′的特征向量;(2) 整个图像的特征向量;（3）历史短语嵌入向量，由concatenat创建(3) 为了选择图像中的n个对象实例s∈S，我们从集合k c k c C中选择其对应的对象类别g c，该集合k c k c c c是分析VRL代理在其动作历史中选择的最后两个关系短语（涉及s和s′）和通过变分结构遍历挖掘的最后两个属性短语（描述s654123站年轻的站立捕捉裸露的棕色绿色棕色未知未知砖砌的大852cθcCA PC对象动作相邻对象实例Ambient对象类别终端触发器在深度强化学习框架中，它可以被表述为一个决策过程由于高维连续图像数据和无模型环境，我们求助于[22，23]提出的深度Q网络（DQN）框架，该框架可以很好地推广到不可见的输入。我们的Q网络的详细架构如图所示3 .第三章。具体来说，我们使用DQN来估计三个Q值集，参数化通过网络权值θa，θp，θc，分别对应于作用集A，P，C.在每一次训练中，我们都用了一个...贪婪策略来选择变化中的动作ga、gp、gc图5.歧义感知对象挖掘的说明。那个...左边的年龄显示了主体实例（红框）和它邻近的对象实例（绿框）。动作集合Dec包含对象检测器不能区分的每个相邻对象的候选对象类别（例如， “hat” vs. “helmet”), and aterminal trigger indicating the end of the object mining schemefor this subject方案。更具体地，每个短语（例如，整个图像的特征向量提供了全局上下文线索，这不仅有助于识别关系和属性，而且还允许代理意识到其他未覆盖的对象。历史短语嵌入捕获已经被代理遍历的搜索路径和场景上下文。奖励：假设我们有groundtruth标签，结构化动作空间a，b，c，其中智能体以概率n选择随机动作，并以概率1−n选择具有最高估计Q值的动作。在测试过程中，我们直接选择最好的行动与最高的估计Q值在ESTA，ESTA，ESTAc。该代理顺序确定最佳的行动，发现对象，相对，在给定的图像中的属性，直到达到最大搜索步骤或没有剩余的未覆盖对象实例。我们还利用重放记忆来存储过去的经验。在每一步中，我们从重放存储器中抽取一个随机的小批量来执行Q学习更新。重放记忆通过平滑过去经验的训练分布来减少训练样本之间的相关性[22，23]。给定一个过渡样本（f，f′，ga，gp，gc，Ra，Rp，Rc），网络权重θ（t）、θ（t）、θ（t）更新如下：由图像中的对象实例的集合S组成，并且（t+1）A P C（吨）′（t）−属性短语EA和谓词短语EP描述S中的对象。给定预测对象实例s∈ S，θa=θa+α（Ra+λ maxQ（f，ga′;θa））ga′-Q（f，ga;θ（t）） |Q（f，ga;θ（t）），我们说一个地面实况对象s∈S与s重叠（t+1）（吨）aθa′一（t）−如果具有相同的对象类别（即，sc=s<$c∈C），θp=θp+α（Rp+λ maxQ（f，gp′;θp））gp′（一）它们的边界框至少有0.5个交叉点，-Q（f，g;θ（t））<$Q（f，g;θ（t）），联盟（IoU）重叠。我们定义以下奖励函数来反映ppθ（t+1）=θ（t）（吨）p′pp（t）−′在状态f中采取动作（ga，gp，gc）的检测精度，其中当前主体和对象实例分别为s和s′：(1) R（f，g）返回+1，如果存在一个groundtruthob-c c+α（Rc+λ maxQ（f，gc;θc））′C-Q（f，gc;θ（t））|Q（f，gc;θ（t）），C其中，ga′、gp′、gc′表示可以采取的动作，a a状态f′，α是学习率，λ是折扣因子。与s重叠的对象s∈S，且预测的属性关系（sc，ga）在地面真值集合E<$A中。否则，它返回-1。(2) 如果存在s∈S，s∈S，且（sc，gp，s′）∈E∈P，则Rp（f，gp）返回+1。否则，返回-1。(3) Rc（f，gc）返回+5，如果对应于类别g c ∈C的n个新的对象实例s∈S与一个新的地面实况对象s∈S重叠。否则，返回-1。因此，它鼓励更快地探索图像中的所有对象。3.3. 深度变异结构化强化学习我们优化了三个策略，通过最大化折扣奖励之和为每个状态选择三个动作，目标网络权值θ（t）−、θ（t）−、θ（t）−每τ步从在线网络复制，并在所有其他步骤中保持固定4. 实验数据集。我们在视觉关系检测（VRD）数据集[21]和视觉基因组数据集[13]上进行实验。VRD [21]包含5000个图像（4000个用于训练，1000个用于测试），具有100个对象类别和70个谓词。数据集总共包含37，993个关系实例，具有6，672种关系类型，其中1，877种关系仅在测试中出现而不是在训练集中。对于视觉基因组滑板场坡道帽盔人女人男人衬衫T恤衣服θG853表1. 关系短语检测结果（Phr.）和关系检测（Rel.）在VRD数据集上。R@100和R@50是Recall@100和Recall@50的缩写。方法Phr. R@100 Phr. R@50 Rel. R@100 Rel. R@50[27]第二十七话0.070.04--联合CNN+R-CNN [30]0.090.070.090.07联合CNN+RPN [30]2.182.131.171.15Lu et al.仅V [21]2.612.241.851.58更快的R-CNN [25]3.313.24--联合CNN+训练的RPN [25]3.513.172.221.98更快的R-CNN V [25]6.135.615.904.26Lu等人[21日]17.0316.1714.7013.86我们的VRL22.6021.3720.7918.19Lu等人[21]（零发射）3.763.363.283.13我们的VRL（零射击）10.319.178.527.94数据集[13]，我们在87，398个图像上进行实验（其中5000个用于验证，5000个用于测试），包含703，839个关系实例，13，823个关系类型和1，464，446个属性实例，表2.Visual Genome上的关系检测结果方法Phr. R@100 Phr. R@50 Rel. R@100 Rel. R@50联合CNN+R-CNN [30]0.130.100.110.08联合CNN+RPN [30]1.391.341.221.18Lu et al.仅V [21]1.661.541.481.20更快的R-CNN [25]2.252.19--联合CNN+训练的RPN [25]2.522.442.372.23更快的R-CNN V [25]5.795.224.874.36Lu等人[21日]10.239.557.966.01我们的VRL16.0914.3613.3412.57Lu等人[21]（零发射）1.201.081.130.97我们的VRL（零射击）7.986.537.146.27对象检测器）和所选谓词或属性的Q值。如[21]中所讨论的，我们不使用平均精度（mAP），这是一种悲观的评估指标，因为数据集无法详尽地注释图像中所有可能的关系和属性。在[21]之后，我们评估三个任务：（1）在关系短语检测[27]中，目标是预测一个8,561种属性类型。有2，015种关系类型出现在测试集中，但没有出现在训练集中，这使我们能够评估零射击学习的VRL。实施详情。我们使用共享的RMSProp优化器训练了60个epoch的深度Q网络 [31]。在所有训练图像上执行一集后，每个时期结束。我们使用64张图像的小批量大小。每个图像的最大搜索步长根据经验设置为300。在贪婪训练过程中，贪婪从1线性退火0.1在前20个时期内，并且在剩余时期内固定为0.1。折扣因子λ被设置为0.9，并且复制网络参数θ（t）−、θ（t）−和θ（t）−“subject-predicate-object” phrase, where the localizationof the entire relationship has at least 0.5 overlap with agroundtruth （2）在关系检测中，目标是预测“主谓宾”短语，其中主语和宾语实例的本地化与其对应的地面实况框至少有0.5的(3)在属性检测中，目标是预测基线模型。首先，我们将我们的模型与最先进的方法，Visual Phrases [27]，Joint CNN+R-CNN [30]和Lu等人进行了比较。 [21 ]第20段。请注意，最后-A P C每τ= 10000步。学习率α初始化为0.0007，并且在每10个epoch之后减小10倍只有前100个候选对象实例，由训练的对象检测器的对象置信度得分排名，被选择用于挖掘图像中的关系和属性在VRD [21]上，VRL需要大约8小时来训练具有100个对象类别的对象检测器，并且需要两天来收敛。在Visual Genome数据集[13]上，VRL需要4到5天的时间来训练具有1750个对象类别的对象检测器，并且需要一周的时间来收敛。平均而言，将一个图像前馈到VRL需要300 ms。有关数据集的更多详细信息，请参见第4.第一章这些实现基于在单个 NVIDIA GeForce GTX 1080 上公开提供的Torch7平台评价在[21]之后，我们使用recall@100和recall@50作为我们的评估指标。Recall@x计算正确的关系或属性实例在前x个置信预测中被覆盖的次数的分数，前x个置信预测通过相关对象实例的对象置信度分数的乘积来排名（即，置信得分这两种方法使用R-CNN [5]来提取对象，人症他们在VRD上的结果报告在[21]中，我们还在Visual Genome数据集上实验了他们的方法。Lu et al. V仅[21]分别针对对象和谓词类别训练各个检测器，然后结合它们的置信度来生成关系预测。因此，我们训练并比较以下模型：“更快的R-CNN [ 25 ]”直接检测每个唯一的关系或属性类型，遵循视觉短语[ 27 ]。“Vonly [21]，唯一的区别是Faster R-CNN用于对象检测。““4.1. 与最先进型号的表1、2和3报告了VRD和Visual Genome结果与基线方法的比较。共享探测器vs单个探测器 com-854表3. Visual Genome上的属性检测结果方法属性召回@100属性回忆@50联合CNN+R-CNN [30]2.381.97联合CNN+RPN [30]3.482.63更快的R-CNN [25]7.365.22联合CNN+训练的RPN [25]9.778.35VRL w/o ambiguity穿平底锅的男人男童持杖VRL滑雪者穿着平底锅t男孩举行巴t图6.VRD [21]和我们的VRL之间的定性比较模型可分为两类：（1）为每个谓词或属性类型训练个体检测器的模型，即， Visual Phrases [27] ， JointCNN+ R-CNN [30]，Joint CNN+RPN [30]，Faster R-CNN [25]，JointCNN+训练有素的RPN [25]。(2)训练谓词或属性类型的共享检测器，然后将其结果与对象检测器组合以生成最终预测的模型，即，Lu et al. V only [21]，FasterR-CNN V only [25]，Lu et al.[21]我们的VRL。由于所有可能的关系和属性的空间通常很大，对于不频繁的关系没有足够的训练示例，导致使用单个检测器的模型的平均性能很差RPN vs R-CNN。在所有情况下，我们使用RPN网络[25]优于R-CNN [5]来生成提案。此外，在VRD和VG数据集上训练建议网络还可以增加其他数据集上预先训练的网络的重新调用。语言优先。与简单地从视觉线索训练分类器的基线不同，VRL和Lu等人。[21]利用语言先验来促进预测。Lu等人。[21]使用语义词嵌入来微调一个预测的关系，而VRL遵循一个变分结构的遍历计划，在有向语义动作图建立从语言先验。 VRL和Lu et[21]实现了比其他基线更好的性能，这证明了语言先验对于关系和属性检测的必要性。此外，VRL与Lu等人相比仍然显示出实质性的改进。[21 ]第20段。因此，VRL[21 ]第20段。显著的性能改进也是图7. VRL w/o ambiguity与VRL的比较。使用模糊感知对象挖掘，VRL成功地将模糊的预测解析为更具体的预测（由于RL的顺序推理。定性比较我们显示了一些定性比较与陆等人。[21]在图。图6给出了VRL的更多检测结果。8.我们的VRL产生了丰富的理解的图像，包括定位和识别的对象，并检测对象的关系和属性。例如，VRL可以正确地检测相互作用（“人骑大象”、“人骑马达”）、空间布局（“挂在墙上的图片”、“路上的4.2. 讨论我们对VRL的关键组件进行了进一步的分析，并将结果报告在表4中。强化学习与随机漫步变量结构化的行动空间我们将RL与一个简单的“随机游走”遍历方案进行比较 “Random Walk” only achievesslightly better results than “Joint+Trained RPN [变分结构遍历方案。VRL与RL相比实现了显著更高的召回率（例如，关系检测为13.34% vs 6.23%，属性检测，根据Recall@100）。因此，我们得出结论，使用变分结构的遍历方案，动态配置每个状态的小动作集，可以加速和稳定的学习过程，通过戏剧性地减少可能的动作的数量。例如，谓词动作的数量（347）可以平均下降到15。历史短语嵌入。为了验证历史短语嵌入的有效性，我们评估了VRL 的两种变体：（ 1 ） “VRL w/ohistory phrase“ 没有将历史短语嵌入到状态特征中。这我们的VRLVRD：人员佩戴头盔26.43 24.87VRD：人穿衬衫我们的VRL：personholdphone我们的VRL：人穿衬衫855人图片沙发布朗衬衫蓝色树滑雪者椅子车车挂在对具有绿色混合穿着具有极通过黑色金属黑色穿着壁对时钟人对对对夹克具有衣胸表狗下对路电视靠近女人大象大象大象黑色黑色大天空的轮对车老小椅子站小在在在大蓝色白色站蓝色轮停红色坐布朗泥泞图8. VRL在Visual Genome数据集上生成的关系和属性检测结果的示例。我们展示了每个图像的最佳预测：本地化的对象（顶部）和描述它们的关系和属性的语义图（底部）。表4.VRL及其变体在Visual Genome上的性能方法Rel. R@100 Rel. R@50 Attr. R@100 Attr. R@50联合CNN+训练的RPN [25]2.372.239.778.35随机游走3.673.0910.218.59RL6.235.1012.4710.09VRL，无历史短语9.058.1220.0919.45VRL（带方向动作）10.669.8520.3118.62VRL（含历史操作）11.9810.0123.0222.15VRL w/o ambiguity12.0111.2024.7822.46我们的VRL13.3412.5726.4324.87VRL w/LSTM13.8613.0725.9825.01与原始VRL相比，变体导致召回率下降超过4%。因此，利用历史短语嵌入可以帮助告知当前状态过去发生了什么，并稳定可能陷入重复循环的搜索轨迹。(2)“每个历史动作向量是四个（|C|+|一|+|P|）-对应于最后一个的dim动作向量采取四个动作，其中每个动作向量在所有el中为零除了对应于在C、A、P中采取的三个动作的索引之外，这种变体仍然会导致召回率下降，这表明语言模型学习的语义短语嵌入可以捕获更丰富的历史线索（例如，关系相似性）。模糊感知的对象挖掘。“VRL w/o ambiguity“仅考虑动作集Eqc的每个对象的前1个预测类别。与VRL相比，它获得了较低的召回率，这表明将语义模糊的类别加入到CCLC中可以帮助在不同场景上下文下为每个对象确定更合适的类别。图7示出了两个示例，其中 VRL 成功地将 “VRL w/oambiguity”的模糊预测解决克里特岛（空间行动。与[2]类似，我们在深度RL设置中使用空间动作进行实验，以顺序提取对象实例。变体9维动作向量，按方向（N，NE，E，SE，S、SW、W、NW）加一个终端触发器。在每一步中，代理选择具有最高置信度的邻近对象实例，其中心位于八个方向w.r.t. 的主题实例。对象实例在不同图像上的不同空间布局使得学习空间动作策略变得困难，并且导致该变体表现不佳。长短期记忆“VRL w/ LSTM“是一种变体，其中图中的所有全连接层都是LSTM。3被LSTM [8]层取代，这在捕获长期依赖性方面显示出有希望的结果。然而，“LSTM这表明，历史短语嵌入可以充分模拟历史上下文的顺序预测。4.3. 零射击学习我们还比较了VRL与Lu等人。[21]在零拍学习设置中（见表1和表2）。一个有前途的模型应该能够预测看不见的关系，因为训练数据不会覆盖所有可能的关系类型。Lu等人。[21]使用词嵌入将相似的关系投射到看不见的关系上，而我们的VRL使用大型语义动作图来学习共享图节点上的相似关系。我们的VRL比Lu等人的性能提高了> 5%。[21]这两个数据集。5. 结论和未来工作我们提出了一种新的深度变分结构强化学习框架，用于检测视觉关系和属性。VRL在有向语义动作图上按照变分结构遍历方案顺序地发现关系实例和属性实例它结合了全球的相互依赖性，以促进当地地区的预测。作为未来的工作，可以使用自然语言句子构建更大的有向动作图。此外，VRL可以推广到一个无监督学习框架，从大量的未标记的图像中学习。水人蓝色男子骑电机衬衫橙色长裤牛仔裤856引用[1] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在Proceedings of the IEEE International Conference onComputer Vision，第2425-2433页，2015年。1[2] J. C. Caicedo和S. Lazebnik使用深度强化学习进行主动目标定位。在IEEE计算机视觉国际会议论文集，第2488-2496页，2015年。二、三、八[3] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：3036[4] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象在IEEE计算机视觉和模式识别会议，第1778-1785页1[5] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页六、七[6] S. Gu，E. Holly，T. Lillicrap和S.莱文机器人操作的深度学习。arXiv预印本arXiv：1610.00633，2016年。3[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年6月。1[8] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。8[9] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。在IEEE计算机视觉和模式识别会议上，2016年6月。1[10] J. Johnson，R.克里希纳，M。斯塔克湖J. Li，D.A.莎玛M. S. Bernstein和L.飞飞使用场景图进行图像检索。在IEEE计算机视觉和模式识别会议，第3668-3678页二、三[11] L. P. Kaelbling，M.L. Littman，和A.W. 摩尔强化学习：一个调查。人工智能研究杂志，4：237-285，1996。3[12] R. Kiros，Y.朱河，巴西-地R. 萨拉胡季诺夫河泽梅尔河乌尔塔孙A. Torralba和S.菲德勒跳过思维向量。神经信息处理系统的进展，第3294-3302页，2015年四、五[13] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma等人可视化基因组：使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv：1602.07332，2016。一二三五六[14] X. Liang，Z.Hu，H.Zhang C.，中国古猿科Gan和E.P. 邢用于可视段落生成的循环主题转换gan。arXiv预印本arXiv：17

下载后可阅读完整内容，剩余1页未读，立即下载