没有合适的资源?快使用搜索试试~ 我知道了~
1338基于递归网络李耀1林国胜2庄博涵1刘凌桥1沈春华1安东·范登亨格尔1阿德莱德大学2南洋理工大学摘要识别日常照片中的人的身份对于机器视觉来说仍然是一个非常具有挑战性的问题,这是由于诸如非正面面孔、服装、位置和照明的变化等问题。最近的研究表明,同一张照片中的人之间丰富的关系信息可以帮助识别他们的身份。在这项工作中,我们建议将人与人之间的关系信息建模为序列预测任务。我们工作的核心是一种新颖的递归网络架构,在这种架构中,实例的标签和外观之间的关系信息除了关系线索,场景上下文被纳入我们的序列预测模型,没有额外的成本。从这个意义上说,我们的方法是一个统一的框架,用于建模上下文线索和视觉appearance的人的实例。我们的模型是端到端训练的,照片中的一系列注释实例作为输入,一系列相应的标签作为目标。我们证明了这个简单而优雅的公式在新发布的相册中的人物(PIPA)数据集上实现了最先进的性能。1. 介绍随着数码相机的广泛采用,拍摄的照片数量以天文数字的方式增加围绕这些相机使用的文化意味着这些照片中有很大一部分是人。这些图片的数量之多,创造了对智能工具的需求,以组织包含人物的照片。其中一个核心步骤是识别这些日常图像中的每个人。先前的工作[1,7,8,23,29,14,12,15]已经表明,由于各种因素,例如非正面人脸,变化的照明和设置,甚至只是随着时间的推移面部外观的变化,在这种不受约束的设置中的人识别仍然是机器视觉的挑战问题为了应对这些挑战,除了面部的外观,最近的研究[1,29,14,12]表明,*G.林书豪的贡献是他在阿德莱德大学时做出的。信件应寄至C。沈图1. 我们的方法执行人识别的照片al-烧伤作为一个序列预测任务。上下文线索和实例的视觉外观都背景线索可以帮助在日常照片中识别人们一个人的其他特征,如衣服[1,7],也可能提供有价值的线索。要识别的人与其他人之间的关系也可以是一个重要的线索[23,4,12]。为了利用不同的关系线索,概率图形模型已被广泛利用[1,23,4,12]。在这项工作中,我们提出了一个序列预测任务,在一个图像中的人之间的丰富的关系进行建模。这在很大程度上是由于序列预测公式在语言问题中对单词之间的关系建模方面的成功[18,22]。在我们的工作中,我们提出了一种新的递归神经网络(RNN)架构的序列预测任务(见图。1),它由卷积神经网络(CNN)和长短期记忆(LSTM)网络组成[10]。LSTM在几个序列预测问题上表现出令人印象深刻的性能,例如图像加帽[22],视频描述[6,20],多标签图像分类[24],机器翻译[18]等。首先,我们将CNN提供的全局图像信息输入LSTM在每个后续步骤中,LSTM的输入是当前人实例的CNN特征表示及其在最后一步的预测标签的联合嵌入。然后,LSTM预测这个人实例的身份标签。从这个意义上说,我们的序列模型中的步骤数量是可变长度的,这取决于图像中注释实例的数量。场景上下文CNNCNNLSTMCNNLSTMCNN关系语境LSTMLSTM1339图2. 相册中的人物识别。在我们的模型中利用了两个上下文线索来源,包括关系上下文和场景上下文(见图1)。2)的情况。关系上下文指的是同一图像中的多个人之间的关系信息(例如,一些人可能一起出现),这自然地被我们的序列预测公式化所结合。基于一些人更可能出现在特定场景中的假设,场景本身可以用作先验以指示哪些身份倾向于出现。在我们的模型中,通过在初始步骤将全局图像特征馈送到我们的序列预测模型来利用该线索,该序列预测模型向系统提供关于场景内容的信息。正如我们将在实验中显示的那样,这两个上下文线索对方法实现最先进性能的能力至关重要。据我们所知,这是第一个将相册中的人物识别公式化为序列预测任务的方法。这种简单但优雅的方法(a)能够在同一框架中对视觉外观和上下文线索进行建模,(b)处理图像中可变数量的实例,(c)是端到端可训练的我们证明了我们的模型在相册中的人物(PIPA)数据集上实现了最先进的性能[29],这是相册中人物识别的基准数据集。2. 相关工作相册中的人物识别。 相册中的人物识别[1,7,23,29,14,12]旨在识别日常照片中的人的身份直觉上,面部区域可能是任务的重要线索,然而,它可能不完全可靠,因为在这种不受约束的设置中,人们可以有非正面甚至背面视图。这使得这个问题比经典的人脸识别要困难得多。PIPA数据集的引入推动了最近关于这一主题的研究[29]。在本文[29]中,作者提出了一种方法,该方法结合了来自三个来源的信息,包括全身,姿势[3]和DeepFace[19]模型。Oh等人[14]评价任务的不同线索的重要性,如不同的身体部位,场景和人类属性。最近,Liet al.[12]建议将上下文线索纳入任务,包括群体层面的上下文和个人层面的上下文。然而,[12]的上下文模型被视为分类结果之后的后处理步骤,我们转而在统一的框架中利用上下文线索和视觉外观。这对于手头的问题特别重要,因为对于每个检测都有许多可能的身份,并且非正面面部线索可能是非常不确定的。一个统一的框架意味着这些线索被集体使用来利用所有可用的信息,并且当人脸识别结果是模糊的时,将成功地克服贪婪方法我们的方法也与识别团体照片中的人的工作有关[8,23,4,13],因为我们的LSTM框架自然地处理同一张照片中的多个人。使用RNN建模依赖关系。RNN,特别是LSTM,最近在序列建模问题中非常受欢迎,这主要是因为它们能够对序列内的依赖关系进行建模。例如,LSTM已被广泛用于机器翻译[18]和视觉到语言问题,如图像标题[22,27],视频描述[6,20]和视觉问题。回答[28,26,25]。与机器翻译中的序列预测模型[18]相比,它包含编码器LSTM和解码器LSTM,我们使用单个LSTM对视觉特征和上下文线索进行从这个意义上说,我们的模型更接近于图像字幕[22]中使用的模型,因为LSTM输出在每个步骤(除了初始步骤)都被发送到分类层,就像图像字幕中的情况一样然而,与图像字幕模型的主要区别在于,我们在每一步(不仅仅是初始步骤)都有一个视觉特征输入到LSTM中。虽然照片中一组人的身份最好被描述为一个集合而不是一个序列,但他们之间存在明显的依赖关系我们在这里试图使用RNN来捕获这种尽管RNN模型在任务中非常流行,但它不是特定于序列的,而是可以通过将序列的前一个元素作为输入来建模RNN实际生成的是以其内部状态和输入为条件的输出。输出可以被解释为序列,但它同样可以被认为是一个集合,或各种其他类型。Wang等人[24],例如,开发LSTM来建模不同用户应用于同一图像的多个标签之间的依赖关系(尽管它们对标签没有自然顺序Stewart等[17]类似地,使用RNN对图像中检测之间的依赖关系进行建模,这些依赖关系也没有自然顺序。1340联合嵌入联合嵌入联合嵌入联合嵌入联合嵌入LSTMLSTMLSTMLSTMLSTMLSTM图3.我们的序列预测方法用于识别相册中的人对于可能包含多个人的图像,我们的方法使用基于LSTM的框架预测序列中每个人的身份LSTM的初始状态由场景上下文通知,在随后的每个步骤中,LSTM的输入是最后一步的标签和当前实例的视觉特征的联合嵌入(见图10)。4详情)。LSTM的任务是预测当前实例的标签 这样,人与人之间的关系就自然而然地纳入了我们的框架。注意y0是辅助恒等式的标号。3. 模型我们提出了一个序列预测方法来识别相册中的人。如图所示3.在每一步(除了第一步),我们联合嵌入先前的标签和身份的当前图像,然后将其作为LSTM的输入。然后,LSTM尝试预测当前正确的标签。 我们的工作在很大程度上受到LSTM在一系列序列预测任务中的成功应用的推动,例如图像字幕[22]和机器翻译[18]。更正式地说,在训练阶段,训练样本我们假设yt的当前预测不依赖于B中的所有实例,而仅依赖于先前看到的实例b1:t-1和当前实例bt。类似于其他任务中的序列预测模型[22,2],我们对条件概率p(yt ) 进 行 建 模 ,|y1:t−1,b1:t,I;θ)与递归神经网络工作,通过引入隐藏状态向量ht,即,p ( yt|y1: t−1 , b1: t , I;θ ) =p(yt|ht;θ)。(3)隐藏状态向量ht具有以下形式:.由图像I、一组带注释的边界框B={b1,b2,. . . ,bN}的人体区域(例如,头部区域)的图像中的N个人的实例,以及它们的相应的ht=f(I; θ)if t=0,f(ht−1,xt;θ)otherwise.(四)响应标签Y ={y1,y2,. . . ,yN}。请注意,N在不同的图像中会有所不同。在我们的工作中,通过将B和Y都视为具有某种顺序的序列(B和Y的顺序必须相同,因此B中的实例与Y中的标签匹配),我们的目标是寻找一组参数θ,该参数最大化在给定输入序列B和所有训练样本中的全局图像I的情况下产生正确标签序列YΣ在Eq. 4是我们RNN架构的新颖部分,它是先前标签yt-1和当前输入实例bt的联合嵌入(更多细节在第2节中提供)。第3.1节)。 F或f(·)我们选择LSTM组件,它在序列建模任务(如图像字幕)上表现出最先进的性能[22,2]。如Eq中所述。图4和图3,在初始步骤(t=0),LSTM的输入是全局图像内容I,它向网络通知场景上下文。为此,我们使用从预训练的Con中提取的特征,θmax=argmaxθ(B、I、Y)logp(Y| B,I; θ)。(一)卷积神经网络(CNN)来表示图像。在后续步骤的输入是当前联合嵌入xt和它的前一个隐藏状态ht−11。直观地说,我们可以使用链因子分解对所有标签y1:N上的联合概率进行建模,即,ΣNlogp(Y|B,I;θ)= 1ogp(yt|y1:t−1,b1:t,I;θ), (二)t=11341让zt表示LSTM在第t步的输出。然后,我们使用softmax函数添加一个全连接层(W)1当t= 1时,由于没有前面的身份标签,我们添加辅助身份标签y0。这类似于图像字幕[22]中的情况,其中使用特殊的开始标记来表示句子的开始1342这两种制剂的性能在实验部分(第12节)中进行了分析。4.2)。(a)(b)第(1)款图4.用于生成LSTM输入x t的联合嵌入层。(a)加法或(b)逐元素最大值可用于联合嵌入。在顶部生成p(y),所有身份标签的概率分布我们在所有步骤上的损失是每一步中地面真实身份标签ytΣNL= −logp(yt)。(五)t=1通过时间反向传播(BPTT)技术可以最小化上述损失。3.1. 实例要素和标注的联合嵌入在任何步骤t(t>0),我们认为有两个信息源可以帮助预测当前标签。第一个信息源是前一个标签yt-1(利用标签同现信息)。另一个是当前实例bt的外观,这是一个由φ(bt)表示的特征向量。因此,为了生成LSTM输入xt,我们提出了一个联合嵌入层,它结合了来自两个源的有价值的信息。具体而言,如图所示4,在将标签转换为独热向量后,我们定义了两个嵌入矩阵Uy和Ub,分别用于编码yt−1和φ(bt):xt= relu(Uyyt−1+Ubφ(bt)), (6)其中,relu代表Rectified Linear(ReLU)激活函数。这是由[24]的标签嵌入公式激发的。上述加法的替代方案是采用ReLu激活的元素最大值,即,xt= relu(max(Uyyt−1,Ubφ(bt)).(七)3.2. 训练和推理随机顺序训练。在某些序列预测模型中,例如图像字幕,存在输入序列的自然排序(例如,句子中的单词)。对于一些顺序不明显的任务,基于一些启发式规则预先定义顺序。例如,在[9]的人类姿态估计工作中,使用了基于树的关节排序。Vinyals等人的调查。[21]已经表明,对于一些简单的问题,大多数排序都表现得同样好。我们的任务与上面的序列预测任务不同,因为出现在图像中的人没有内在的顺序。因此,我们在训练时选择随机顺序。更具体地说,对于训练图像,它的注释实例和它们的身份标签以相同的顺序随机混洗,以分别生成输入序列和目标序列。因此,训练图像中的人的顺序在不同的时期会有所不同,这将随机性融入了训练过程。推理。在测试时,为了预测查询实例的标识标签,我们为该实例生成多个序列,所有序列的末尾都是查询实例,图像中的其他实例是随机排序的。这背后的基本原理是,为了利用出现在同一图像中的所有人之间的丰富关系信息,我们的序列预测模型应该在预测查询实例之前“看到”图像中的所有其他实例。图5提供了推理过程的演示。请注意,对测试图像中的每个实例执行相同的过程。对于查询实例的每个序列,我们首先提供全局图像特征以生成LSTM的初始状态。然后确定性地预测后续步骤中的标签更具体地,在步骤t(t >0),预测的标签是具有最大输出概率的标识,即,yt=argmaxp(y),其随后被用作用于在下一步骤与另一随机选择的实例联合嵌入的输入标签。该过程在查询实例已经被处理之后停止,这导致在序列结束时查询实例的标识上的概率分布。给定来自查询实例的不同序列的所有概率分布,我们取概率分布的元素最大值,然后在此操作之后将具有最大概率的身份标签分配给查询实例。上述推理过程适用于每个实例独热编码CNN独热编码CNN+ReLUReLU1343测试拆分 #身份实例数#多实例测试0测试1测试0测试1原始5816442644328022797专辑5816497638828142751时间5816440644525912647天19924842485792744表1. PIPA数据集的四个测试拆分的统计数据。“图5.在测试时,为了预测查询实例的标签(例如,虚线框中的那个),我们为这个实例生成多个序列,所有的实例都在最后,其他实例随机排序。该实例的身份标签的概率是该标签在所有序列中的最大概率在测试图像中,即,每个测试实例将被用作用于推理的查询实例。3.3. 讨论上下文信息。已经发现超出人类感知的上下文线索对于相册中的人识别是有价值的[14,12]。在我们的框架中利用了两种类型的上下文线索。第一种类型的语境线索是关系语境,它是同一图像中人与人之间的关系信息,即,有些人往往会出现在同一张照片中。在我们的工作中,这种关系信息是由我们的序列预测公式使用LSTM自然处理的。请注意,在我们的工作中捕获的关系信息4).第二种类型的上下文线索是场景上下文。这是基于这样的假设,即某些身份在某些特定场景中出现得更频繁因此,场景上下文可以被用作用于指示哪些身份可能出现的先验在我们的工作中,这是通过在初始步骤将全局图像特征馈送到LSTM来完成的正如我们将在后面的实验中所展示的那样(第二节)。4.2),对相册中的人物识别的研究[29,14,12]已经表明,可以通过融合来自多个身体区域的信息来提高识别性能。在这项工作中,我们还扩展了我们的配方来处理多个身体区域。一个显而易见的解决方案是跨多个区域的特征连接。我们在实验部分(第二节)对一些特征融合方法进行了深入分析。4.3)。4. 实验4.1. 实验装置数据集和评估指标。照片中的人Al- bums(PIPA)数据集[29]被用于评估我们的方法以及一些基线。PIPA数据集被划分为训练集、验证集、测试集和剩余集。每个实例的头部区域在所有集合中都有注释(见图1)。2)的情况。在以前的工作[29,14,12]中,训练集仅用于学习身体区域的良好特征表示。在[29]中提出的标准评估设置中,测试集本身被分成两个子集,测试0和测试1,实例数量大致相同。给定一个在测试0上训练的识别系统,然后在测试1上进行评估,反之亦然。最近,除了在[29]中提出的原始测试分割之外,[14]中引入了三种更具挑战性的分割,包括专辑,时间和日期分割。专辑分割确保测试0和测试1中的实例来自不同的专辑,而时间和日期分割强调测试0和测试1之间的时间距离(不同事件,不同日期等)。一般来说,这四种拆分按照难度递增的顺序排列是:原作、专辑、时间和日子拆分。我们在表1中提供了四个测试分割的统计数据的概述。根据以前的工作[29,14,12],分类ac-上述上下文线索对于提高分类准确性是至关重要的。多个身体区域。 到目前为止,我们只假设B来自单个注释的身体部分(例如, 头)。 最近curacy用于评估我们的方法和一些基线的性能。具体地,报告测试0和测试1为了深入了解我们的系统,我们还报告了来自具有多个1344分裂方法关系场景总体(%)多重累积(%)单次累积(%)原始仅外观––75. 43七十七。93七十三。51我们的关系C–七十六。73八十73七十三。66我们CC81. 7584. 8579岁。36专辑仅外观––68岁31七十二00六十五52我们的关系C–68岁85七十三。41六十五38我们CC74岁2178岁22七十一16时间仅外观––五十七19五十九7955. 39我们的关系C–五十八5763岁1955. 39我们CC63岁7367岁1761岁37天仅外观––三十六37三十六72三十六23我们的关系C–四十3944. 25三十八岁。71我们CC四十二75四十七25四十74表2.在PIPA测试集上,两个基线以及我们的完整系统在四种设置下的分类准确率(%)“Acc overall”是指从所有实例计算的分类准确度,而“Acc multi”(分别为“Acc single”)是指来自包含多个(分别为单个)实例。本分析采用头部区域。显然,通过对关系和场景上下文进行建模,我们的整个系统的性能明显优于两个基线。和单个实例。实作详细数据。在我们的系统中,利用了两个身体区域,头部和上半身。基于PIPA数据集提供的头部区域的边界框注释,我们估计了上身区域的注释,类似于[14]。 为了学习特征表示,我们分别在这两个区域的PIPA训练集上微调了两个VGG-16网络[16]。在测试分割(测试0和测试1)上,我们从两个区域的微调网络的fc7全局图像内容I是从vanilla VGG-16网络中提取的4096-D fc 7特征,该特征在ImageNet上预先训练[5]。由于每个图像可能包含不同数量的实例,因此我们在训练期间将LSTM展开为固定的22步(最大数量的实例可以出现在PIPA测试分割中)。对于实例少于22的图像,我们用零填充标签,并且不计算填充标签的损失我们训练所有权重,包括标签嵌入权重Uy,图像嵌入权重Ub,分类权重W和LSTM中的权重,并使用Adam优化器的随机梯度下降[11]。初始学习率设定为0.001,20次后下降10倍。我们在80个epoch后停止训练。我们使用512维的嵌入(方程。6和Eq。7)和LSTM内存的大小。4.2. 消融研究为了研究我们方法的不同组成部分的影响,我们考虑以下两个基线以及我们的整个系统。1. “仅外观”:假设CNN网络在PIPA训练集上的身体区域上微调,我们在两个测试分割中的任一个上微调测试样本上的最后一个全连接层,并在另一个上进行评估。从这个意义上说,这种设置仅基于身份的视觉外观,而没有任何上下文信息。2. “我们的关系”:我们仍然使用基于LSTM的框架来建模人与人之间的关系上下文,但我们在初始步骤中不向LSTM提供全局图像内容I。换句话说,在该设置中不利用因此,在这种情况下,唯一利用的3. “Ours”: Our full sequence prediction model with theglobal image content 在这个意义上,关系和场景上下文都被利用。表. 2描述了这三种方法在四种不同设置下的性能。关系语境的重要性。 比较“我们的关系”与“只看外表”的整体表现(表1)。2),我们观察到,前者绕过后者在所有的四个设置。这反映了我们的序列预测模型成功地利用了同一张照片中多个人之间的关系信息当更仔细地观察两条基线在“Acc multi”方面的结果时,很明显,“Acc multi”在“Our-relation”情况下已经见证了实质性的增加,这有助于整体准确性的提高。我们还观察到,1345表3. 图2中联合嵌入公式的两个变体的分类准确度(%4.第一章 在这种情况下使用头部区域。例这是可以理解的,因为当图像中只有一个实例时,没有关系上下文可以利用。场景背景的重要性。比较我们的整个系统的性能与“我们的关系”的情况下2),我们观察到将全局图像内容馈送到我们的序列预测模型一致地导致进一步的实质性改进,从而在所有设置中产生最佳性能。更具体地说,在所有四种设置中,就整体准确度而言,与不利用场景上下文的“我们的关系”基线相比,使用我们的完整系统可以获得约3-4%的准确度增益。也观察到在“Acc multiple”和“Acc single”中这验证了场景上下文对于人识别是有价值的。另外,[14]最近的工作已经发现场景包含对人识别有用的信息,因此我们工作中的观察与[14]一致。与[14]中全局图像线索独立于其他线索进行分析相比,我们是第一个将不同的上下文线索以及实例的视觉外观纳入端到端可训练框架中的人联合嵌入分析。如图所示4,我们提出了两个公式,用于实例特征和标签的联合嵌入,其中来自两个源的信息通过加法(等式4)融合。6)或逐元素最大值(Eq.(七). 我们在此分析这两种变体在PIPA测试集上的性能。如表所示。3,两种包埋配方在四种设置中显示出非常接近的性能,其中因此,我们选择4.3. 区域分析最近关于照片中的人识别的研究[29,14,12]表明,不同的人体区域是互补的,可以实现良好的表现。因此,在以前的作品中采用了建立在不同身体区域上的模型的集合。例如,Zhang等人使用了107个poselet[3]分类器。[29]第10段。表4. 使用单个身体区域(第2-3列)及其不同融合(第3-5列)的分类准确度(%Oh等人[14]已经分析了不同身体区域的贡献(例如,面部、头部、上身、全身)到识别性能。在上述工作之后,我们还扩展了我们的模型,以处理多个身体区域。特别是,在我们的工作中利用的两个身体区域是头部和上身区域。单一区域。如表中所示。4,在所有设置中头部区域的使用优于上身区域,并且当数据集变得更有挑战性时(例如,时间或日期设置)。这是可以理解的,因为在时间或日期设置中,同一个人的上半身的外观可以有显著的变化(例如,更换衣服),这在使用来自上身区域的特征时导致更多的失败。相比之下,头部区域的特征相对稳定。多区域融合。由于不同的身体区域对最终的识别性能具有不同的相对重要性,因此需要融合来自不同区域的信息以获得更好的识别性能。在我们的工作中,我们研究了三种方法来融合我们的序列预测模型中的头部和上身区域1. “Concat”这是我们用头部和上身区域的串联特征训练的模型2. “平均”两个模型分别用头部和上身区域的特征进行训练。测试实例的概率是来自两个模型的概率的平均值。3. “麦克斯”与“平均”情况相同,上述三种方法的性能见表。4.第一章显然,“平均”融合方法显示出使用单个头部或上身区域的性能的最大改进。因此,我们在下面使用“平均”融合方法的性能测试拆分此外元素最大值原始81. 5181. 75专辑七十三。2174岁21时间62. 9763岁73天四十三15四十二75测试拆分单个区域多区域融合头上AvgMaxConcat原始81.7579岁。9284.9384. 0782岁86专辑74岁21七十7878岁2575. 8874岁661346测试拆分头上身头部+上半身[14个]我们[14个]我们[14个]我们原始七十六。4281.7575.0779岁。9283岁6384.93专辑67岁4874岁21六十四65七十7874岁5278岁25时间五十七0563岁7350块90五十八8063岁9866岁。43天三十六37四十二75二十四岁17三十四61三十八岁。94四十三73表5.Oh等的分类准确率(%)[14]和我们在PIPA测试集上的四种不同设置下,使用头部区域、上身区域及其融合。图6.我们的预测使用PIPA测试集上的头部区域正确的预测用红色边界框表示,而错误的预测用绿色表示。最好用彩色观看。4.4. 与最先进技术的现在,我们将我们的方法的性能与人物识别中最先进的方法进行比较。更具体地说,我们与[14]在头部区域、上身区域及其融合方面进行了比较(五)。在[14]中,性能是基于从微调的CNN中提取的特征来实现的,而不包含任何上下文信息。如表中所示5,我们的序列预测模型在所有四种设置中都以合理的幅度优于[14]在原始设置中,我们的结果(84。93%)也优于Zhanget al. [29](83. 05%),尽管我们只使用两个身体区域。相比之下,在[29]中使用了来自107个poselet区域的特征。我们知道,通过使用从外部数据中学习到的更好的特征例如,在[12]中报告了日期设置的更高准确性,其中使用针对面部识别任务训练的CNN从面部区域然而,在我们的工作中,我们只是使用在PIPA训练集上微调我们有兴趣展示我们的序列预测公式如何对上下文信息进行建模-在一个统一的框架下对人进行识别,提高了识别性能。4.5. 可视化我们提供了一些可视化的例子,预测实例在PIPA测试集由我们的顺序模型在图。六、如图6、在大多数照片中,我们的模型都能正确识别照片中的身份,包括一些具有挑战性的情况,如非正面人脸。5. 结论在这项工作中,我们介绍了一个序列预测公式的任务,在照片al- bums的人识别。我们的方法的优点是,它可以在一个统一的框架中建模的照片中的丰富的上下文信息,和个人的外观。我们对我们的模型进行了端到端的训练,与基线和不利用任务上下文信息的方法相比,1347引用[1] D. Anglovio v,K. 李,S。B. G okt u rk和B. 苏门根个人相册中的上下文身份识别。正在进行IEEE会议对比可见光帕特识别,2007年。[2] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔用递归神经网络进行序列预测的定时采样。在Proc. Adv. Neural Inf.过程系统,2015年。[3] L. D. Bourdev和J.马利克Poselets:使用3d人体姿势注释训练的身体部位检测器。 在proc IEEE Int. Conf. Comp.Vis.,2009年。[4] Q. Dai,P. Carr,L. Sigal和D.霍伊姆从照片中确认家庭成员身份。2015年。[5] J. Deng,W.东河,巴西-地索赫尔湖Li,K. Li和F.李Imagenet:一个大规模的分层图像数据库。正在进行IEEE会议Comp. 目视帕特识别,第248[6] 多纳休湖A. Hendricks,S. Guadarrama,M. 罗尔巴赫S. Venugopalan,T.Darrell和K.萨恩科用于视觉识别和描述的长期正在进行IEEE会议对比可见光帕特识别,2015年。[7] A. C. Gallagher和T.尘服装共同分割识别人。正在进行IEEE会议对比可见光帕特识别,2008年。[8] A. C. Gallagher和T.尘理解一群人的形象。正在进行IEEE会议对比可见光帕特识别,2009年。[9] G. Gkioxari,A. Toshev和N.贾特利使用卷积神经网络的链式预测。欧洲药典配置文件可见,2016年。[10] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8),1997。[11] D. P. Kingma和J. BA. Adam:随机最佳化的方法。在Proc. Int. Conf.学习.生殖毒性,2015年。[12] H. Li,J. Brandt,Z. Lin,X. Shen和G.华一种用于相册中人物识别的多层次上下文模型。 正在进行IEEE会议对比可见光帕特识别,2016年。[13] C. S. Mathialagan,A.C. Gallagher和D.巴特拉VIP:在图像中找到重要人物。正在进行IEEE会议对比可见光帕特识别,2015年。[14] S. J哦R Benenson,M. Fritz和B.席勒个人照片集中的人物识别。在Proc. IEEE Int. Conf. Comp. Vis. ,2015年。[15] S. J哦R Benenson,M. Fritz和B.席勒无脸人物识别:社交媒体中的隐私问题。欧洲药典配置文件可见,2016年。[16] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在Proc. Int. Conf. Learn中。生殖毒性,2015年。[17] R. Stewart,M. Andriluka和A. Y. Ng.拥挤场景中的端到端人员检测 在proc IEEE会议Comp. 目视帕特识别,2016年。[18] I. Sutskever,O.Vinyals和Q.诉乐用神经网络进行序列到序列学习在proc Adv. 神经信息过程。系统,2014年。[19] Y.泰格曼,M。杨,M. Ranzato和L.狼Deepface:缩小与人脸验证中人类水平性能的差距正在进行IEEE会议对比可见光帕特识别,2014年。[20] S. Venugopalan、M. Rohrbach,J.多纳韦河J. 穆尼T. Darrell和K.萨恩科序列到序列-视频到文本。正在进行IEEE国际配置文件目视,2015年。[21] O. Vinyals,S. Bengio和M.库德鲁订单事项:集合的序列。 在proc Int. Conf. 学习. 生殖毒性,2016年。[22] O. Vinyals,A. Toshev,S. Bengio和D.二汉展示和讲述:神经图像字幕生成器。正在进行IEEE会议对比可见光帕特识别,2015年。[23] G. Wang,中国山核桃A. C. Gallagher,J. Luo和D. A.福赛斯在社会背景下看人:认识人和社会关系。欧洲药典配置文件可见,2010年。[24] J. Wang,Y. Yang,J. Mao,Z.黄角Huang和W. 徐CNN-RNN:多标签图像分类的统一框架正在进行IEEE会议对比可见光帕特识别,2016年。[25] P. 王,英-地吴角,加-地Shen,中国古猿A.诉D. Hengel和A.Dick. Fvqa :基 于事实 的可视 化问答 。arXiv:1606.05433,2016年。[26] Q. 吴角,加-地Shen,中国古猿A.诉D. 亨格尔山口Wang和A.Dick. 基于属性及其相关外部知识的图像字幕和可视问答. arXiv预印本arXiv:1603.02814,2016。[27] Q.吴角,加-地申湖,澳-地Liu,中国粘蝇A. R. Dick和A.范登亨格尔。外显的高级概念对语言问题的视觉有什么价值?正在进行IEEE会议对比可见光帕特识别,2016年。[28] Q. Wu,P. Wang,C. Shen,中国古猿A. van den Hengel和A. R. Dick.问我任何事情:基于外部来源的知识的自由形式的可视化问题回答。在Proc. IEEE Conf. Comp.目视帕特识别,2016年。[29] N. Zhang,M.Paluri,Y.泰格曼河Fergus和L.D. 布尔-德夫。正面以外:使用多个线索改进人识别。正在进行IEEE会议对比可见光帕特识别,2015年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功