单目深度估计的弱监督空间推理模型

160 浏览量更新于2023-09-25 收藏 9.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

190819091910单目（单图像）深度估计仍然是一个挑战性的问题，其中基于学习的方法推动了包络[43，11，31]。在这项工作中，我们利用AdaBins [6]，其使用基于变换器的架构，该架构自适应地将深度范围划分为可变大小的箱，并将深度估计为这些深度箱的线性组合。AdaBins是一种用于室外和室内场景的最先进的单目深度估计模型，我们将其用作弱监督来指导VQA模型进行空间推理任务。基于几何的训练目标-对象质心估计（OCE）和相对位置估计（RPE）。在本节中，我们将描述这些SR任务。3.1. 前处理像素坐标归一化。我们将两个维度的像素坐标归一化为范围[0，1]。例如，对于大小为H×W的图像，像素（x，y）被归一化为（x，y）。H WV L监管不力。监管不力是一种视觉任务的研究领域，如动作/物体本地化[48，66]和语义分割[27，64]。虽然来自VL数据集的弱监督已经用于辅助图像分类[14，42]，但是用于VL并且特别是用于VQA的弱监督的使用仍然未被探索。虽然现有的方法集中于从大规模数据中学习跨模态特征，但除了对象、问题和答案之外的注释尚未在VQA中广泛使用。Kervadec等人[25]使用对象词对齐形式的弱监督作为预训练任务，Trott等人。[53]使用图像中对象的计数作为弱监督来指导VQA进行基于计数的问题，Gokhale等人。[16]使用关于逻辑连接词的规则来增强是非问题的训练数据集，以及Zhao等人。[65]使用词嵌入[36]来设计附加的弱监督目标。来自字幕的弱超视最近也被用于视觉基础任务[19，37，12，4]。3. 相对空间推理在诸如基于图像的VQA、字幕和视觉对话之类的VL理解任务中，系统需要推理图像中存在的当前的VL系统，例如深度提取。虽然对象边界框可用于VQA数据集中的图像，但它们缺乏深度标注。为了从图像中提取深度图，我们利用开源单目深度估计方法Ad-aBins[6]，其是室外[15]和室内场景数据集[47]的最新技术AdaBins利用变换器，该变换器将图像的深度范围划分为每个图像自适应地估计其中心值的最终深度值是面元中心的线性组合由于图像的深度值对于室内和室外图像而言处于非常不同的尺度上，因此我们使用跨所有室内和室外图像的最大深度值将深度归一化到[0，1] 因此，我们获得深度值d（i，j）对于图像中的每个像素（i，j），i∈ {1，H}，j∈{1，W}代表对象使用质心给定图像中每个对象的边界框[（x1，y1），（x2，y2）]，我们可以计算对象质心的（xc，yc，zc）坐标xc和yc计算为边界框的左上角（x1，y1）和右下角（x2，y2）的平均值，zc计算为边界框中所有点的平均深度as [2，51，9，33] extract FasterRCNN [40] objectfeaturesx=x1+x2，y =y1+y2（一）来表现图像。这些系统通过投影2D对象边界框来合并位置信息Czc=2c2Σd（i，j）。（二）坐标，并将它们添加到提取的对象FEA。真的。虽然VL模型是用诸如图像-字幕匹配、掩蔽对象预测和掩蔽语言建模之类的任务来预训练的，以捕获在VQA领域，通过提出如图1所示的问题来间接评估空间理解。然而，这并不能客观地捕捉模型是否可以推断对象的位置、空间关系和距离。先前的工作[1]已经表明，VQA模型通过默认训练数据集的问题-答案对之间的虚假语言先验来学习回答问题，当测试集经历这些语言先验的变化时，这不会推广。在类似的静脉，我们的工作旨在解开空间推理（SR）从语言先验的数据集，通过引入两个新的i∈[x1，x2]，j∈[y1，y2].因此，对象特征中的每个对象Vk可以用其质心的3D坐标来表示。这些坐标对我们下面的空间推理任务起着弱监督的作用。3.2. 目标质心估计我们的第一个空间推理任务训练模型来预测图像中每个对象的质心。在2D OCE中，我们将任务建模为输入对象的2D质心坐标（xc，yc）的预测。令V表示输入图像的特征，并且令Q是纹理。实际输入然后，2D估计任务要求系统预测所有对象k ∈ { 1}的质心坐标（x ck，y ck）。. . N}存在于对象特征V中。在3D OCE中，我们还预测了object. 因此，该任务要求系统预测1911[-1，1][-1，1]22所有对象k∈的3D质心坐标（xck，yck，zck）{1。. . N}存在于对象特征V中。3.3. 相对位置估计该模型被训练以预测投影的单位归一化向量空间中的每对不同对象之间的距离向量。这些距离向量是真实的-图，由LXMERT编码器的交叉模态注意层产生。这里H是隐藏维度，L是令牌的数量。这些输出用于针对两个任务微调模型：VQA使用x作为输入，空间推理任务使用v作为输入。设D是我们在空间推理中使用的坐标维数（2或3）。对于SR回归任务，我们使用两个-值向量∈R3. 因此，对于一对层前馈网络freg，以将v投影到实值troids（x1，y1，z1）和（x2，y2，z2）对于两个不同的对象，给定V和Q，模型被训练为预测向量[x1-x2，y1-y2，z1-z2]。RPE不是对称的，对于任何两个不同的点A，B，dist（A，B）=−dist（B，A）。回归与箱分类。在上面的两个任务中，预测都是实值向量。因此，我们评估这些任务的两个变体：（1）回归任务，其中模型向量，尺寸为36×D，并使用相对于地面实况的对象坐标yreg.LSR_reg=LMSE（freg（v），yreg）。（四）对于bin分类任务，我们训练了一个双层前馈网络fbin，以沿着每个维度为每个对象预测36×C×Dbin类，其中C是数字预测R3中的实值向量，和（2）binclassifica-使用交叉熵损失训练的类：我们将实际值的范围划分为所有三个维度到C个对数标度箱中。的面元宽度第c个仓由下式给出，其中超参数λ = 1。5）、LSR_bin=LCE（fbin（V），ybin），（5）其中y仓是地面实况对象位置仓。11总损失由下式给出：bc=λC−|c−C|+1 − λC−|c−C|+2个 c∈{0.. C-1}。（三）L=α·LVQA+β·LSR ，其中α，β∈（0，1].（六）对数尺度分箱导致更高的分辨率（更多分箱），用于较近的距离和较低的分辨率（更少的箱）为较远的距离，给我们细粒度的类接近的对象。模型被训练以预测箱类别作为用于所有的3个维度，给定一对物体。我们评估箱数的不同值：C∈ {3，7，15，30}，研究&VL模型在更高空间距离分辨率下的区分能力。例如，bin分类的最简单形式是bin间隔为[-1，0），[0]，（0，1]的三类分类任务。4. 方法我们采用LXMERT [51]，一种最先进的视觉和语言模型，作为我们实验的支柱。LXMERT和其他流行的基于变换器的VL模型方法[33，9]在多个VQA和图像字幕数据集的组合上进行预训练，例如概念字幕[45]，SBU字幕[38]，视觉基因组[30]和MSC0C0 [32]。这些模型使用FasterRCNN对象检测器[40]提取的前36个对象的对象特征Transformer编码器将这些对象特征连同文本特征一起作为输入，并且输出跨模态[CLS]令牌。该模型通过优化进行预训练，用于掩蔽语言建模，图像-文本匹配，掩蔽对象预测和图像问题回答。4.1. SR的弱监督设v∈R36×H为视觉特征，x∈R1×H为跨模态特征，t∈RL×H为文本特征。y_reg和y_bin是从预处理期间计算的对象质心获得的（第2节）。3.1）从深度估计网络和对象边界框。由于场景中对象的真实3D坐标是未知的，因此这些yreg和ybin充当代理，因此可以弱监督我们的空间推理任务。4.2. 空间金字塔面片由于LXMERT仅将不同的对象和2D边界框特征作为输入，因此它本质上缺乏3D空间推理任务所需的深度信息。这通过我们对2D和3D空间推理任务的评估得到证实，其中模型在2D任务中具有很强的性能，但在3D任务中缺乏，如表1所示。为了结合来自原始图像的空间特征以捕获相对对象位置以及深度信息，我们提出使用空间金字塔补丁特征[4]来将给定图像表示为不同尺度的特征序列。图像I被划分为a补片的集合：p n={1，1，. . . ，I in}，每个I ij是a i j×i j网格的修补程序，并为每个补丁.较大的补丁编码全局对象关系，而较小的补丁包含局部关系。4.3. 融合Transformer为了将空间金字塔补丁特征与从LXMERT提取的特征相结合，我们提出了一种融合Transformer，该融合1912变换器具有e层变换器编码器，包含自关注、残差连接和每个子层之后的层归一化。我们把pn补丁连接起来19121913型号GQA-Val↑2 D - R e g ↓2D Bin分类GQA-Val↑3 D - R e g ↓3D Bin分类表1.针对空间推理任务（LXMERT + SR）、2D和3D相对位置估计（RPE）、回归以及C路箱分类任务训练的LXMERT模型的结果示出了与相同的模型的比较，弱监督的附加功能（图像补丁）和弱监督的相对位置向量提取的深度图GQA-Val评分用于表现最好的弱监督任务，其分别为2D-15 w和3D-15 w。回归分数是均方误差，分类分数是准确率百分比。15w：15路箱分类。型号GQA-Val↑LXMERT + SR 59.40对所有空间推理任务都很差。这符合我们的假设，因为深度信息不是明确的。由使用的当前V L方法的输入捕获+ 2D OCE（回归）57.33+ 3D OCE（回归）58.28+ 2D RPE（回归）59.85+ 3D RPE（回归）59.54+ 2D OCE（15-bin分类）58.64+ 3D OCE（15-bin分类）59.90+ 2D RPE（15-bin分类）60.95+ 3D RPE（15-bin分类）62.32表2.不同弱监督空间推理任务在GQA验证分割上的比较。训练协议和超参数。我们的融合Transformer具有5个交叉模态层，隐藏尺寸为H=512。所有模型都在单个NVIDIA A100 40 GB GPU上使用Adam [29]优化器以1e−5的学习率、64的批量大小训练了20个epoch价值-等式6中的系数（α，β）的使用被选择为（0。九比零。1）对于回归和（0. 七比零。3）用于分类。基线。我们使用LXMERT联合训练的SR和GQA任务作为我们实验的强基线。此外，我们还比较了性能与现有的非集成（单一模型）的方法对GQA的挑战，直接学习问答对，而不使用外部程序监督，或额外的视觉功能。虽然NSM [22]报告了GQA挑战的强大性能，但它使用了更强的对象检测器和前50个对象特征（而不是所有其他基线使用的前36个），这使得与NSM的比较不公平。5.1. 空间推理的结果我们开始评估模型在不同的空间推理任务，使用各种弱监督训练方法。表1和2总结了这些实验的结果。可以看出，LXMERT+SR基线（在没有来自深度图的监督的情况下训练）执行了实现仅包含2D空间信息的边界框信息平均而言，SR任务的改进在某些情况下，我们观察到，该方法预测GQA任务上的空间关系问题的正确答案，即使它不能正确预测SR任务中的箱类或对象位置。在18%的正确GQA预测中观察到这种现象。例如，模型预测不同SR任务的比较。质心估计要求模型预测单位归一化向量空间中的对象质心位置，而相对位置估计要求模型确定质心之间的成对距离向量。这两个任务都为空间理解提供了弱监督，但我们在表2中观察到，3DRPE的箱分类最好地转移到GQA准确度。回归v/s箱分类。类似地，任务的回归版本对VL模型提出了重大挑战，以准确地确定对象之间的距离的极性和幅度。室内和室外场景中的距离范围具有很大的变化，并且对模型在回归任务中准确预测距离提出了挑战。该任务的分类版本似乎不太具有挑战性，其中3向2D相对位置估计实现了显著高的相对位置估计。评分（≥90%）。箱的数量（3/15/30）也会影响性能;箱的数量越多，意味着模型应该对距离有细致的理解，这更难。我们发现（对于RPE和GQA两者）箱的最佳数目是15。2D-3w↑2D-15w↑2D-30w↑3D-3w↑3D-15w↑3D-30w↑LXMERT + SR59.850.6488.2076.7555.1260.050.4455.6652.8048.15+ 后期融合59.900.4792.6081.2460.4260.180.2971.2069.4552.84+ 早期融合60.100.3696.4082.4864.8561.320.2478.6774.2054.73+斑块60.520.4189.6079.5659.4060.640.2873.2171.7450.94+ 晚期融合+补片60.800.3395.2082.1067.3861.800.2185.3579.6065.45+ 早期融合+补片60.950.2997.4084.6071.4662.320.1789.5881.4768.201914模型准确度↑二进制↑打开↑一致性↑有效性↑可能性↑分布↓人类[21]89.3091.2087.4098.4098.9097.20-全球优先[21]28.9042.9416.6251.6988.8674.8193.08当地优先[21]31.2447.9016.6654.0484.3384.3113.98自下而上[2]49.7466.6434.8378.7196.1884.575.98MAC [20]54.0671.2338.9181.5996.1684.485.34GRN [22]59.3777.5343.3588.6396.1884.716.06梦[22]59.7277.8443.7291.7196.3885.488.40LXMERT [51]60.3477.7644.9792.8496.3085.198.31这项工作62.1178.2047.1893.1396.9285.271.10表3.我们的模型相对于现有基线的比较评估，在GQA测试标准集上，沿着所有评估指标。不同方法的比较。早期融合图像补丁的方法，它使用的相对位置距离矢量和金字塔补丁功能与融合Transformer，实现了最佳的性能，在所有的空间任务和GQA任务。从表1可以观察到，这两个附加输入都改善了3D RPE中的性能。这些性能改进可以归因于距离向量特征和预测目标之间的直接关系另一方面，斑块特征隐含地具有这种空间关系信息，并且一起利用这两个特征导致最佳性能。然而，即使在输入和输出之间具有直接相关性，该模型在更难的15/30路箱分类或回归任务上也远未达到完美的性能，这表明了进一步改进的范围早期与晚期融合。通过表1中的实验结果，我们可以凭经验得出结论，早期融合比晚期融合表现更好。我们假设，在从投影的相对位置距离向量中提取空间关系信息时，FusionTransformer层比Late Fusion更有效面片大小的影响。我们研究了不同图像块我们观察性能最好的特征组合是整个图像和一组网格为3×3、5 ×5和7×7的补丁。添加较小的补丁（如9×9网格）并没有导致性能的提高。提取特征从ResNet101也导致较小的增益（+0。05%）。5.2. GQA结果表3和表4总结了我们在GQA和GQA-OOD视觉问答任务上的结果。我们最好的方法，LXMERT与早期融合和图像补丁，联合训练与弱监督15路箱分类相对位置估计任务提高了基线LXMERT，分别为1.77%和1.3%。模型使用图像Acc-All↑Acc-Tail↑Acc-Head↑[26]第二十六话没有21.617.824.1LSTM [3]没有30.724.034.8自下而上[2]是的46.442.149.1MCAN [62]是的50.846.553.4BAN4 [28]是的50.247.251.9MMN [8]是的52.748.055.5LXMERT [51]是的54.649.857.7这项工作是的55.950.359.4表4. GQA-OOD测试-开发拆分的几种VQA方法的比较Acc-tail：OOD设置，Acc-head：最可能答案的准确性（给定上下文），分数为%。在GQA和GQA-OOD上实现了新的技术水平。它在VQA-v2上的性能略好于LXMERT（72.9%）。开放式问题的改善最为显著我们可以观察到，使用Transformer架构的SR和问答的弱监督和联合端到端训练可以训练系统在空间推理任务中保持一致，并在空间VQA任务中更好地泛化。OOD泛化。我们还研究了GQA的分布变化的泛化，在训练过程中看到的语言先验我们在GQA-OOD基准测试中评估了我们的最佳方法，并观察到我们将答案的最常见头部分布提高了1。7%，并且罕见的分布外（OOD）尾部答案为0。百分之五这使我们相信，在具有弱监督的SR任务上的训练可能允许模型减少对虚假语言相关性的依赖，从而实现更好的泛化能力。少射学习。我们研究了在开放式问题上的少数镜头设置中的弱监督RPE任务的效果，结果如图5所示。我们可以观察到，即使在低至1%和5%的样本的情况下，具有相对位置估计的联合训练也比使用相同数据训练的LXMERT提高2。5%和5。5%，并且在所有其他级分下始终优于LXMERT更重要的是，只有10%的19151916引用[1] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在CVPR，2018年。3[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年6月。三、七[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页二、七[4] Pratyay Banerjee、Tejas Gokhale、Yezhou Yang和ChittaBaral。WeaQA：通过视觉问答的标题进行弱监督。在计算语言学协会的调查结果中：ACL-IJCNLP 2021，第3420- 3435页，在线，8月2021.计算语言学协会。三、四[5] Ronen Basri，David Jacobs，and Ira Kemelmacher.普通的，未知的灯光。 International Journal of ComputerVision，72（3）：239-257，2007。二个[6] Shariq Farooq Bhat ， Ibraheem Alhashim ， and PeterWonka. Adabins：使用自适应箱的深度估计。arXiv预印本arXiv：2011.14141，2020。二、三[7] Jeffrey P Bigham ，Chandrika Jayant， Hanjie Ji，GregLit- tle ， Andrew Miller ， Robert C Miller ， RobinMiller ， Aubrey Tatarowicz ， Brandyn White ， SamualWhite， et al. Vizwiz ：几乎实时回答视觉问题。在Proceedings of the 23nd annual ACM symposium on Userinterface software and technology，pages 333二个[8] Wenhu Chen，Zhe Gan，Linjie Li，Yu Cheng，WilliamWang，and Jingjing Liu.用于组合视觉推理的Meta模块网络。在IEEE/CVF计算机视觉应用，第655七个[9] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu. Uniter：学习通用的图像-文本表示。arXiv预印本arXiv：1909.11740，2019。三、四[10] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter ：通用图像 - 文本表示学习。在ECCV，2020年。一个[11] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，27：2366-2374，2014。三个[12] 方志远、孔舒、王哲、查尔斯·福克斯、杨业洲。对时间-文本联想学习的监督和参考关注不足arXiv预印本arXiv：2006.11747，2020。三个[13] Zhe Gan，Yen-Chun Chen，Linjie Li，Chen Zhu，YuCheng，and Jingjing Liu.大规模对抗性训练用于视觉和语言表征学习。在NeurIPS，2020年。一个[14] Siddha Ganju，Olga Russakovsky，and Abhinav Gupta.问题的含义在IEEE计算机视觉和模式识别集，第2413[15] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 三个[16] Tejas Gokhale、Pratyay Banerjee、Chitta Baral和YezhouYang。Vqa-lol：逻辑镜头下的可视化问答。欧洲计算机视觉会议（ECCV），2020年。三个[17] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第6904-6913页，2017年。一、二[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。五个[19] Lisa-Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议论文集，第5803-5812页三个[20] Drew A Hudson和Christopher D Manning用于机器推理的组合注意力网络。在2018年国际学习代表会议上。二、七[21] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第6700-6709页一、二、五、七[22] Drew A Hudson和Christopher D Manning 学习抽象：神经状态机。arXiv预印本arXiv：1907.03950，2019。二六七[23] 贾斯汀约翰逊先生，Bharath哈里哈兰LaurensVan Der Maaten，Li Fei-Fei，C Lawrence Zitnick，andRoss Girshick. Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议论文集，第2901-2910页，2017年。二个[24] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing（EMNLP），pages 787-798，2014中。一个[25] Corentin Kervadec，Grigory Antipov，Moez Baccouche和Christian Wolf。弱监督有助于词-对象对齐的出现arXiv预印本arXiv：1912.03063，2019。三个[26] Corentin Kervadec，Grigory Antipov，Moez Baccouche和Christian Wolf。玫瑰是红色的紫罗兰是蓝色的。。但vqa应该期待他们这样做吗？CVPR，2021年。二、五、七[27] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督1917实例和语义分割。在IEEE计算机视觉和模式识别会议论文集，第876-885页，2017年。三个[28] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。神经信息处理系统进展，第1564-1574页，2018年。七个[29] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。六个[30] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志，123（1）：32-73，2017。四、五[31] 李俊，莱因哈德·克莱恩，姚安琪。一种用于从单个rgb图像估计精细缩放深度图的双流网络。在IEEE计算机视觉国际会议论文集，第3372-3380页，2017年。三个[32] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 四个[33] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.Vil-bert：视觉和语言任务的预训练任务不可知的视觉语言神经信息处理系统的进展，第13-23页，2019年。一、三、四[34] Man Luo ， Shailaja Keyur Sampat ， Riley Tallman ，Yankai Zeng ， Manuha Vancha ， Akarshan Sajja ， andChitta Baral. ‘just在计算语言学协会欧洲分会第16届会议的会议记录中：主卷，第2766-2771页，在线，4月。2021.计算语言学协会。八个[35] Kenneth Marino、Mohammad Rastegari、Ali Farhadi和Roozbeh Mottaghi。Ok-vqa：一个需要外部知识的可视化问答基准。在IEEE/CVF计算机视觉和模式识别会议论文集，第3195-3204页，2019年。二个[36] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 GregCorrado和Jeffrey Dean。单词和短语的分布式表示及其组合性。在 Neural Information Processing Systems ，NIPS美国纽约，2013年。Curran Associates Inc. 三个[37] Niluthpol Chowdhury Mithun，Sujoy Paul，and Amit KRoy- Chowdhury.基于文本查询的弱监督视频矩检索在IEEE/CVF计算机视觉和模式识别集，第11592三个[38] Vicente Ordonez 、 Girish Kulkarni 和 Tamara L Berg 。Im2text：使用100万张带标题的照片来描述图像。神经信息处理系统进展，2011年。四个[39] Rene Ranftl，Vibhav Vineet，Qifeng Chen，and VladlenKoltun.复杂动态场景中的密集单目深度估计。在IEEE会议上计算机视觉和模式识别，第4058-4066页，2016年。二个[40] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年。三、四[41] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3），2015。五个[42] Mert Bulent Sariyildiz，Julien Perez和Diane Larlus。学习带有标题注释的视觉表示。欧洲计算机视觉会议（ECCV），2020年。3[43] Ashutosh Saxena，Sung H Chung，Andrew Y Ng，等.从单个单目图像学习深度。在NIPS，第1-8卷，第1-8页三个[44] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评价。国际计算机视觉杂志，47（1）：7- 42，2002。二个[45] Piyush Sharma ， Nan Ding ， Sebastian Goodman ， andRadu Soricut.概念说明：一个干净的，hypernymed，图像替代文本数据集的自动图像字幕。在ACL第56届年会的会议记录中，第2556-2565页，2018年。四个[46] Nitesh Shroff、Ashok Veeraraghavan、Yuichi Taguchi、Oncel Tuzel、Amit Agrawal和Rama Chellappa。可变焦距视频：为动态场景重建深度和视频。2012年IEEE国际计算摄影会议（ICCP），第1-9页。IEEE，2012。二个[47] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议，第746-760页。Springer，2012. 三个[48] Hyun Oh Song、Ross Girshick、Stefanie Jegelka、JulienMairal、Zaid Harchaoui和Trevor Darrell。学习如何在最少的监督下定位物体。国际机器学习，第1611PMLR，2014年。三个[49] Alane Suhr，Mike Lewis，James Yeh，and Yoav Artzi.用于视觉推理的自然语言语料库。在Proceedings of the55th Annual Meeting of the Association for Computa-tional Linguistics（Volume 2：Short Papers），第217一个[50] Alane Suhr，Stephanie Zhou，Ally Zhang，Iris Zhang，Hua-jun Bai，and Yoav Artzi.基于照片的自然语言在2019年计算语言学协会年会的会议记录中一个[51] 郝坦和莫希特·班萨尔。Lxmert：从转换器学习跨模态编码器表示。在EMNLP 2019，2019. 一二三四七[52] Huixuan Tang ， Scott Cohen ， Brian Price ， StephenSchiller，and Kiriakos N Kutulakos.野外离焦深度。在IEEE计算机视觉和模式识别会议论文集，第2740-2748页二个1918[53] Alexander Trott，Caiming Xiong，and Richard Socher.用于视觉问答的表间计数。在2018年国际学习表征会议上。三个[54] Hoa Trong Vu ， Claudio Greco ， Aliia Erofeeva ，Somayeh Jafaritazehjani，Guido Linders，Marc Tanti，Alberto Testoni，Raffaella Bernardi，and Albert Gatt.固定的文本限定。在第27届国际计算语言学会议论文集，第2354-2368页，2018年。一个[55] 王鹏，吴奇，沈春华，安东尼·迪克，安东·范登亨格尔.Fvqa：基于事实的视觉问题回答。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 40（10）：2413-2427，2017。二个[56] M. Watanabe和S.K.纳亚尔散焦无源深度的有理滤波器。 International Journal on Computer Vision ， 27（3）：203-225，May 1998. 二个[57] Masahiro Watanabe和Shree K Nayar。计算视觉的远心光学。在欧洲计算机视觉会议上，第 439-451 页。Springer，1996. 二个[58] 雷吉 ·G· 威尔森自动变焦镜头的建模与标定在Videometrics III，第2350卷，第170国际光学与光子学学会，1994年。二个[59] Xiaofeng Yang，Guosheng Lin，Fengmao Lv，and FayaoLiu.Trrnet：分层关系推理的组成视觉问答。在计算机视觉-ECCV 2020中：第16届欧洲会议，英国格拉斯哥，2020年8月23日至 2 8 日，Proceedings ， Part XXI 16 ， pages 414Springer ， 2020年。二个[60] 易可欣、吴佳俊、甘闯、安东尼奥·托拉尔巴、Push-meet Kohli和Joshua B.特南鲍姆神经元符号vqa：从视觉和语言理解中解开推理。神经信息处理系统进展，第1039-1050页，2018年。二个[61] Licheng Yu，Patrick Poirson，Shan Yang，Alexander CBerg，and Tamara L Berg.参照表达式中的建模上下文。欧洲计算机视觉会议，第69-85页。施普林格，201

下载后可阅读完整内容，剩余1页未读，立即下载