基于交互式的细节丰富文本图像检索的方法

78 浏览量更新于2023-10-14 收藏 2.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1835Ask Confirm：面向跨模态检索的主动细节丰富Guann yu Cai1，2*，Jun Zhang2，Xin yang Jiangg3†，Yifei Gongg2，何亮华1、于福福2、彭派2、郭晓伟2、黄飞跃2、孙星2†同济大学1、腾讯优图实验室2、微软研究院3{caiguanyu，Helianghua}@ tongji.edu.cn，xinyangjiang@microsoft.com，pengpaish@163.com{bobbyjzhang，yifeigong，fufuyu，scorpioguo，garyhuang，winfredsun}@tencent.com摘要基于文本的图像检索近年来取得了长足的进步。然而，前-用户代理检索结果人滑板。好的.在现实生活中，安装方法会受到影响，因为用户可能提供不完整的图像描述，这通常会导致结果中充满符合场景中有街道No.不完整的描述。在这项工作中，我们介绍了部分查询问题，并广泛分析其对基于文本的图像检索的影响。以前的互动式冰毒-ODS通过被动地接收用户的反馈以迭代地补充不完整的查询来解决该问题，这是耗时的并且需要大量的用户努力。相反，我们提出了一种新的检索框架，进行交互过程中的询问和确认的方式，人工智能积极寻找歧视性的细节在当前查询中丢失，用户只需要确认人工智能具体来说，我们提出了一个基于对象的交互，使交互式检索更加用户友好，并提出了一个强化学习为基础的政策，以搜索有区别的对象。此外，由于全监督训练往往是不可行的，由于难以获得的人机对话数据，我们提出了一个弱监督的训练策略，不需要人类注释的对话框以外的文本图像数据集。实验表明，该框架显著提高了基于文本的图像检索的性能代码可在https：//github.com/CuthbertCai/Ask-Confirm网站。1. 介绍最近，跨模态检索，特别是基于文本的图像检索得到了越来越多的关注[36]。尽管现有的基于文本的检索方法[15，36，7]已经取得了显着的改进，但我们在实践中发现，当*在优图实验室实习期间完成的工作†通讯作者：姜新阳，孙兴图1：询问确认的图示。该代理增强了文本查询，并通过反复询问用户以确认更多信息来缩小检索范围。目标图像用红色矩形突出显示。用户仅描述图像中的一些局部区域。在这项工作中，我们在基于文本的图像检索中引入了一个新的部分查询问题的概念，其中初始文本查询只描述了目标图像中的一些对象。研究[30，28]发现，当检查图像时，人们往往只关注最突出的对象。这可能导致人们关注的对象不是能够将目标图像与类似候选区分开的有区别的对象的问题如图2（a）和（b）所示，当查询仅部分给出时，跨模态检索模型的性能很差在这两个示例中，目标图像排名低于第1000位，而其他误报排名前三。在所有图像中呈现由部分查询描述的公共对象（蓝框）。然而，其余的图像则大不相同。例如，在图2（a）中，除了查询中提到的婴儿车之外，目标图像还包括雨伞、椅子等。而另一些则由不同的物体组成，如树木和公共汽车。如果检索模型接收到包括所有对象的完整描述，则现有方法[15，17，32]表现出色。为了显示部分查询如何损害检索，我们测试了两个现场有奖杯是的1836询问：婴儿车（一）查询：停在路边的汽车（b）第（1）款例如，基于描述的方法[7，29]需要用户输入长句反馈，而基于标签的方法[13，11，12]需要用户输入一堆属性。因此，我们提出了一个框架，用户只需要对AI的问题进行简单的是/否确认在本文中，我们提出了一种新的交互式检索框架，称为询问确认，如图1所示。代理首先基于初始文本查询从图库中检索一组相关候选者。然后，它将分析检索结果和画廊的整体状况，并主动选择有区别的对象候选人，用户确认他们的存在。基于用户而不是(c) R@10(d) 平均秩被动地接收用户反馈，一种强化学习图2：部分查询的效果。(a)和（b）是部分查询检索的可视化。目标图像由红色框包围，并且其他是排名前三与查询匹配的区域由蓝色框包围。（c）和（d）展示了随着查询减少，检索模型的R@10和平均水平轴表示查询编号。文本图像检索模型，视觉基因组上的S-SCAN和T-CMPL[14]，它们是从SCAN [15]和CMPL [36]修改而来的第4节详细介绍了实施情况。对于每个图像，其完整的描述包括10个不同区域的cap- tions。我们逐渐减少标题的数量，并使用它们作为查询来检索目标图像。如图2（c）和（d）所示，对于两个模型，随着不完整程度的增加，R@10降低，平均秩增加。这些结果表明，部分查询应处理一个强大的检索模型。现有的交互式检索模型[6，33，26，13，11，35，7，31]通过在检索过程中涉及用户的反馈来处理部分查询。给定来自用户的初始查询，这些方法首先给出可能潜在地是目标图像的若干相关候选。通过将目标图像与这些参考图像进行比较，用户给予检索方法不同形式的反馈以描述它们之间的差异，例如分数[26，33]，标签[13，11，12]或描述[7，29]。以前的方法只是被动地从用户那里接收额外的信息，因此用户需要有大量的实践经验和检索系统的专业知识来提供有区别的反馈，以迅速缩小检索范围。因此，为了使用户从分析检索结果和寻找判别信息的负担中解脱出来，我们提出检索模型本身应该能够主动地搜索当前查询所遗漏的判别信息以前的交互式检索模型的另一个问题是耗时。基于RL的策略被训练为主动搜索查询中遗漏的区分对象，并使用这些对象将目标图像与图库的其余部分在这种主动的基于对象的交互中，用户只需要确认目标图像中所提出的对象的存在，不需要关于检索任务的专家知识和额外的努力。此外，与之前的基于RL的交互方法[7，19]不同，其需要人类注释的对话框，这对于广泛收集是不切实际的，我们的Ask Confirm框架以弱监督的方式进行训练，其中仅需要文本-图像对。我们框架的贡献如下：1）据我们所知，这是第一个正式地处理和分析跨模态检索中部分查询问题的工作。 2) 我们提出了一个新的交互式检索框架 AskConfirm，它引入了一个主动的基于对象的交互来主动选择最有区别的对象供用户确认，而不是被动地接收用户反馈中缺失的细节。3)而不是使用人类注释的对话框，我们提出了一个弱监督的强化学习框架，以优化交互式的政策，探索统计特征的画廊。实验表明，我们的框架是有效的和强大的部分查询。2. 相关工作2.1. 基于文本的图像检索大多数基于文本的图像检索方法都基于深度神经网络[36，15，17，9，32，5]。它们的目的是准确地测量来自两个不同模态的输入之间的相似性跨模态投影学习（CMPL）[36]被提出来将图像和文本嵌入到对齐的空间中。为了进一步以细粒度的方式增强检索，[15，17，9，32]提出了不同的基于注意力的方法，在每个图像区域和单词之间应用视觉9086.9614.585.4s扫描s扫描60083.1T-CMPLT-CMPL80.18076.872.35007068.866.265.7438.063.459.64006056.455.650.4306.85030043.941.54037.2194.6191.2200142.93028.2115.0110.910073.989.455.566.284.12020.416.252.057.063.536.539.342.8四十八点三分1098765432一个1098765432一个1837n=1n=1--2.2. 查询扩展查询扩展处理不完整的信息。不同于局部区域的完整句子的部分查询，它专注于不完整句子的查询。不完整的句子作为查询导致检索不佳。因此，提出了查询扩展方法[37，18，22，4，8]。[37]学习用户[18]通过计算叙词表索引集合中的相似性距离来探索扩展。关注图像或视频检索的其他方法[22，4，8]提供基于知识库的扩展。2.3. 可视对话框视觉对话旨在让机器理解视觉内容，并与用户进行自然对话。在检查图像之后，代理可以回答用户关于不同方面的问题。主流方法基于基于策略的强化学习，以实现良好的问答性能[24，2，3]。然而，对话对于提问者和回答代理都是纯基于文本的，并且需要手动注释的对话数据集来训练视觉对话系统。2.4. 交互式图像检索现有的检索模型很难通过初始查询来定位目标图像。受视觉对话的启发，提出了交互式图像检索系统[33，26，13，12，11，25，16，20，21]来解决这个问题。在这些系统中，用户根据参考图像向代理提供反馈。有两种类型的反馈：相关性和差异性。对于前一个[33，26]，用户为当前检索结果给出相关性分数。然后，系统通过使用用户的反馈重新排序其检索结果。对于后者[13，12，11，25，34]，用户通过标签或描述向系统说出目标图像和参考图像之间的差异。然后，系统会剔除不相关的图像，并将正确的图像排到顶部。3. 方法3.1. 基于对象的交互在部分查询问题中，交互式检索模型的一个重要任务是获取能够区分目标图像通常，更多的区分信息和更少的用户努力的需求是矛盾的，因为更多的信息通常意味着用户必须付出更多的努力来思考什么是最具区分性的事情并输入更多的描述。例如，基于标签的方法[13，11，12]仅需要用户指出目标图像和参考图像之间的不同属性，但它们几乎不能过滤掉许多负面信息。方法R@1R@5R@10先生s扫描S-SCAN+对象4.546.413.670.220.478.4416.028.4表1：具有地面实况对象描述的S-SCAN的检索改进。MR是指平均秩。因为提供的区别信息太少。相反，基于描述的方法[7，29]要求用户给出长句反馈，这丰富了更多细节，但付出了更多用户努力。在Ask Confirm中，我们提出了一种基于对象的交互，其中基于RL的策略主动搜索可区分的候选对象以供用户确认，然后用户只需要确认对象是否在目标图像中。在主动策略的辅助下，同时满足了用户对更多判别信息和更少工作量的需求。我们选择基于对象的交互基于两个主要原因：（1）图像中的对象具有足够的区分力以区分不同的图像，（2）可以使用预先训练的检测器（例如RCNN[1]）轻松获得对象。首先，我们发现图像库中对象的分布通常是低熵的，使其成为检索目标图像的区分特征。例如，在Visual Genome [14] 中，一些对象，如 “tro- phy” 和“skateboard”，很少出现。如果图像包括它们，则它们具有足够的区分性以快速缩小为了验证这一观察，使用相同的检索方法S-SCAN比较两种类型的查询：仅部分查询，并用对象名称补充部分查询。如表1中所示，通过添加对象词、验证对象包含区分信息以将目标图像与图库的其余部分区分开来实现显著的改进。第二，获取图像的对象的便利性也使得基于对象的交互实用。先前的基于文本的图像检索方法[5，15，17，32]通过对象检测器[1]提取图像特征。通过重复使用检测器，我们可以直接获得每个图像的对象。3.2. 交互式检索代理通过采用建议的基于对象的交互，我们提出了一个交互式检索代理来解决部分查询问题。它负责特征提取、与用户交互和检索目标图像。在本节中，我们将说明代理是如何工作的，特别是它如何主动搜索候选对象以供用户确认，这大大减少了用户的工作量。定义组成图像i的描述的一组字幕Q=qnNQ，其中每个qn描述一个区域。通过将Q视为查询，检索代理R的目标是通过与用户的T轮交互从图库I={in}N中检索目标图像i *。1838不×个nnn=1nQ不n不不nn=1对象{ai，a2，…}，出现在in。所有vi的集合-nQ2RR不n n=1一一用V（s）估计值∗∗QtXT={xT}Q--NAp不NQn n=1=1--部分查询问题认为Q只描述了兰克给定XT、XI和Aq，兰克给出了一个重新t t图像的一部分，而不是整个图像。交互式检索代理R包括四个主要组件：文本编码器、图像编码器、候选第t轮的trieval结果首先，Ranker计算查询和每个图像之间的相似性，其中St，n（XT，XI）表示XT和XI之间的相似性。Generator和Ranker。如交互式工作流3所示，文本编码器和图像编码器将部分查询和图像分别作为文本特征和视觉特征嵌入到文本-视觉特征空间。在每一轮中，候选生成器主动搜索最具区分性的对象作为候选对象以供用户确认。给定对象，用户将它们确认为正或负，其中正对象是指存在于目标图像中的对象然后，正对象的名称被添加到部分查询，并且新查询的特征由文本编码器更新。最后，基于正对象、负对象以及查询和图像的特征详细地，排名器首先计算文本查询和视觉特征之间的初始相似度其次，通过用户确认的对象进一步细化初始相似度。如果图库图像包含否定对象，则图像与查询之间的相似性当前轮的检索结果由细化的相似度给出。下面我们将详细介绍每个组件的具体设计。文本编码器。在第t轮，输入部分查询是其次，如果in包含属于Aq的负对象，则我们用较低的值精化S t，n，其中St，n：= St，n0。9 .第九条。利用改进后的相似度，Ranker给出检索结果。3.3. 弱监督策略学习Ask Confirm的关键是要满足更多的判别信息和更少的用户努力的需求是一个积极的搜索策略。它根据图库的文本特征和对象分布情况，选择最具鉴别力的对象作为候选对象供用户确认因此，它使用户能够自由地思考什么是最有区别的对象并输入长句反馈。在这项工作中，主动搜索策略是学习与弱监督RL训练。弱监督策略学习通过让代理迭代地与用户交互并基于用户的反馈进行自我更新来整个策略学习非常简洁，并且可以以弱监督的方式容易地进行，因为我们只需要知道每个图像中的对象，并且用户我们甚至可以重用检测器来提取图像特征表示为N.它们被嵌入到文本中Q检测物体。相反，以前的基于对话的重新-Qt={qn} n=1文本编码器（TE）的特点：xT=TE（qn），qn∈ Qt（1）其中 xT表示纹理特征。的所有文本特征的集合表示为Nt。详细地说，我们使用门控递归单元作为TE，就像[29]一样。图像编码器。给定图像库I=inN，图像编码器（IE）提取视觉特征并检测每个图像的对象：（xI，An）=IE（in）（2）trieval方法[7，19，3]需要繁重的聊天会话集合我们的方法不需要额外的数据收集的优势，使它更实用。强化学习。Can- didate Generator得到的策略被建模为一个策略网π，参数为π，它输出每个对象我们的政策学习行动、状态、政策、价值和奖励的五个组成部分如下：动作是指候选生成器在每一轮选择的对象，即，a∈A，A是所有对象的集合。n状态st被定义为st=其中，xI表示in的视觉特征和n表示ΣNtxT/Nt和st1=P（a），其中P（a）是I的一般特征表示为XI={XI}N。生成的前100个图像中的a的分布候选生成器。在n n=1兰克我们利用这样的设计使π意识到信息第t轮，候选人Gener-识别器主动地搜索最具辨别力的对象作为用户的候选，以确认在目标图像i*中出现的肯定对象。这些候选项表示为At={an}. 用户确认阳性对象A=从部分查询和排名列表两者中获取信息。奖励被定义为文本特征和目标视觉特征之间的相似性，即，其中，xi是目标图像的视觉特征。n=1Np策略π是用三层MLP实现的。该OB-{ap} A，因此，At的其余部分是负对象。他们是对象抽样分布P（a）用π（st）近似。表示为Aq={aq} A，其中N q+ N p= NA。不Ap的文本被用作对的附加描述用两层MLP来实现，用BTV来参数化。c pNppi*。它表示为Qt =T（an）nA，其中T（an）是p的字。为了丰富目标图像的细节，将附加描述添加到查询中，其中Qt=Qt−1∪ Qc。给定动作、状态、奖励、值和策略，应用Prox- imal策略优化（PPO）[27]来优化策略网络更多详情请参考PPO的原始论文。n=1）的。净值V为Im-不1839||LL L· LLΣ∈·∈}S不1（a m∈i k||Q t∈ ik）k=1J j=1ΣΣNw查询婴儿车里的孩子天空，滑板，.文本编码器场景数据库GRU图像编码器检测器对象排名器候选生成器火车政策MLP值MLP测试互动修复剂贪婪抽样随机采样图3：Ask Confirm的交互式跨模态检索框架交互式检索代理gradu-Ally通过启发式地向用户提供对象候选来丰富图像的细节塑形RL难以收敛于对话代理[23，7]，因此，先前的基于RL的对话代理[7，24，3]采用了基于RL的对话代理[7，24，3]。用P（a）引导|然后我们通过优化来训练πL=ΣNs（P（a|Q）− π（s t））2（5）RL训练为了避免繁琐的人工注释，我们提出了一种没有注释对话框的弱监督整形方法。我们的动机是，目标图像中的对象应该具有高概率被选择，因为将这些对象添加到查询中可以潜在地显著增加查询与目标图像之间的相似性然而，这个概率是不可行的，以获得在测试时间，因为目标图像是未知的。因此，不是获得目标图像中存在的对象的概率，而是用与目标图像例如，如果目标图像的对应查询是“一个“man”, “sea” and 对象与查询之间的语义相关性可以通过对象 aj 存在于查询的对应目标图像中 P（ajQt）可以通过计算aj和Qt都出现在同一目标图像ik中的频率来估计：其中Ns表示s针对每Ns轮进行优化。将强化学习与成形相结合，策略学习过程的损失=p+αs，在哪里p表示PPO的损失，并且系数α用于平衡RL学习和整形。在我们的方法中，造型是至关重要的训练过程不能收敛。4. 实验数据集。目前还没有用于交互式部分查询检索的基准，我们基于Visual Genome构建了一个新的数据集在Visual Genome中，多个区域由对象检测器[1]为每个图像检测，并且每个对象区域用描述进行注释。我们按照[29]中的方案对数据进行预处理，得到105，414张图像。图像分为92，105/5，000/9，896，用于训练/验证/测试。为了在不收集额外数据的情况下进行交互式部分查询检索，我们将区域标题视为用户提供的部分查询，并将目标图像中的对象作为用户的反馈。所有评价均在测试拆分上进行。基线。 Ask& Confirm是一个简单的框架。patible任何跨模态检索方法。我们执行-P（aj|Qt）=ΣNk=1 1（aj∈ik||Qt∈ik）（三）[2019 - 05 - 15][2019 - 05 - 15][2019 - 05][2019 - 05 -15][2019 - 05][2019 - 05 - 05][2019 - 05][2019 - 05 -05][2019 - 05][2019 - 05 - 05][2019 - 05 - 05][2019 - 05 -05][2019 - 05]]名为简化扫描（S-SCAN）和三重CMPL其中1（）是指示符函数。 Qtik是i k的对应查询，并且ajik表示i k中的对象。一个实际问题是Qt几乎不出现在不同的ik，使得N1（aj∈ik||Qt∈ik）总是损失（T-CMPL）作为基本的检索模型，并在此基础上构建交互式检索代理这两种变体都采用章节3.2中的文本和图像编码器来获得文本特征1. 因此，我们使用一组词{wn}Nw来表示Qt，K、M视觉特征XI={XI. （a）S-SCAN：我们修改-哪里n=1k，mk，m=1是Qt中的标记化单词。标记化的单词w，n可以出现在不同的图像中。1（Qt∈ik）被替换其中1（wn∈ik）。 P（aj|然后将Q（t）修改为：Σ|一|ΣΣ有注释对话框的监督学习t=1m=1Nk=11840ΣΣJKJk，mM将SCAN中的双向注意机制简化为单向注意机制，以适应多查询输入。因此，xT和xI之间的相似性被修改为：n=1P（aj|Qt）=ΣNk=1Nwn=1 1（aj∈i k||wnM∈ik）n（四）JSj，k（xT，xI）=K1Σγj，k·cos（xT，xI）（6）|一|m=1Nk=11（a）Nwn=1∈i k||W∈ik）M m=11841婴儿车里的孩子白伞排名：50第四轮：头、树、手、叶子、光排名：26第9轮：场地、裤子、树叶、鼻子、围栏排名：4KJMKMm=1JJk，m不Jj，kJKJ Mk，m方法R@1R@5R@10先生Q一s扫描S-SCAN+AC4.58.613.633.920.459.8416.096.0111010s扫描S-SCAN+AC14.716.831.843.341.767.7166.770.72255s扫描S-SCAN+AC33.534.156.261.465.980.159.037.84433表2：10轮后S-SCAN上的询问确认结果。AC表示AskConfirm框架。第一轮：天空，建筑，树，窗，头，人，人，衣服，墙，草Rank：12第2轮：杆，街道，光，天空，头，路，手，头发，女人，树排名：1屋顶天窗排名：287第一轮：人，衬衫，人，窗户，头，天空，手，头发，墙，草排名：17其中γj，k=exp（cos（xT，xI））Σexp（cos（x，x而cos表示白色短袖衬衫排名：180第5轮：车，顶，云，鼻子，线，手臂，墨镜，眼睛，女士，背景排名：3余弦相似度 XT和XI之间的相似性是所有xT中的Sj，k的平均值。(b)T-CMPL：与CMPL类似，我们采用全局对齐来匹配文本和视觉特征，而无需任何注意机制。因此，xT和xI之间的相似度为(a) 质询1/行动10第一轮：窗口、天空、人、地、人排名：26JKS（xT，xI）=cos（xT，1ΣxI）（7）m=1第3轮：建筑，人物，头像，标志，树排名：2XT和xI之间的相似度是Sj，k的平均值在所有xT中。S-SCAN和T-CMPL两者都利用共同的排名损失进行优化。很明显，Ask Confirm专注于交互模式，并且独立于网络体系结构和相似性计算。因此，Ask Confirm可以采用任何现有的跨模态检索模型。实施详情。在训练期间，T被设置为20进行20轮互动。在每一轮中，我们设置NA=10，这意味着从对象采样分布P（a）中采样10个对象。在测试期间，我们改变T和NA，并应用贪婪采样来选择具有最高概率的对象与[1]类似，我们使用更快RCNN在具有1600个对象类别的Visual Genome上进行预训练，以提取前36个区域的特征并预测区域的对象。文本和视觉特征被映射到维度为256的向量中。对于策略学习的优化，我们每600轮更新所有参数，并采用Adam [10]作为优化器。学习π和系数α设置为斑马身上的黑色条纹一只抬头的斑马排名：114这是一张室内画，现在是白天.书在书架上。桌子上有一台电脑。排名：25(b) 质询2/行动5第一轮：男士、衬衫、人物排名：3第2轮：窗口，标志，树排名：1一千块所有模型都训练了500个epoch。评估指标。我们采用通用的R@K（K=1，5，10）度量和平均秩（MR）来测量检索性能。R@K表示地上的黑色格栅前面有个洞一个圆形的金属人孔人行道排名：15(c) 质询4/行动3查询，其中在前K个候选中检索到至少一个基础事实。4.1. 结果基于S-SCAN和T-CMPL，我们建立了两个交互式检索模型与建议的Ask Confirm框架。为了证明AskConfirm的有效性&，我们在三种设置中对其进行了测试：（1）Q1/A10，（2）Q2/A5和（3）Q4/A3。QK表示用户在开始时给出K个查询，AK表示代理在每一轮中提供K个对象。10轮后记录所有结果。））我k，m1842图4：基于S-的Ask Confirm可视化扫描.我们展示了三种设置的示例。每轮中的阳性对象以红色突出显示。目标图像被红色边界框包围。结果示于表2和3中。对于三种不同设置中的两种基本检索模型，Ask Confirm增强了它们在所有评估指标中的性能。使用Q1/A10，Ask Confirm将S-SCAN的R@10从20.4%提高到59.8%，并将T-CMPL的R@10提高了20.7%。在其他两种情况下，优势从询问确认带来的R@10的下降了一点，但在1843QQQNΣNnQ联系我们--∈这表明每轮中更多的动作有助于检索。另一方面，当NA固定时，查询具有较高N1=4的性能优于具有较低N1的性能，表3：10轮后T-CMPL上的询问确认结果。AC表示AskConfirm框架。最少达到 14.2% 。对于 R@5 ，基于 S-SCAN 的 AskConfirm达到61.4%，基于T-CMPL的Ask Confirm达到38.6%，具有Q4/A3。在其他设置中，Ask Confirm的增强更明显，甚至在基于 S-SCAN 的 Q2/A5 中达到11.5%。两种基本检索模型都通过在所有设置中询问R@1的确认来改进特别地，基于S-SCAN的询问确认实现R@1=34.1%，其中Q4/A3。使用Ask Confirm，三种设置中的两种基本检索模型的MR被大幅上移。这些结果证明了询问确认的有效性。4.2. 可视化交互式检索的示例如图4所示。在可视化中发现了几个有趣的发现。首先，agent倾向于在前几轮中定期提供几个对象，例如“窗口”，“人”，“天空”，“头”，“树”等。这些物体这与我们在图2中的发现一致。尽管查询较少的模型性能较差，但对它们的改进甚至更多。特别地，当N1=1且NA=10时，询问确认实现最大改进。我们的结论是留下更少的查询为Agent优化基本模型的检索提供了更大的空间。尽管查询和操作的数量发生了变化，但AskConfirm始终增强了所有指标的S-SCAN。它检查的鲁棒性询问确认，方便检索稳定在所有情况下。政策找到一个指导代理选择有区别的对象的策略对于询问确认是必不可少的。因此，我们将我们的策略学习方法与三种预定义策略进行比较：（1）随机：在每一轮中，代理从均匀分布中对对象进行采样。(2)QASim：受[18]的启发，优选具有与查询相似的文本特征的对象。我们使用查询和对象的文本特征之间的余弦相似度来表示它们的相似性。(3)QACohe：考虑到一些对象倾向于相干地出现，例如相同的图像。然后，我们使用Pc（a*，aj），其中a*=这是一个合理的选择，因为它要么有很大的可能性添加一个argmax1a∈AQ不Qn=1 10 - 12 -2016刘晓波（T（a）来采样物体。地面实况对象来查询或消除包括这些对象的大量图像。其次，代理可以ofer对象，是不常见的，但有关的语义给定的查询和图像在后面的回合。例如，为了检索包括斑马的图像，代理在第9轮中提供为了检索具有查询“白色短袖衬衫”的图像我们将这些属性归因于我们的政策学习方法。基于统计的整形引导智能体优先考虑最频繁的对象，强化学习提升与图像语义相关的对象。4.3. 消融研究查询和操作的数量为了验证Ask& Confirm对查询次数和操作次数的鲁棒性，我们基于S-SCAN对不同的查询次数N1进行了测试1、2、4，其中用户输入1、2或4个查询，并且用户输入不同的动作数NA3、5、10，其中代理在每一轮中提供3、5或10个对象候选R@5的结果图5中示出了每轮中的R@10和MR。详细地，对于相同的查询，询问确认的性能随着NA的增加而逐渐提高。基于S-SCAN的实验在三个实验室中进行设置与第4.1节相同。如图6所示，在所有设置下，所提出的策略学习在R@10方面大幅优于其他策略学习10轮后，我们的策略学习策略在三种设置中分别比第二好的策略高出12.1%、7.2%和5.0%我们还观察到，一个好的策略在前几轮中迅速增加R@10，并在随后的几轮中放缓。这样的策略提供了更好的交互体验，因为用户以更少的交互来检索目标图像模型不可知论者。通过比较如表4中所示的对S-SCAN和T-CMPL的改进，我们检查所提出的框架是模型不可知的。虽然T-CMPL和S-SCAN的实施和性能不同，但Ask Confirm在所有评估指标上都加强了它们从细节上看，两种模型至于R@K度量，由于其更好的原始性能，改进在S-SCAN上更明显。这些结果表明Ask Confirm可以很容易地与普通的基于文本的检索相配合模型来提高检索性能。4.4. 用户研究为了说明基于活动对象的交互相对于基于标记和基于描述的交互的优势，本文介绍了基于活动对象的交互的基本原理和方法不方法R@1R@5R@10先生Q一T-CMPLT-CMPL+AC3.15.210.520.416.337.0593.4313.8111010T-CMPLT-CMPL+AC7.38.619.526.928.347.2283.3211.32255T-CMPLT-CMPL+AC14.515.133.538.644.059.5118.298.74433184459.857.956.154.151.749.047.047.746.346.245.243.942.442.640.938.537.134.934.4三十五点二三十五点七三十二点九三十三点七33.530.729.029.026.530.431.732.4 31.230.128.827.526.124.723.422.020.467.766.765.864.963.461.660.559.759.758.957.957.056.655.153.653.553.552.352.753.151.651.751.050.249.349.3四十九点二47.8四六五。0947.247.646.046.645.045.543.844.342.543.141.7R@10608070506040503040400350300250200150200 2 4 6 8 10(a) R@530200 2 4 6 8 10(b) R@10100500 2 4 6 8 10(c) 是说(d) 设置图5：基于S-SCAN的询问确认结果。水平轴表示查询轮次。Q表示查询的数量，A表示每轮中的动作数量。6080五五六7850六零七六4574四零五723550703025456820660 2 4 6 810(a) 质询1/行动100 2 4 6 810(b) 质询2/行动50 2 4 6 810(c) 质询4/行动3(d) 政策图6：不同策略的结果。横轴表示查询轮次。纵轴表示R@10。建议基于RL的政策学习方法优于其他。4003002001002.52.01.51.00.50R@1 R@5 R@10平均值(a) 用户研究0.0(b) 对象分布表4：在10轮之后，在不同的基本再评估模型上的询问确认的结果。在这方面，我们将询问确认（ AC ）与向下钻取（DD）[29]和WhittleSearch（WS）[13]进行比较，其中DD是基于描述的方法，WS是基于标签的方法。为了对交互方式进行公平的比较，我们在S-SCAN的基础上重新实现了DD和WS，并采用了它们的交互方式。从测试集中采样50个图像。对于每个图像，需要4个不同的用户（补充中的细节）以3种不同的方法在5轮中检索它R@1、R@5、R@10和平均秩（平均值）方面的检索性能如图7（a）所示。为了评估用户AC花费37.67s，DD花费53.60s，WS花费35.18s。性能结论：Ask& Confirm实现了与DD相似的R@k准确度和更好的平均秩。Ask& Confirm的性能明显优于WS。用户工作总结：与&DD相比，Ask Confirm完成检索所需的时间明显更短并且与WS相比花费类似的时间。总体而言，询问确认实现类似的性能与基于描述的交互和类似的检索时间与基于标签的交互。它检查询问确认不仅实现了友好的用户体验，而且还实现了优异的检索性能。此外，Fig-图7：（a）用户研究。AC表示询问确认。(b)用户研究期间的对象分布。图7（b）示出了在用户研究中由询问确认提供的对象的百分比。它演示了基于RL的策略从图像库中学习到的内容。5. 结论我们首先介绍了部分查询的问题，很容易使跨模态检索模型崩溃，并提出询问确认，一个交互式检索框架，来解决这个问题。询问确认启发式地引导用户通过主动搜索目标图像的区分对象以供用户确认来丰富图像的细节。提出了一种基于弱监督RL的策略来进行主动搜索，该策略利用了图像库的特性。实验结果证明了Ask Confirm的有效性和鲁棒性。弱监督的训练过程也使得它比其他基于对话的检索模型更实用。6. 确认本课题得到了国家自然科学基金U18092006联合基金、上海市杰出学术带头人计划上海市科学技术委员会基金19XD1434000、上海市科学技术委员会国际合作项目19490712800、国家自然科学基金基金61772369，基金61773166，基金61771144，国家重点研发&计划基金2020YFA0711400，上海市科技重大专项（2021SHZDZX0100），上海市科委项目19511132101）、长江学者计划、中央高校基础研究基金等。Q1 A10Q1 A5Q1 A3Q2 A10Q2 A5Q2 A380.179.578.978.277.476.374.975.174.774.273.773.472.9七二一。08七十二点一72.873.073.272.471.771.370.770.369.769.969.168.767.967.667.868.067.167.267.466.466.666.865.966.2随机QASimQACoheRL439.15ACDDWS211.9132.9554.057.533.537.525.514.09.08.52.0R@5R@10R@10平均秩R@10概率方法R@1R@5R@10先生Q一T-CMPL+ACS-SCAN+AC+1.9+4.1+9.9+20.3+10.7+39.4-279.6-320.0111010T-CMPL+ACS-SCAN+AC+1.3+2.1+7.4+11.5+8.9+26.0-72.0-96.02255T-CMPL+ACS-SCAN+AC+0.6+0.6+5.1+15.2+15.5+14.2-19.5-21.144331845引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页[2] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、Jose MF Moura、Devi Parikh和Dhruv Ba- tra。可视化对话框。在IEEE计算机视觉和模式识别会议论文集，第326-335页[3] 阿布舍克达斯，萨特维克科图尔，何塞'MF莫拉，斯特凡李和Dhruv巴特拉。用深度强化学习学习协作视觉对话代理。在IEEE计算机视觉国际会议论文集，第2951-2960页[4] Maaike de Boer，Klamer Schutte，and Wessel Kraaij.复杂多媒体事件检测中基于知识的查询扩展。MultimediaTools and Applications，75（15）：9025[5] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。2018年。[6] Myron Flickner，Harpreet Sawhney，Wayne Niblack，Jonathan Ashley ， Qian Huang ， Byron Dom ， MonikaGorkani，Jim Hafner，Denis Lee，Dragutin Petkovic，etal. 按图片、视频内容查询： qbic 系统计算机， 28（9）：23[7] Xiaoxiao Guo，Hui Wu，Yu Cheng，Steven Rennie，Gerald Tesauro，and Rogerio Feris.基于对话框的交互式图像检索。神经信息处理系统进展，第678-688页，2018

下载后可阅读完整内容，剩余1页未读，立即下载