没有合适的资源?快使用搜索试试~ 我知道了~
结合CLIP特征的Alberto Baldrati1,2 Marco Bertini1 Tiberio Uricchio1 Alberto DelBimbo11Universita`degli Studi di Firenze-MICC2Universita` di Pisa佛罗伦萨,意大利-比萨,意大利[姓名]@ unifi.it摘要条件和合成图像检索扩展CBIR系统相结合的查询图像与一个额外的文本,表达了用户的意图,描述额外的请求w.r.t.查询图像的视觉内容。这种类型的搜索对于电子商务应用程序来说很有趣例如开发交互式多模态搜索和聊天机器人。在这个演示中,我们提出了一个基于组合器网络的交互式系统,使用对比学习进行训练,该系统结合了从OpenAICLIP网络获得的视觉和文本特征该系统可用于改进电子商店搜索引擎。例如,考虑到时尚领域,它允许用户使用候选开始图像来搜索连衣裙、衬衫和紧身上衣,并表达一些视觉差异。其视觉内容,例如,要求改变颜色、图案或形状。所提出的网络在FashionIQ数据集和最近的CIRR数据集上获得了最先进的性能,表明其适用于时尚领域的条件检索,并考虑到合成图像检索的更一般任务,适用于更通用的内容。1. 介绍基于内容的图像检索(CBIR)是计算机视觉和多媒体研究中的一项基本任务,可以应用于一般的网络图像,如Google反向图像搜索,或者它可以专门用于大量的领域,如地标[18,37],医学图像[41],文化遗产[12,31]和电子商务,用于一般的电子购物[32,44,45]或特定的电子商务领域,如时尚[13,22,23]或室内设计[36]。这些CBIR系统使用输入图像从数据库检索图像,努力工作12美元购买搜索你想改变什么?上面有KornT恤15$购买搜索图1.在电子商务应用的时尚领域中使用条件图像的示例。用户可以细化产品搜索,以自然语言提供细节和约束。该系统使用视觉和文本功能来检索所需的结果。计算从所述查询提取的所述视觉特征与存储在所述数据库中的所述特征之间的距离。特征必须具有足够的辨别力以处理不同的图像,并且必须对许多变换具有鲁棒性,以检索相同图像的变化。一个主要的困难是克服所使用的低级视觉特征和图像的高级含义之间众所周知的语义差距[34]。基本CBIR任务的几种变化已经被提出来缩小这一差距,要求用户提供一些关于意图或上下文的×的查询。相关性反馈是这样的机制之一,其中用户迭代地细化搜索结果,根据它们提供关于什么是“相似”或“不相似”的附加信息最近,CBIR系统已经通过添加通过自然语言处理获得的上下文来扩展,在自然语言处理中,用户描述除了查询图像的视觉特征之外,期望的结果必须满足什么条件。这定义了条件图像检索的任务,提出了实现交互式搜索系统的时尚[15,40]。但它可以有效地用于在线零售的许多不同领域,其中相关产品的检索可以基于产品的类型、其质地或颜色、形状、材料或品牌[30]。相反,组合图像检索将组合查询的方法概括为图像-语言对,使用视觉和文本模态来指定用户在这项工作中,我们解决两个条件检索适用于时尚领域和组合检索适用于一般的图像。该系统基于一个网络,该网络结合了来自OpenAI CLIP网络的视觉和文本特征尽管网络设计简单,但该系统在两个常用的标准数据集上实现了最先进的结果,FashionIQ [40]用于时尚领域,CIRR [27]用于更一般的内容。该系统可用于开发交互式电子商务网站和聊天机器人,或提高图像搜索引擎的性能。2. 相关作品几项调查提供了CBIR方法及其在过去几年中的演变的概述。 Zheng等[46]调查了2006年至2016年的图像搜索方法,从基于尺度不变特征变换(SIFT)的方法Zhou等[47]调查了2003年至2016年的CBIR研究,包括基于工程和学习特征的方法。Li等[26]回顾了2009年至2019年CBIR的技术发展和实际应用。Dubey [9]最近对基于过去十年深度学习的CBIR方法进行了调查视觉和语言预训练CLIP [29]最近在多模态零拍摄学习方面取得了显着的成果,显示了图像和文本的特征CLIP采用的方法学习了网络上丰富的图像和自然语言监督之间的关联(使用4亿个图像-文本对进行训练)。尽管没有针对特定的基准进行直接优化,但它在不同的任务上表现良好。虽然CLIP的有效性仍是研究的主题[1],但它已经被成功应用于不同的任务,如细粒度艺术分类[7],图像生成[11],零拍摄视频检索[10],事件分类[25]和视觉常识推理[39]。这项工作建立在CLIP,利用其潜力的条件图像检索。在[6,17]中已经提出了学习图像-文本对齐的其他方法ALIGN [17]使用双编码器架构,并在10亿个图像-文本对的巨大数据集上进行训练。因此,[6]中提出的方法利用了对比蒸馏,导致了一个更有效的数据处理过程,需要比CLIP小133条件图像检索与组合图像检索这项工作与最近引入的条件时尚图像检索问题[40]以及最近的通用图像合成图像检索问题[27]有关。许多作品都解决了第一个任务。在[5]中,提出了一种在[38]中,已经提出了一种称为文本图像残差选通(TIRG)的方法,该方法使用选通和残差特征来组合图像和文本特征。在[33]中,作者结合了图神经网络和跳过连接。在[24]中,他们使用了两个不同的神经网络模块,一个用于处理图像风格,另一个用于处理图像内容。在[20]中,提出了一种相关网络来显式地对嵌入空间中的参考图像和目标图像之间的差异进行建模。在[8]中提出了一种称为模态不可知注意力融合(MAAF)的模型在[2]中提出了一种基于自动编码器的模型,称为ComposeAE,用于使用深度度量学习(DML)方法学习图像和文本特征的组成以进行检索。在[42]已经提出使用称为CurlingNet的方法来测量图像之间关于条件查询文本的语义主要组件是两个网络:所谓的传递过滤器,根据嵌入空间中的给定查询将源图像传递到候选聚类在[43]中,条件图像检索最近已扩展到多轮对话。所提出的系统使用ComposeAE [2]在每个回合将图像和文本结合起来,根据回合顺序将其馈送到递归最后,在[15]中已经解决了文本条件图像检索,其中作者提出了SAC(语义注意组合)框架-×××−该工作分两步进行:首先,语义特征注意(SFA)模块找到图像的显著区域文本以及随后的语义特征调制(SFM)模块确定如何改变图像的相关部分,该图像合成了由SFA计算的具有文本嵌入的粗略和精细显著图像特征。关于合成图像检索的第二个任务,在[27]中引入了一个名为CIRR的新数据集,包含通用的真实世界图像。作者还提出了一种基线方法,一种名为 CIR-PLANT的新模型,基于transformers,使用丰富的预训练视觉和语言知识来修改以自然语言为条件的视觉特征。CIRPLANT还在FashionIQ数据集上进行了测试,获得了良好的结果。从这些先前的作品中,我们的方法解释了一个学习的视觉和文本特征的流形,目标是在同一空间中学习加法变换,并且它不使用任何类型的空间信息。3. 该方法所提出的方法解决了条件和合成图像检索的问题我们的目标是找到最佳匹配的图像,满足参考图像的相似性约束和在附加文本中请求的图像为此,系统必须能够理解图像和文本的内容,并将文本注释与图像内容相结合。系统训练的模式如图2所示。与以前的作品(如[5,20,24,33])相比,这些作品是从不同的图像和文本模型构建的,我们从使用CLIP特征获得的图像和文本的共同嵌入的假设开始。这是由[29]中指出的事实激发的,即文本和图像中表达的相似概念往往具有相似的特征,或者至少图像和文本输入都使用各自的CLIP编码器编码成公共空间中的特征。要解决的问题是学习从参考图像特征和输入文本到组合特征的变换,该组合特征包括多模态输入信息并且尽可能接近公共流形中的目标图像我们将这种转换表示为组合器函数,并设计一个经过训练的神经网络架构来学习正确的函数。图3所示的Combiner函数简单,但比我们测试的更复杂的架构性能更好,在条件图像检索和组合图像检索中获得了最新的性能;关于网络设计的更多细节和消融研究可在我们以前的工作[3]。这个想法是建立一个添加剂的转换,其中文本,图像和两者的组合都被添加到最终的组合功能。该系统的训练是用三元组进行的:输入图像,相对字幕和目标图像。在[24,33,38]之后,我们采用基于批次的分类(BBC)损失。3.1. 预处理管道CLIP的标准预处理流水线主要由两个步骤组成:调整大小操作,其中图像的较小侧与CLIP输入尺寸输入dim匹配,随后是中心裁剪操作,其导致正方形块输入dim输入dim输出。随后,随着较大侧和较小侧之间的比率增加,在预处理之后丢失的图像的面积增加。为了克服这种信息丢失,最简单的方法是执行零填充以将较小的边与较大的边匹配(即,使图像平方)。通过这样做,我们将归因于中心裁剪操作的内容信息的损失归零,然而,我们降低了图像的有用部分的分辨率,因为CLIP图像编码器输入维度是固定的。因此,与我们以前的工作[3]不同,我们提出了一种新的预处理流水线,旨在找到上述流水线之间的折衷:在应用中心裁剪操作之前,只有当图像的纵横比高于固定目标比率时,我们才填充图像。此外,当我们填充图像时,我们不会使其方形,而是将其纵横比调整为目标比例。这种方法相对于我们以前的结果[3]提高了性能。3.2. 实现细节在下面的实验和演示中,我们使用表示为RN 50 x4的CLIP模型,因为它优于RN 50模型:视觉编码器遵循EfficientNet风格的模型缩放,并使用大约4个标准ResNet-50的计算[14]。它以288288像素的输入图像文本编码器是一个Transformer编码器,具有12层,10个头和640的宽度。在实验中,CLIP编码器一直保持冻结,模型的唯一训练部分是Combiner函数。预处理管道中的目标比率设定为1.25。我们在实验中使用了PyTorch。我们使用Adam优化器[21],学习率设置为2e5。我们对模型进行了最多300个epoch的训练,批量大小设置为4096。4. 建议的Demo所提出的演示旨在以交互的方式展示前面描述的多模态检索系统是如何工作的。这样的演示有两个目的:第一个是动态地说明系统在以下情况下如何工作:有Korn标志夹文本编码器参考图像特征线性X共享权重+L2规范组合特征字幕特色线性ReLU脱落线性ReLU丢弃线性σX线性辍学ReLU1 -σ线性辍学线性ReLUReLU脱落线性Concat夹图像编码器参考图像特征组合特征参考图像目标图像组合器权重对比更新损失CLIP图像编码器字幕特色目标图像特征相关标题图2.系统的训练概述,从左边的输入图像和字幕到右边的目标图像在推理时,训练的组合器用于产生用于查询数据库的有效多模态表示。图3.合并器网络的架构。σ表示sigmoid函数。我们使用包括在数据集中的一对(参考图像,相对帽)作为查询。第二个目标是模拟一个真实世界的场景,用户可以查询系统与任意字幕不包括在数据集中。我们演示的界面能够同时处理这两个目标:它能够建议与每个参考图像相关的相对标题,标记结果中的地面实况目标图像,并提供一个文本区域,用户可以在其中输入任意标题。在演示中包括我们使用的两个 数 据 集 : FashionIQ 和 CIRR 。 该 演 示 可 在http://cir.micc.unifi.it:5000图4显示了应用程序的工作原理图。4.1. 架构该演示是作为一个网络应用程序开发的,可以通过标准的网络浏览器访问,无论是在PC还是移动设备上。在开始演示之前,有必要使用CLIP图像编码器提取图像的所有该计算是离线执行的,以避免对每个查询进行重新计算。从现实世界的角度来看,这种预先计算是有意义的,事实上,如果我们以在线商店为例,图像不是动态上传的但它们代表商店可以出售的物品。另一方面,当执行查询时,文本特征被实时计算,因为在真实的上下文中,用户的查询不是先验已知的。在视觉特征提取之后,演示程序就可以运行了。该演示允许用户首先选择数据集,然后选择参考图像,最后插入标题(或在数据集的默认值之间进行选择)。当用户选择参考图像并填充(或选择)相对字幕,首先从预先计算的视觉特征中选择然后使用CLIP文本编码器提取文本特征,随后使用组合器网络将视觉和文本特征组合,该组合器网络输出组合特征。最后,在标准的图像检索中,组合特征被用来查询视觉特征数据库。非常重要的是要注意,一旦计算出组合特征,条件图像检索就与标准的基于内容的图像检索类似因此,所有通常用于保证CBIR系统可扩展性的技术都可以应用到所提出的系统中,例如散列、近似搜索、[19 ]第19话,等。在演示中,前50个结果选择要体验的数据集选择参考图像选择或插入相对标题参考图像相对字幕参考图像字幕结果在此长是绿色...图4.演示概述。首先,用户必须选择数据集,有两种可能的选择:时尚数据集FashionIQ和现实生活中的图像数据集CIRR。在选择参考图像之后,用户可以插入相对说明或在数据集的默认说明中进行选择。最后,他们可以检查结果。如果用户对结果不满意,则通过点击检索到的图像,他们可以在新的查询因为在这两个数据集中,更广泛的尺度度量是R@50。此外,在CIRR数据集中,当选择数据集由于我们有两个不同的数据集,具有完全不同的图像域,因此我们有两个不同的Combiner网络,一个用于FashionIQ,另一个用于CIRR数据集。在选择演示中使用的数据集时,会自动选择正确的组合器网络。4.2. 实现细节Web应用程序的后端是一个用Python编写的小型服务器,使用Flask微框架。前端使用Bootstrap库编写,可在PC和移动设备上使用。为了减少GPU的存储量,预先计算的特征存储在CPU RAM中,仅在需要时才加载到GPU中为了进一步减少所需的内存量(并加速计算),Combiner网络和CLIP模型都以一半(fp16)精度工作。为了与FashionIQ的标准评估协议保持一致,我们考虑将数据集细分为三个类别(连衣裙,上衣和衬衫),这意味着当参考图像属于某个类别时,当进行检索时,只考虑同一类别的图像。这在现实世界的部署中也是一个合理的设计选择,因为我们可以预期对衣服感兴趣的用户不想看衬衫。建议的字幕仅是包括在验证集中的那些,并且当选择其中一个时,检索的图像是验证集的那些。这样做是为了让演示可以在检索结果中突出显示地面实况目标图像事实上,在这两个数据集中,地面真值标签都没有为测试集发布。相反,当用户插入不是数据集的一部分的新查询时,如他们在真实世界场景中那样,系统在验证集和测试集中搜索相关图像。我 们 在 一 台 配 备 英 特 尔 至 强 E5-2620 v3 CPU 、NVIDIA Titan X 12 GB GPU和128GB RAM检索过程平均耗时不到35毫秒,GPURAM占用量为743 MB(单次同时访问)。我们还在配备Intel Core i7- 7500 U CPU和NVIDIA GeForce 940MX2GB GPU和16 GB内存的低端笔记本电脑上测试了演示;在这种情况下,演示运行平稳,平均检索时间为70毫秒。显然,检索中涉及的图像数量相对较少(更多细节见第5节),然而,Combiner网络能够在这样一个低端设备上几乎实时运行的事实使我们相信该系统可以扩展到大规模检索。4.3. 用法和示例首先,当演示启动时,需要选择要执行实验的数据集。如前所述,用户可以做出两个选择:时尚数据集FashionIQ和真实图像数据集CIRR。使用导航栏,在整个演示的执行过程中始终可以更改数据集的选择在图5中显示了数据集选择页面一旦选择了数据集,用户必须选择他想要的从数据集中随机选择一些参考图像,作为对用户的建议每次刷新页面都会显示不同的设置。图6显示了允许这种选择的演示界面。要完成多模态查询,还必须提供相对标题。该演示允许用户在验证集中包含的标题中进行选择,并插入任意标题。图7显示了演示界面如何支持这两个选项。最后,用户可以检查他插入的多模态查询的结果。此外,如果用户想要细化结果,则可以将检索到的图像用作参考图5.数据集选择演示页面。用户可以选择FashionIQ或CIRR数据集。图6.参考图像选择演示页面。用户可以选择他们喜欢的参考图像。图7.相对标题插入演示页面。用户可以选择或插入相对标题。图片在新的查询。这可以通过点击用户希望在新查询中使用的检索到的图像来完成。这样的迭代过程允许通过模拟基于对话的搜索系统来进行多步搜索图8显示了演示结果页面。一个视频显示了一个完整的例子,使用该系统可在https://youtu.be/ifBQA9xAbhw。5. 实验结果在本节中,我们报告了在两个标准数据集FashionIQ和CIRR上对所提出的系统与竞争性最这些数据集也在演示中使用。图8.结果演示页面。用户可以检查他插入的多模态查询的结果此外,通过点击检索到的图像,他们可以将其用作新查询中的参考图像5.1. FashionIQFashionIQ [40]提供了从网络上抓取的77,684张时尚图片,分为三个不同的类别:连衣裙,上衣和衬衫;作者提供了标准训练,验证和测试分割。训练集包括由参考图像、一对相关字幕和目标图像组成的18,000个训练三元组,并且总共由46,609个图像组成字幕描述了要在参考图像中修改以匹配目标图像的属性。验证集有15,537幅图像和6,017个三元组,测试集由15,538幅图像和6,119个三元组组成。我们遵循[20,24]中的标准实验设置。使用的评估指标是等级K的平均召回率(Recall@K),特别是我们使用Recall@10(R@10)和Recall@50(R@50)。注意,对于每个三元组,只有一个正索引图像。因此,每个查询的R@K要么为零,要么为一。报告的所有结果都是在验证集上计算的,因为在编写测试集时,地面实况标签尚未发布。5.2. CIRRCIRR ( ComposeImageRetrievalonReal-lifeimages)[27]数据集被认为克服了条件图像检索数据集(如FashionIQ)中出现的两个常见问题:由于图像域受限而缺乏足够的视觉CIRR由21,552张取自流行自然语言推理数据集NLV R2的真实图像组成[35]。它遵循FashionIQ数据集的相同结构,包含36,554个随机分配的三元组,其中80%用于训练,10%用于验证,10%用于测试。数据集的图像被分组为在语义上和视觉上相似的六个图像的多个子集。收集相对字幕以描述图像中的两个图像之间的差异∼∼∼∼相同的子集。这样做是为了具有高视觉相似性的负图像,否则区分参考图像和目标图像将是微不足道的。根据以前的工作,数据集的作者提出的标准评估协议是在四个不同的等级(1,5,10,50)报告等级K(Recall@K)的召回率。此外,由于CIRR数据集的独特设计,还报告了仅考虑查询子集中的图像的召回子集该子集度量具有两个主要优点:它不受假阴性样本的影响,并且由于具有高视觉相似性的阴性样本,它捕获细粒度的图像-文本修改。在这些度量中,R@5说明了整个语料库中可能的假阴性,并且R子集 @1示出了细粒度的能力。5.3. 与SotA在这些实验中,我们比较了所提出的方法与国家的最先进的方法在两个标准和chal-challenging数据集。方法石R@10RTR@50博士R@10ESSR@50ToptR@10eeR@50AveraR@10葛R@50JVSM [4]12.027.110.725.913.026.911.926.6[27]第二十七话17.5338.8117.4540.4121.6445.3818.8741.53TRACE w/BERT [16]20.8040.8022.7044.9124.2249.8022.5746.19VAL(带手套)[5]22.3844.1522.5344.0027.5351.6824.1546.61MAAF [8]21.344.223.848.627.953.624.348.8[42]第四十二话21.4544.5626.1553.2430.1255.2325.9051.01[33]第三十三话23.7947.2529.1554.0431.6157.9828.1853.09[24]第二十四话24.9049.1825.6450.3029.2157.4626.5852.31DCNet [20]23.9547.3028.9556.0730.4458.2927.7853.89[15]第十五话28.0251.8626.5251.0132.7061.2329.0854.70该方法36.3658.0031.6356.6738.1962.4235.3959.03表1.在Fashion-IQ验证集上比较我们的方法和当前最先进的模型。最好的分数用粗体突出显示,第二好的分数用下划线突出显示。方法召回@KR子集@KK=1K=5K=10K=50K=1K=2K=3[38]第三十八话14.6148.3764.0890.0322.6744.9765.14[38]第三十八话11.0435.6851.2783.2923.8245.6564.55[8]第八话10.3133.0348.3080.0621.0541.8161.60MAAF+ BERT† [8]10.1233.1048.0180.5722.0442.4162.14[8]第十八话9.9032.8648.8380.2721.1742.0460.91[8]第八届全国政协委员10.2233.3248.6881.8421.4142.1761.60[27]第二十七话15.1843.3660.4887.6433.8156.9975.40[27]第二十七话19.5552.5568.3992.3839.2063.0379.49该方法33.5965.3577.3595.2162.3981.8192.02表2.在CIRR测试集上比较我们的方法和当前最先进的模型最好的分数用粗体突出显示†表示引用的结果[27]表1显示了Fashion-IQ确认集的定量结果我们的方法优于最先进的方法,在R@10度量上平均提高了7%,在R@50度量上平均提高了5%我们的方法具有最高的召回率,所有类别,特别是我们可以观察到,利润率在衬衫类别中特别大。表2显示了通过官方评估服务器获得的CIRR测试集的定量结果。此外,在这个数据集中,我们的方法始终优于当前的方法,特别是在低排名召回措施中,我们在R@1中实现了高达14%此外,在查询子集内的检索结果非常好,在R Subset@1中提高了23%;这个出色的结果表明我们的方法也能够捕获细粒度的修改。相似图片之间的对比。6. 结论本文利用CLIP模型的零镜头传输特性,解决了条件图像检索问题。使用为在检索任务中使用CLIP而定制的新型预处理流水线,我们开发了一种Combiner网络,该网络能够计算由参考图像与文本描述集成而成的组合特征。此外,我们还提出了一种预处理填充方法,可以提高具有许多不同纵横比的图像的数据集的性能。我们在具有挑战性的时尚数据集FashionIQ和最近提出的CIRR数据集上进行实验。在两个数据集上的实验表明,我们的方法能够显著优于更复杂的最先进的方法。演示系统允许用户使用两个数据集的图像-文本对来测试所提出的方法,或者让用户提供他们自己的文本,模拟系统的真实世界部署。该接口允许实现基于回合的交互,模拟用户在电子商务网站上的行为。该系统也可以在相对低性能的服务器上使用,并且可以使用标准CBIR系统中常用的技术扩展到大规模数据集。6.1. 资源代码、经过训练的Combiner网络和如何在本地运行演示的说明可在github.com/ABaldrati/CLIP4CirDemo上获得。致谢我们非常感谢NVIDIA公司捐赠用于本研究的TitanX Pascal GPU。这项工作得到了欧盟委员会在欧洲地平线2020计划下的部分支持,资助号为101004545 -ReInHerit。引用[1] Sandhini Agarwal,Gretchen Krueger,Jack Clark,AlecRad- ford,Jong Wook Kim,and Miles Brundage.评估CLIP:对更广泛的能力和下游影响的表征。arXiv预印本arXiv:2108.02818,2021。2[2] 穆罕默德·乌默·安瓦尔,叶戈尔·拉宾采夫,马丁·克莱斯 特 伯 。 用 于 图 像 检 索 的 图 文 查 询 组 合 学 习 。IEEE/CVF计算机视觉应用冬季会议(WACV),第1140- 1149页,2021年1月。2[3] 阿尔贝托·巴尔德拉蒂,马尔科·贝尔蒂尼,提贝里奥·乌里奇奥,还有阿尔-贝托·德尔·宾博.使用对比学习和基于 CLIP 的 特 征 进 行 时 装 条 件 图 像 检 索 。 ACMMultimedia Asia(ACMMM Asia),2021年。3[4] 陈延北和洛里斯·巴扎尼。学习联合视觉语义匹配嵌入语 言 引 导 检 索 。 在 proc欧 洲 计 算 机 视 觉 会 议(ECCV),第136-152页,2020年11月。7[5] Yanbei Chen,Shaogang Gong,and Loris Bazzani.通过视觉语言注意学习的文本反馈的图像搜索。 在proc 计算机视觉和模式识别会议(CVPR),2020年6月。二、三、七[6] 程瑞哲,吴碧晨,张培昭,彼得·瓦伊达,约瑟夫·E.Gonzalez.数据有效的语言监督零射击学习与自蒸馏。在IEEE/CVF计算机视觉和模式识别会议(CVPR)研讨会上,第3119-3124页,2021年6月。2[7] Marcos V Conde和Kerem Turgutlu。CLIP-Art:用于细粒度艺术分类的对比预训练。在proc 计算机视觉和模式识别会议(CVPR),第3956-3960页,2021年。2[8] Eric Dodds , Jack Culpepper , Simao Herdade , YangZhang,and Kofi Boakye. 具有文本反馈的视觉搜索的模 态 无 关 注 意 力 融 合 。 arXiv 预 印 本 arXiv :2007.00145,2020。二、七[9] 希夫·拉姆·杜比使用深度学习进行基于内容的图像检索的十年调查IEEE Transactions on Circuits and Systems forVideo Technology,第1-1页,2021年。2[10] 韩芳,熊鹏飞,徐鲁辉,陈宇。CLIP2Video:通过图像 CLIP 掌 握 视 频 文 本 检 索 arXiv 预 印 本 arXiv :2106.11097,2021。2[11] Federico A Galatolo,Mario GCA Cimino,and GigliolaVaglini.通过CLIP引导的生成潜在空间搜索从字幕生成图像,反之亦然。arXiv预印本arXiv:2102.01645,2021。2[12] 诺亚·加西亚和乔治·沃吉亚齐斯如何阅读绘画:多模态检索的语义艺术理解。欧洲计算机视觉会议(ECCV)研讨会,第0-0页,2018年。1[13] Xintong Han,Zuxuan Wu,Yu-Gang Jiang,and Larry SDavis.学习双向LSTM的时尚兼容性。在Proc. of ACMinternational conference on Multimedia(MM),第1078-1086页,2017年。1[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在procIEEE/CVF计算机视觉和模式识别会议(CVPR),2015年。3[15] Surgan Jandial 、 Pinkesh Badjatiya 、 Pranit Chawla 、AyushChopra、MausoomSarkar和BalajiKrishnamurthy。SAC:用于文本条件图像检索的语义注意 组 合 。 在 IEEE/CVF 计 算 机 视 觉 应 用 冬 季 会 议(WACV)集,第40212022年1月。二、七[16] Surgan Jandial 、 Ayush Chopra 、 Pinkesh Badjatiya 、PranitChawla、MausoomSarkar和BalajiKrishnamurthy。跟踪:转换、聚合和组合用于图像搜索的语言表示,并提供文本反馈。arXiv预印本arXiv:2009.01485,2020。7[17] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaParekh , Hieu Pham , Quoc V Le , Yunhsuan Sung ,Zhen Li,and Tom Duerig.通过噪声文本监督扩大视觉和视觉语言表征学习。国际机器学习会议(ICML),2021年。2[18] Albert Jimenez,Jose M Alvarez,and Xavier Giro-i Ni-eto.用于视觉实例搜索的类加权卷积特征。 在proc 2017年英国机器视觉会议(BMVC)1[19] Je f fJohnson,MatthijsDouze,andHer ve'Je'gou. 用gpu进行 十 亿 级 相 似 性 搜 索 。 arXiv 预 印 本 arXiv :1702.08734,2017。4[20] Jongseok Kim , Youngjae Yu , Hoeseong Kim , andGunhee Kim.交互式图像检索中的双成分学习。 在procAAAI人工智能会议(AAAI),第35卷,第1771-1779页,2021年5月。二三六七[21] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。在Yoshua Bengio和Yann LeCun的编辑,第三届学习表征国际会议,ICLR 2015,美国加利福尼亚州圣地亚哥,2015年5月7日至9日,会议跟踪程序,2015年。3[22] Zhanghui Kuang,Yiming Gao,Guanbin Li,Ping Luo,Yimin Chen,Liang Lin,and Wayne Zhang.基于相似性金字塔的图形推理网络的时尚检索。IEEE/CVF计算机视觉国际会议(ICCV),2019年10月。1[23] 米哈尔·库瑟和奈拉·默里多领域时尚商品检索的先检测后检索模型。在procIEEE/CVF计算机视觉和模式识别会议(CVPR)研讨会,第0-0页,2019年。1[24] Seungmin Lee , Dongwan Kim , and Bohyung Han.CoSMo:用于图像检索的内容风格调制和文本反馈。在proc 计算机视觉和模式识别会议(CVPR),第802-812页,2021年6月。二三六七[25] Manling Li , Chen Xu , Shuohang Wang , LuoweiZhou,Xudong Lin,Chengguang Zhu,Michael Zeng,Heng Ji,and Shih-Fu Chang. CLIP-Event:用事件结构连接文本和图像。arXiv预印本arXiv:2201.05078,2022。2[26] 李晓 青, 杨建 生, 马锦 文。基 于内 容的 图像 检索(CBIR)的最新发展。神经计算,452:675-689,2021。2[27] Zheyuan Liu , Cristian Rodriguez-Opazo , DamienTeney,and Stephen Gould.使用预训练的视觉和语言模型对真实图像进行图像检索在IEEE/CVF Proc.国际计算机视觉会议(ICCV),2021年。二三六七[28] 洛伦佐·普祖卢卡·皮拉斯和乔治·贾辛托基于内容图像检索中相关反馈的卷积神经网络。多媒体工具和应用,79(37):26995-27021,2020。2[29] Alec Radford、Jong Wook Kim、Chris Hallacy、AdityaRamesh 、 Gabriel Goh 、 Sandhini Agarwal 、 GirishSastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger和Ilya Sutskever。从自然语言监督中学习 可 转 移 的 视 觉 模 型 。 arXiv 预 印 本 arXiv :2103.00020,2021。二、三[30] 路易斯·阿曼多·佩雷兹·雷伊,德米特里·雅尼·科夫和米克·霍兰德斯基。基于内容的弱监督解纠缠表示图像检索。 在proc NeurIPS深度生成模型和下游应用研讨会,2021年。2[31] Lorenzo Seidenari,Claudio Baecchi,Tiberio Uricchio,An- drea Ferracani , Marco Bertini , and Alberto DelBimbo.用于自动上下文感知音频指南的深度艺术品检测和检索。ACM Transactions on Multimedia Computing,Communications , and Applications ( TOMM ) , 13(3s):35,2017年6月。1[32] Raymond Shiau,Hao-Yu Wu,Eric Kim,Yue Li Du,Anqi Guo,Zhiyuan Zhang,Eileen Li,Kunlong Gu,Charles Rosenberg , and Andrew Zhai. 购 物 外 观 : 在Pinterest 上 建 立 一 个 大 型 视 觉 购 物 系 统 。 ACMInternational Conference on Knowledge Discovery DataMining(KDD),第3203-3212页,2020年。1[33] Minchul Shin , Yoonjae Cho , Byungsoo Ko , andGeonmo Gu. RTIC:使用图卷积网络进行文本和图像合成 的 残 差 学 习 。 arXiv 预 印 本 arXiv : 2104.03015 ,2021。二、三、七[34] Arnold WM Smeulders 、 Marcel Worring 、 SimoneSantini、Amarnath Gupta和Ramesh Jain。 基于内容的图像检索在早年结束 。IEEE Transactions on PatternAnalysis and Machine Intelligence ( TPAMI ) , 22(12):1349-1380,2000。1[35] Alane Suhr,Stephanie Zhou,Ally Zhang,Iris Zhang,Hua-jun Bai,and Yoav Artzi.基于照片的自然语言推理语料库。arXiv预印本arXiv:1811.00491,2019。6[36] 作者声明:A. Sk orupa,Jukasz Brocki,and KrzysztofMarasek. Deepstyle:时尚和室内设计的多模态搜索引擎.IEEE Access,7:84613-84628,2019。1[37] 费德里科·瓦卡罗,马可·贝尔蒂尼,提贝里奥·乌里奇奥,还有阿尔·贝托·德尔·宾博.使用多尺度CNN特征池的图像检索在Proc. of ACM International Conference onMultimedia Retrieval(ICMR),ICMR计算机协会。1[38] Nam Vo,Lu Jiang,Chen Sun,Kevin Murphy,Li-JiaLi,Li Fei-Fei,and James Hays.为图像
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功