ROSE：亚马逊产品搜索缓存优化

197 浏览量更新于2023-11-30 收藏 663KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

89→ROSE：用于亚马逊产品搜索的强大缓存Chen Luo，Vihan Lakshman，Anshumali Shrivastava，Tianyu Cao，Sreyashi Nag，Rahul Goutam，Hanqing Lu，Yiwei Song，Bing Yin亚马逊搜索美国加利福尼亚州帕洛阿尔托摘要像Amazon Search这样的产品搜索引擎通常使用缓存来改善客户用户体验;缓存可以改善系统的延迟和搜索质量。但是，随着搜索流量的增加，高速缓存不断增长的大小可能会降低整体系统性能。此外，在现实世界的产品搜索查询中广泛存在的拼写错误、拼写错误和冗余会导致不必要的缓存未命中，从而降低缓存在本文中，我们介绍了ROSE，一个RO布S t缓存E，一个系统，是宽容的拼写错误和错别字，同时保留传统的缓存查找成本。ROSE的核心组件是一个随机的客户查询ROSE查询重写大多数交通很少流量30X倍玫瑰深度学习模型客户查询ROSE缩短响应时间散列模式，使ROSE能够索引和检索任意大的查询集，具有恒定的内存和恒定的时间。 ROSE对任何查询意图、打字错误和语法错误都具有理论保证。在真实数据集上的大量实验证明了ROSE的有效性和效率。ROSE部署在亚马逊搜索引擎中，并在几个关键业务指标上对现有解决方案进行了重大改进CCS概念• 信息系统查询日志分析;查询意图;查询重构。关键词Amazon搜索，健壮缓存，数据挖掘ACM参考格式：Chen Luo ， Vihan Lakshman ， Anshumali Shrivastava ， Tanyu Cao ，Sreyashi Nag ， Rahul Goutam ，， Hanqing Lu ， Yiwei Song ， BingYin.2022年ROSE：Robust Caches for Amazon Product Search. 在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。 ACM ，美国纽约州纽约市， 5 页。https://doi.org/10.1145/3487553.35242131介绍近年来，网上购物已成为消费者日常生活中不可或缺的一部分，并在COVID-19全球大流行期间需求大幅增加。产品搜索引擎作为电子商务网站的重要组成部分，将客户的意图与产品选择联系起来。提高允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9130-6/22/04。. . 十五块https://doi.org/10.1145/3487553.3524213图1：ROSE帮助提高产品搜索引擎的搜索质量和系统性能使用ROSE，大部分搜索流量都被个位数的毫秒延迟所覆盖ROSE还通过在接近恒定的时间内将长尾查询映射到正常查询来提高搜索质量产品搜索引擎的性能对于更好的购物体验至关重要。影响搜索引擎性能的两个关键因素：（1）对客户请求的响应时间和（2）提供符合客户意图的高质量结果。用户研究表明，缓慢的响应会导致购物体验的中断，甚至放弃网站响应时间也是产品搜索引擎吞吐量规划的关键因素。现代产品搜索引擎通常由不同的昂贵的机器学习模型[1，6，7，11，14，15，22，30，31，33]组成，例如相关性匹配模型[20]，排名模型[2]和查询注释模型[29]。由于延迟限制和成本考虑，通过昂贵的深度学习模型提供整个搜索流量在现实世界的产品搜索引擎中是禁止的[12]。因此，与其通过这些昂贵的深度学习模型来服务所有查询，更实际的解决方案是从缓存中服务频繁的查询然而，传统的高速缓存遭受高速缓存未命中率和高速缓存大小之间的权衡具有小的高速缓存大小将导致高的高速缓存未命中率。另一方面，随着产品搜索引擎规模的扩大，频繁出现的查询的集合变得过大，并且由于具有相同意图的查询的形态变体而增长。例如，“Nike shoes”、“Nike shoe”和“Nike's shoe”由于它们的这些查询都有相同的意图，它们人为地增加了缓存大小并降低了性能。因此，设计一个对拼写错误和形态差异保持不变的强大缓存对于扩展现实世界的搜索服务至关重要，因为它可以提高缓存命中率，而不会相应地增加了延迟和内存占用。此外，损害搜索结果质量的一个关键问题是存在低性能查询，即搜索引擎无法返回高质量结果的查询。分析表明，这些失败案例中的大多数是由于印刷长尾查询常规查询“nikeshoos玫瑰WWW陈洛等90≪数据“nike shoes”“iphone...查询关键词玫瑰“nike“nike行为信息在真正的产品搜索引擎中，缓存大小需要避免随着查询量的增加而增加。为了捕获文本相似性信息，我们在索引生成阶段使用局部敏感哈希（LSH）[8]LSH在一定的相似性度量下为输入数据生成签名索引生成在线检索当然.由LSH生成的签名捕获查询之间的相似性信息，使得相似的查询具有较高的图2：ROSE的总体框架。ROSE包含两个阶段：（1）缓存索引生成：使用输入查询生成鲁棒索引（2）联机检索：将输入查询映射到缓存中的查询之一。错误[26]。这些低性能查询通常在词汇或语义上类似于一些经常搜索的、性能良好的查询，这些查询会产生令人满意的结果。因此，如果我们能够通过一个健壮的缓存机制将这些低性能的查询映射到具有相同意图的频繁搜索的查询，我们将能够提高搜索质量。此外，该查询映射过程还将减少等待时间，因为产品搜索引擎通常缓存这些频繁发出的查询及其对应的行为信息以用于更快的服务，如图1所示。为了解决这些挑战，我们提出ROSE缓存性能良好或频繁的查询，以提高响应时间和搜索质量的产品搜索引擎。ROSE的核心组件是一个随机哈希结构，它在保留词汇或语义信息的同时对查询集进行索引具体而言，我们的论文包括以下贡献：操作系统：我们介绍ROSE，一个用于缓存产品搜索查询的快速端到端解决方案。ROSE可以在恒定的时间和恒定的内存中对网络规模的数据进行索引和查找，并且比其他替代品快几个数量级。技术新颖性：我们发明了一种系统，该系统以一种新颖的方式组合了多种强大的随机化算法技术，包括局部敏感散列，水库采样和基于计数的k选择，这些技术一起允许我们将ROSE扩展到大规模查询集，同时保持恒定时间检索。实际影响：我们在Amazon 产品搜索引擎中部署了ROSE，与现有解决方案相比，系统性能和业务指标都有所改进。2ROSE：通过随机哈希实现健壮缓存在本节中，我们将介绍ROSE，这是一种通过随机散列进行查询的健壮缓存。 ROSE包含两个阶段，索引生成和在线检索，如图2所示。我们首先介绍了这两个阶段，然后从时间和内存复杂度方面对ROSE进行了理论分析。2.1ROSE索引生成我们根据两个要求设计了ROSE的索引生成过程。首先，高速缓存需要捕获查询相似性，这意味着高速缓存在执行查找时需要考虑查询的相似性，以便对拼写错误和语义变化具有鲁棒性。其次，由于大规模的索引空间，具有相同散列签名并因此发生冲突的概率由于LSH是一个随机过程，我们通过为索引维护L个独立的哈希表来本文将重点研究两种散列策略：词汇保持散列和产品类型保持散列。我们将在2.3节和2.4节分别介绍这两个哈希函数的细节。然而，在位置敏感哈希框架下，哈希表的大小随着数据量线性增加[25]，这导致在处理Web规模数据时内存占用爆炸为了解决这个问题，受[28]中工作的启发，我们使用水库采样策略来修复缓存的内存使用并保留数据的相似性信息。储层采样算法[27]处理m个数字的流，并仅使用大小为R的数组生成R个均匀样本，其中R m。此外，储层采样仅需要一次通过数据，并且不增加指数生成过程的计算复杂度我们将在第2.5节中对应用于缓存框架的这种采样策略进行理论分析。2.2ROSE在线检索给定一个搜索查询，我们通过首先计算该查询的LSH签名并在哈希表中查找相应的桶来执行健壮的缓存查找。然后，我们对桶中缓存的查询与新搜索的相似性进行排名，并返回最高结果。然而，在标准的LSH模式下[16为了避免这种昂贵的成对相似性计算，我们使用了受[ 13 ]启发的基于计数的k选择策略。在L个不同的哈希表中，我们观察到与新查询冲突次数最多的缓存条目与查询更相似。这一观察使我们能够以无偏的方式估计实际排名。我们计算每个数据点通过使用这种策略，在线检索过程在恒定的时间内运行（2.5节）。2.3保词法哈希算法我们的目标是保持词汇哈希的哈希函数，保持输入查询之间的词汇相似性。为了在产品搜索中实现这一点，我们使用Jaccard相似性来衡量两个查询之间的相似性，定义为两个查询关键字共享的字符跨度之比，并使用minhash [3]作为相应的LSH方案。给定一个包含n个字符和m个单词的查询Q，我们将这些关键字分割成一组由字符级客户查询···保词法哈希算法产品类型保持哈希哈希索引结果索引哈希表结果指数数据结果关键词行为数据ROSE：用于亚马逊产品搜索的WWW91i=1（）下一页（）下一页（）下一页（）下一页（）下一页·）S（）（·S（）S（）（· ）（）序列和单词一元语法，记为S（Q）={ci}n{cici+1}n−1···<${wi}m，其中reci和wi表示第i个字符i=1i= 1和查询的字。字符子序列的长度是一个超参数。我们发现子序列长度为3给了我们最好的结果。然后，我们使用最近在加密单排列散列（DOPH）[24]中的进展来有效地计算S（Q）的minhash签名2.4产品类型保持哈希在产品搜索引擎中，理解查询的产品类型信息对于显示匹配客户因此，在执行缓存查找时，将原始查询映射到保留原始产品类型意图的查询至关重要为了保留产品信息，我们在查询中为产品类型标记添加权重。产品类型标记由生产NER模型提取[32]。我们使用与词法保留哈希相同的过程来为输入查询生成标记集Q。然后，我们通过以下策略为Q中的令牌分配权重：如果令牌不是产品类型令牌，则权重为1。0. 否则，我们将权重W>1分配给这个令牌。这里，W是我们算法中的超参数在我们的真实世界实验中，我们发现W= 10给了我们最好的结果。为了生成加权集Q的哈希签名，我们利用了最近在有效计算加权minhash签名方面的进展[5，9，23]。2.5理论分析在本小节中，我们分析了我们的算法的复杂性索引步骤时间复杂度：在所提出的算法中，计算一个查询的哈希值的平均时间复杂度是O LT，其中L是LSH的重复次数，T是每个查询的平均令牌数。对于具有N个查询的数据集，生成整个鲁棒高速缓存结构的复杂度是O LNT。实际上，L和T是比N小得多的小常数，所以我们可以认为渐近时间复杂度是O N。构建缓存的线性时间复杂度为我们的方法提供了显著的扩展优势，可以缓存大量数据。检索步骤时间复杂度：ROSEO LT是计算传入查询的哈希值BL是组合集合中k-选择的时间复杂度，其中B是桶大小。因此，检索步骤的总时间复杂度实际上，L、B和T是小常数。因此，缓存检索的时间复杂度是恒定的，这使得ROSE在产品搜索等延迟关键型服务中具有决定性的内存复杂度：ROSE的内存使用是O B NBL，其中NB是一个哈希表中的桶数NB是一个超参数，是一个与缓存大小无关的常数。我们可以看到，内存使用量并没有随着缓存大小的增加而增加这使得ROSE能够以最小的内存成本实现对海量数据的快速检索速度，这是行业规模搜索引擎的理想组合。错误分析：由于LSH的随机性，我们注意到将原始查询映射到不相关的桶是可能的表1：离线实验结果概率很小但不是零然而，我们可以通过维护L个独立的哈希表来戏剧性地降低这种错误概率。特别是，我们可以应用标准的Beschoff边界参数[19]，并得出结论，例如，L个哈希表中超过一半的错误概率作为L的函数呈指数下降。3离线实验数据集：我们从亚马逊搜索日志中抽取了大约6000万个性能良好的查询作为缓存的目标集。遵循[21]中相同的评估策略，我们的评估数据集从三个桶中采样查询：a）NQ：正常查询，这是频率最高的三分之一，b）HQ：按频率从查询的中间三分之一采样的硬查询，以及c）LTQ：频率最低三分之一的长尾查询。我们从一个月的搜索日志中随机选择了这些查询。这三个集合中的每一个都包含1000个查询。我们从各种查询缓存策略中获得了查询的重新映射结果，并使用了一组训练有素的人类判断来为每个返回的查询分配一个相对于原始查询意图的此相关等级用于计算不同方法的性能指标。实验设计：我们设计实验来回答两个关键问题：a）鲁棒性：ROSE的检索过程有多准确？b）效率：ROSE的索引和检索过程有多高效？因此，我们测试以下方法：R-LP：这个方法是我们提出的ROSE方法，具有词法保留哈希.哈希表的数量为L=36，哈希的数量为K=3。R-PT：这个方法是我们提出的方法ROSE，具有产品类型保持散列.所有其他超参数都与ROSE-LP相同。EC [4]：这是作为标准哈希映射实现的精确匹配缓存。在检索阶段，仅精确缓存返回精确匹配的候选项。BF：这是一种缓存结构，通过用暴力搜索取代ROSE的检索算法来设计。我们使用编辑距离作为我们的相似性度量，通过动态规划算法计算1。1 ww.geeksforgeeks.org/edit-distance-dp-5/····数据度量R-LPR-PTECBFFCNQPrec召回F10.88 ±0.03.81±.02.84±.05.96±.010.90±0.04.93±.080.1.0±0.00.50±.04.70±.04.90±.02.88±.02.89±.09.96±.08.89±.09.92±.03HQPrec召回F1.78±.010.80 ±0.09.79±.060.90 ±0.03.86±.05.88±.090.1.0±0.00.52±.05.39±.060.80 ±0.03.79±.08.79±.08.89±.07.85±.07.87±.07LTQPrec召回F1.77±.03.79±.04.78±.05.73±.06.76±.03.74±.050.1.0±0.00.12±.03.21±.03.76±.04.75±.03.75±.04.75±.02.78±.02.76±.05WWW陈洛等92• FC：这是一个为嵌入向量而设计的缓存结构ROSE-QR度量增益滤波方法缺陷率用FAISS [ 10 ]代替ROSE 我们使用语义产品嵌入模型[20]获得每个输入查询的嵌入。我们选择[10]建议的超参数。收入+0。百分之四十二购买+0。百分之三十点击率+7。百分之二十六11.第十一章百分之一9. casino 百分之四我们采用了三个常用的离线评估指标：精确度，召回率和F1测量.为了计算这些指标，我们利用人类对相关性的判断。我们还分析了不同方法的索引生成时间和在线检索时间的速度。总体性能：五个指标下所有方法的结果见表1。与其他方法相比，ROSE在所有三个数据集上的性能最好。具体而言，ROSE提供了1的相对性能增益。2%的回忆和2。F1中的0%超过三个数据集平均的最佳基线特别地，我们发现ROSE-PT对正常查询和硬查询的改进比长尾查询更显著。另一方面，与ROSE-PT相比，ROSE-LP在长尾查询上表现更好。此外，ROSE不仅实现了优于这些竞争方法的质量，而且效率更高。ROSE在索引生成时间和在线检索时间方面明显更快特别地，ROSE-LP在65分钟内完成索引生成过程，而ROSE-PT需要75分钟.与其他高速缓存如BF-Cache和FAISS-Cache相比，ROSE具有决定性的速度优势。ROSE可以在2ms左右完成在线检索过程，而FAISS-Cache需要120 ms，BF-Cache需要65分钟。总之，ROSE显示出强大的检索性能，具有极低的延迟和最小的成本，这使其成为产品搜索引擎等延迟关键型服务的引人注目的解决方案。4亚马逊的系统部署4.1ROSE查询重写我们在Amazon.com产品搜索引擎中部署了ROSE，以将有问题的用户查询（例如带有错别字的查询）重写为提供更好用户体验的替代查询。我们把这个系统称为ROSE-QR.利用保留词法的哈希算法，ROSE-QR将传入的查询映射到现有的缓存查询中的一个，这些缓存查询根据词法相似性具有高质量的结果。我们在亚马逊搜索引擎上进行了一个在线A/B实验，以测试ROSE-QR 在在线实验中，治疗组的用户看到了由ROSE-QR生成的替代查询的扩展搜索结果。专业的人类评判员测量了实验中每个分支中显示的顶级搜索结果的质量。当搜索引擎没有为用户查询返回足够的结果时，我们跟踪了召回失败的减少我们还衡量了收入和采购单位等业务指标。我们的系统在提供更相关的结果方面做得更好，正如人工评估人员所衡量的那样，并显着改善了几个业务指标，如表2所示。4.2ROSE用于产品类型注释预期的产品类型，例如查询“红色耐克鞋”中的鞋，是用户查询中最关键的信息。识别表2：ROSE在Amazon搜索中的生产影响(a) 前4名结果，无产品类型限制。(b) 产品类型限制的前4个结果。图3：查询“dishwasher”的前4个结果。来自查询的正确的产品类型帮助搜索引擎检索正确的产品并显示为每个产品类型定制的搜索结果页面布局。我们实现了ROSE来缓存500 - 1000万个频繁查询的预期产品类型对于传入的尾查询，ROSE将查询映射到几个缓存查询，并使用检索到的缓存产品类型作为尾查询的产品类型的预测。为了评估对用户体验的影响，我们使用我们的ROSE产品类型预测模型来过滤掉具有错误产品类型的不相关搜索结果，例如图11中查询“红色耐克鞋”的连衣裙。3. 我们在Amazon.com产品搜索引擎中部署了该系统，并测量了具有和不具有产品类型识别的搜索缺陷率。我们将产品类型缺陷率定义为前16个结果中产品类型错误的产品数量。从表2中，我们观察到，通过使用ROSE，缺陷率降低了1。7%，对用户体验有显著提升。5结论在本文中，我们提出了ROSE产品搜索。 ROSE是一个健壮的缓存，它通过保留查询意图（在词汇上或语义上）将在线查询映射到缓存查询。该模型具有高度的可扩展性，可以在恒定的时间和恒定的内存中处理数亿个候选人。我们提供了一个理论分析的玫瑰，以及广泛的离线评估。我们在Amazon.com搜索引擎中部署了ROSE，并在系统性能和业务指标方面对现有解决方案进行了显著改进。ROSE：用于亚马逊产品搜索的WWW93引用[1] Aman Ahuja ， Nikhil Rao ， Sumeet Katariya ， Karthik Subbian ， andChandan K Reddy.2020年。电子商务平台上产品搜索的知识不可知表示学习第13届Web搜索和数据挖掘国际会议论文集。7比15[2] Keping Bi ， Choon Hui Teo ， Yesh Dattatreya ， Vijai Mohan ， and W BruceCroft.2019年。多页面产品搜索中的上下文相关性研究。第28届ACM信息与知识管理国际会议论文集。2333-2336.[3] 安德烈·布罗德。2005年重复文档的算法网址：http：//www.hkj.com CS. 普林斯顿。 edu/courses/archive/spr05/cos598E/bib/Princeton.pdf （ 2015 ）（2005）。[4] Randal E Bryant，2003年。计算机系统：程序员的视角。卷二、萨德尔河上游的普伦蒂斯霍尔。[5] 托拜厄斯·克里斯蒂亚尼2020年。DartMinHash：快速绘制加权集。 arXiv预印本arXiv：2005.11547（2020）。[6] 顾玉龙，丁卓业，王帅强，尹大伟2020年。电子商务推荐系统的分层用户分析第13届Web搜索和数据挖掘国际会议论文集。223-231。[7] Christian Hansen ， Rishabh Mehrotra ， Casper Hansen ， Brian Brost ， LucasMaystre，and Mounia Lalmas.2021.将消费转向音乐流媒体平台上的多样化内容。第14届ACM Web搜索和数据挖掘国际会议论文集。238-246。[8] 彼得·因迪克和拉杰夫·莫特瓦尼。1998年近似最近的邻居：走向消除的诅咒。在第三十届年度ACM计算理论（达拉斯，得克萨斯州，美国）（STOC计算机协会，美国纽约州纽约市， 604-613 。 https://doi.org/10 的网站。1145/276698.276876[9] 谢尔盖·约菲2010.改进一致采样，加权minhash和l1草图。2010年IEEE国际数据挖掘会议。IEEE，246[10] 杰夫·约翰逊，马蒂亚斯·杜兹，埃尔韦·杰古。2017.使用GPU的十亿级相似性搜索。arXiv预印本arXiv：1702.08734（2017）。[11] Ting Liang ， Guanxiong Zeng ， Qiwei Zhong ， Jianfeng Chi ， JinghuaFeng，Xiang Ao，and Jiayu Tang.2021年基于多视角感知混合专家网络的电子商务消费贷款信用风险和额度预测第14届ACM Web搜索和数据挖掘国际会议论文集。229-237[12] Heran Lin ， Pengcheng Xiong ， Danqing Zhang ， Fan Yang ， RyoichiKato，Mukul Kumar，William Headden，and Bing Yin.[n.d.]。用于大规模产品搜索中碎片选择的光前馈网络。（[n. d.]）。[13] 陈洛。2020年。一些罕见的LSH宝石用于大规模机器学习。博士论文。莱斯大学。[14] Chen Luo ， Zhengzhang Chen ， Lu-An Tang ， Anshumali Shrivastava ，ZhichunLi，Haifeng Chen，and Jieping Ye.2018年TINET：通过知识转移学习不变第24届ACM SIGKDD知识发现数据挖掘国际会议论文集。1890-1899年。[15] Chen Luo ， Jian-Guang Lou ， Qingwei Lin ， Qiang Fu ， Rui Ding ，Dongmei Zhang，and Zhe Wang.2014年。将事件与时间序列相关联以进行事件诊断。 20th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining（第）1583-1592年。[16] 陈洛和安舒马利·什里瓦斯塔瓦。2017年。SSH（sketch，shingle，hash）用于索引时间序列。NIPS 2016时间序列研讨会。PMLR，38-58.[17] 陈洛和安舒马利 ·什里瓦斯塔瓦。 2018 年（位置敏感）计数估计器阵列（ace）：通过缓存查找进行高速异常检测。（2018年）。[18] 陈洛和安舒马利·什里瓦斯塔瓦。2019年。采用局部敏感采样的扩展分裂合并多载波机。在AAAI人工智能会议论文集，第33卷。4464-4471[19] 迈克尔·米岑马赫和伊莱·乌法尔。2005年概率与计算：随机化算法与概率分析。剑桥大学出版社，USA.[20] PriyankaNigam ， Yiwei Song ， Vijai Mohan ， Vihan Lakshman ， WeitianDing，AnkitShingavi，Choon Hui Teo，Hao Gu，and Bing Yin. 2019年。语义产品搜索。第25届ACM SIGKDD知识发现数据挖掘国际会议论文集。2876-2885。[21] Xichuan Niu，Bofang Li，Chenliang Li，Rong Xiao，Haochuan Sun，HongboDeng，and Zhenzhong Chen. 2020.一种改进电子商务商店搜索长尾性能的双异构图注意力网络。第26届ACM SIGKDD知识发现&数据挖掘国际会议论文集。3405-3415[22] 施佳图，姚华秀，吴贤，李彤，林泽东，王腾飞，赵斌强.2021年有限记录下电子商务细分市场需求预测的元学习算法第14届ACMWeb搜索和数据挖掘国际会议论文集。220-228[23] Anshumali Shrivastava. 2016.简单高效的加权最小哈希算法在NIPS。1498-1506年。[24] Anshumali Shrivastava.2017 年。最佳加密，快速准确的 MinwiseHashing。第34届国际机器会议论文集Learning ， ICML 2017 ， Sydney ， NSW ， Australia ， 6-11 August 2017（Proceedings of Machine Learning Research，Vol.70），Doina Precup andYee Whye Teh（Eds.）.PMLR，3154-3163。 http://proceedings.mlr.press/v70/shrivastava17a.html[25] Anshumali Shrivastava 和 Ping Li 。 2015. 改进的非对称局部敏感哈希算法（ALSH）用于最大内积搜索（MIPS）. 在第三十一届人工智能不确定性会议的会议记录中，UAI 2015，2015年7月12日至16日，荷兰阿姆斯特丹，Marina Meila 和 Tom Heskes （编辑）。北京大学出版社， 812-821.http://auai.org/uai2015/proceedings/papers/96.pdf[26] Zehong Tan，Canran Xu，Mengjie Jiang，Hua Yang，and XiaoyuanWu.2017年。在电子商务中为空和低搜索结果重写查询。在eCOM@ SIGIR。[27] 杰弗里·维特。一九八五年水库随机取样ACM数学软件学报（TOMS）11，1（1985），37-57。[28] Yiqiu Wang ， Anshumali Shrivastava ， Jonathan Wang ， and JungheeRyu.2018年基于cpu-gpu的随机化算法在超高维相似性搜索中的加速。2018年国际数据管理会议论文集。889-903[29] Rong Xiao ， Jianhui Ji ， Baoliang Cui ， Haihong Tang ， Wenwu Ou ，Yanghua Xiao，Jiwei Tan，and Xuan Ju.2019年。电子商务查询重写和语义匹配的弱监督协同训练第十二届ACMWeb搜索和数据挖掘国际会议论文集。402-410[30] Da Xu，Chuanwei Ruan，Evren Korpeoglu，Sushant Kumar，and KannanAchan.2020. 面向电子商务的产品知识图嵌入第13届网络搜索和数据挖掘国际会议论文集。672-680。[31] Da Xu，Chuanwei Ruan，Evren Korpeoglu，Sushant Kumar，and KannanAchan.2021.电子商务机器学习中产品嵌入的理论认识。第14届ACM Web搜索和数据挖掘国际会议论文集。256-264。[32] 张丹青、李正、曹天宇、罗晨、吴东、卢汉青、宋义伟、尹兵、赵拓、杨强。2021年QUEACO：从弱标记行为数据中借用宝藏进行查询属性值提取。第30届ACM信息&知识管理国际会议论文集。4362-4372。[33] Junhao Zhang ， Weidi Xu ， Jianhui Ji ， Xi Chen ， Hongbo Deng ， andKeping Yang.2021.电子商务中长尾查询分类的跨上下文注意力建模。第14届ACM Web搜索和数据挖掘国际会议论文集。58比66

下载后可阅读完整内容，剩余1页未读，立即下载