电子商务产品匹配的监督对比学习及其性能提升研究

73 浏览量更新于2023-11-30 收藏 482KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

248→产品匹配的有监督对比学习拉尔夫·彼得斯德国曼海姆大学数据和网络科学小组ralph@informatik.uni-mannheim.de摘要近年来，对比学习已经在计算机视觉和信息检索的许多任务中取得了进展这张海报是第一个将监督对比学习应用于电子商务中的产品匹配任务的工作，使用来自不同电子商店的产品更具体地说，我们采用监督对比学习技术来预训练Transformer编码器，该编码器随后使用成对训练数据针对匹配任务进行微调。我们进一步提出了一种源感知的采样策略，该策略使对比学习能够应用于训练数据不包含产品标识符的用例我们表明，将监督对比预训练与源感知采样相结合，可以显着提高几个广泛使用的基准测试的最新性能：对于Abt-Buy，我们达到了94.29的F1分数（与之前的最新水平相比，+3.24），对于Amazon-Google 79.28（+3.7）。对于WDC Computers数据集，根据训练集的大小，我们的F1得分在+0.8到+8.84之间。数据增强和自监督对比预训练的进一步实验表明，前者可以帮助较小的训练集，而后者由于固有的标签噪声导致性能显着下降。因此，我们得出结论，对比预训练具有很高的潜力，产品匹配的用例中，明确的监督是可用的。CCS概念• 信息系统实体解析;数据提取和集成。关键词电子商务，产品匹配，实体匹配，对比学习，转换器ACM参考格式：拉尔夫·皮特斯和克里斯蒂安·比泽2022年用于产品匹配的监督对比在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。 ACM ，美国纽约州纽约市， 4 页。https://doi.org/10.1145/3487553.3524254本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524254克里斯蒂安·比泽德国曼海姆大学数据和网络科学小组chris@informatik.uni-mannheim.de1介绍对比学习是深度学习的一种形式，其目标是分离不同的实例，同时将相似的实例分组到嵌入空间中。对比学习方法在信息检索[2]和计算机视觉[1，3]领域取得了成功，其中当前方法[3]优于仅依赖于基于交叉熵的学习的方法。在这张海报中，我们研究了电子商务中产品匹配问题该任务是实体匹配的一种特殊情况，通常被定义为二元成对分类任务，其中将来自不同来源的两个产品报价彼此进行比较，并根据它们是否涉及相同的现实世界产品来分配标签匹配或不匹配。成功地匹配来自多个来源的报价是许多电子商务应用的先决条件，包括价格比较门户和电子市场。最近的工作[4，7]表明，Transformer模型特别适合于产品匹配。我们通过调查对比学习的有用性来扩展这项工作，更具体地说，针对产品匹配任务的Transformer模型的对比预训练。我们采用了一种最近的方法，从计算机视觉中进行监督对比学习，称为SupCon [3]，用于产品匹配任务，其中训练集包含产品ID，如GTIN或MPN。我们进一步提出了一种源感知采样策略，该策略消除了源间标签噪声，并使对比预训练也能够成功应用于没有显式标识符的用例。总之，结合Transformer编码器网络和监督对比学习，我们在所有测试的基准数据集上都获得了新的最先进的结果。复制我们实验的代码可以在GitHub 2上找到。2用于产品匹配的有监督的主动学习SupCon对比损失[3]使用一个批次中的所有示例来最大化示例与该批次中所有阴性之间的距离，以及最小化示例与所有阳性之间的距离。为了实现这一点，该方法利用了关于训练示例的标签信息。同一批次中不带有相同标签的所有样本均视为阴性。用于计算机视觉的SupCon的原始实现使用一组N个随机采样的示例/标签对（例如，狗的图片和标签“狗”），其中使用来自一组增强函数的随机函数将每个示例增强两次，从而创建2N个示例的最终输入批次使用分配的标签，1https://paperswithcode.com/task/entity-resolution/2 https://github.com/wbsg-uni-mannheim/contrastive-product-matching249WWW可以计算一批的所有示例中的对比度损失，并且使用梯度下降优化来迭代地优化对比度损失。我们将对比学习应用于产品匹配的方法包括两个步骤：（i）使用SupCon损失对批量单个产品报价进行对比预训练步骤，然后是（ii）使用匹配和非匹配产品报价对的微调步骤。我们使用RoBERTa基础模型作为编码器架构，这已被证明可以在不同的产品匹配基准数据集以及不同的训练集大小上实现强大的结果[7]。2.1对比预训练对比训练的标签监督对比训练假设所有引用相同实体的示例共享相同的标签，例如。所有狗的图片都标记为“狗”。一些产品匹配任务的训练集包含产品标识符，如GTIN或MPN编号，可以直接用作对比训练的标签其他任务的训练集不提供显式的产品标识符，而是仅将来自不同来源的一定量的产品报价对标记为匹配或不匹配。对于对比预训练，我们需要在实体级别上获得显式标签，以便匹配的报价共享相同的标签。为了获得这样的标签，我们使用来自训练集的匹配对，并在所有产品报价上构建对应图，其中图的边连接匹配报价。然后，我们可以为图中的每个连接组件分配一个唯一的标签，以便匹配的报价共享相同的标签。源感知抽样策略：由于我们只知道源之间匹配的子集，因此在先前呈现的过程中，一些实际匹配的产品报价将被分配不同的标签。在对比预训练步骤期间，如果这些报价由于不同的标签而出现在同一批次中，则这将导致将它们视为不匹配的报价正如我们在3.2节中讨论的那样，这种情况严重恶化了学习表征的质量。为了缓解这个问题，我们提出了一个源感知采样策略，使我们能够消除这种源间标签噪声。我们不是生成一个包含来自每个来源的所有报价及其标签的组合数据集，而是为每个来源生成一个数据集，包含来自该来源的所有报价以及仅来自与当前来源的报价共享标签的其他来源的报价，即最初被标记为匹配的报价图1说明了涉及三个源的匹配任务的过程一旦使用此过程为每个来源构建了一个采样数据集，我们就可以将仅来自一个采样数据集的报价采样到每个批次中。对于每个批次，我们随机选择数据集进行采样。这个过程允许我们在对比训练过程中完全消除源间标签噪声，因为数据源本身不包含重复。批次构建过程：我们大致遵循原始SupCon文件中的方法来组装每个批次。首先，我们从随机抽样数据集中选择N个产品报价，并利用可用的标签信息从数据集中为每个报价随机选择匹配的报价。我们允许选择N个报价中至少有一个具有相同标签的报价包含在该批次中。然后，一批中的所有报价通过编码器网络传播以产生它们的矢量表示，这些矢量表示随后用于计算SupCon损耗并调整编码器参数，以最小化/最大化该批中所有匹配/不匹配报价之间的距离。由于批次在各个时期以不同的方式进行采样，因此在所有训练时期内执行所有产品报价的许多距离比较，从而在学习的向量空间中获得良好的表示。图1：产品标识符信息有限的数据集的采样策略。为每个源生成一个采样数据集，其中包含该源的所有产品报价以及来自其他源的所有已知（连接）匹配报价。属性值序列化：由于Transformer编码器期望输入被格式化为单个字符串，因此我们通过连接其所有属性来序列化产品报价，同时通过插入附加令牌来保持属性分离。更具体地，单个属性被序列化为“[COL] column_name [VAL] actual_value”。然后，我们将这些字符串连接为产品报价的所有属性，以构建其序列化输入表示。数据扩充：应用数据扩充（如删除产品报价中的单词）很容易扭曲报价，以至于分配的标签不再正确。例如，从字符串“Apple iPhone 4s”中删除“4s”，将无法确定地分配正确的标签。然而，在Transformer编码器固有的训练期间使用丢失噪声可以被视为嵌入空间中的软数据增强，因为相同产品的两个嵌入在训练期间可能永远看起来不完全相同。除了只使用默认的dropout噪声外，我们还在预训练阶段将显式数据增强应用于产品报价为此，我们使用nlpaug 3python包并选择6种类型的增强：（i）模拟错别字，（ii）交换单词，（iii）删除单词，（iv）删除单词的跨度，（v）用同义词替换单词和（vi）随机拆分单词。对于一批中的每一个选择的报价，我们随机选择所有的增强以及不增强报价的选项。如果一个提议被选中进行扩充，即使存在具有相同标签的其他报价最后一批然后由2N个报价组成，其中对于每个报价，3https://github.com/makcedward/nlpaug250（| − |）对产品匹配的监督对比学习WWW'22 Companion，2022年4月25日至29日该报价中的每个单词都有10%的机会使用当前选择的增强方法进行增强2.2交叉熵微调在提供对中，模型可以稍后在微调阶段使用这些，以更好地适应这种情况。表1：训练集统计对于微调步骤，我们在模型的顶部，返回一对产品报价的二进制标签，匹配或不匹配我们通过编码器传播两个报价，并将它们的均值池表示作为输入组合到最终分类层，如下所示：给定两个嵌入表示u和v，我们将它们组合为：u，v，u v，u v。该模型使用二进制交叉熵损失进行训练。编码器层的参数可以在微调步骤期间被冻结或进一步调整，而分类层的参数总是被调整。培训集尺寸#Pos阴性对数量#提供预培训#产品3实验表2：测试集统计w/ pos（总体）多源匹配任务。WDC LSPC培训和验证为所有产品设置了产品标识符。我们使用huggingface Transformers库4实现我们的模型。对于对比预训练，批量大小设置为1024。我们将温度保持在默认值0.07，并使用Adam优化器训练200个epoch，线性衰减学习率为5e-05，预热率为0.05。对于微调步骤，批量大小设置为64，如果验证损失在连续10个epoch中没有改善，我们将使用提前停止来训练多达50个epoch。每个模型训练三次，我们报告平均结果。3.1数据集Abt-Buy/Amazon-Google ：对于两个源数据集 Abt-Buy 和Amazon-Google，我们使用来自deepmatcher论文5[6]的训练，验证和测试分割以及所有可用属性，这使我们能够直接将我们的方法的性能与使用相同分割的最新匹配系统进行表1和表2显示了两个数据集的统计数据Abt-Buy和Amazon-Google不包含单个产品报价的产品ID，除了标记的报价对。为了获得这样的标识符，我们应用第2.1节中描述的方法，然后应用我们的源感知采样策略。用于构建对应图的对的选择仅在成对数据集的训练和验证分割上完成为了引入正则化效应，我们进一步只使用来自训练和验证分割的80%的匹配对来执行此计算。由于在双源匹配情况下每个产品的训练报价量通常较低，该模型更容易在少数已知匹配报价上过拟合，从而降低了在对比预训练期间没有看到匹配报价的产品的性能。通过隐瞒20%4https://github.com/huggingface/transformers5https://github.com/anhaidgroup/deepmatcher/blob/master/Datasets.mdWDCLSCP：我们使用来自WDCLSPC计算机域的训练、验证和测试集[ 8 ]。训练集有四种不同的大小，从3K到70K产品对。除了配对标签之外，产品报价还用产品ID进行注释，产品ID标识来自不同来源的相同产品的报价。我们不需要应用源感知采样策略，直接使用这些产品id作为对比预训练的标签和微调步骤的成对标签。我们使用作为训练和验证集的一部分的所有产品报价进行对比预训练。WDC LSPC数据集主要包含文本属性-我们使用标题，描述，品牌和specTableContent属性。表1和表2显示了WDC LSPC数据集的统计数据。3.2结果和讨论我们将我们的结果与最近的神经实体匹配系统进行了比较：Ditto[4]，JointBERT [7]，Deepmatcher [6]和RoBERTa [5]。由于所有这些系统都是使用相同的训练、验证和测试分割进行评估的，因此我们直接报告了相应论文中的结果我们评估了两个版本的对比预训练的RoBERTa模型：（i）使用监督SupCon损失的R-SupCon（ii）仅使用自我监督的R-Simplified，对应于Simplifiedloss [1]。对于R-Simplified，每个产品报价都被分配了一个唯一的id，每个报价的匹配仅通过通过隐式丢弃噪声或显式数据增强来增强相同的报价来采样。表3显示了与四个基线系统相比应用对比预训练的结果对于两个源数据集Abt-Buy和Amazon-Google，与各自最强的基线模型相比，应用对比预训练结果的F1提高了3.2-3.7%。如第3.1节所述，我们报告了两种用于对比学习的采样策略的结果，一种包含来自采样集中所有来源的所有报价，从而产生清晰的标签噪声，另一种使用我们的源感知采样策略和分离的采样数据集Abt-购买默认值8226,8372,1121,084亚马逊-谷歌默认9338,2343,4452,279超大9，69058,7714,307745WDC大型计算机27,2134,238745介质一千七百六十二6,3323,846745小7222,1122,790745我们在产品匹配领域的三个基准数据集类别#产品阳性数量对阴性数量对组合对数量WDC LSPC计算机。Abt-Buy和亚马逊-谷歌代表Abt-Buy 205（921）2061,7101,916匹配来自两个已消除重复数据的02 The Dog ofthe Dog（1962）2342,0592,293源两个数据集中的报价均不包含产品标识-WDC计算机150（745）3008001,100提菲。另一方面，WDC LSPC数据集代表了251WWW表3：每个数据集和训练大小的测试集的F1得分结果。(F)和（UF）表示在微调期间冻结和解冻的编码器参数。对于Abt-Buy和Amazon-Google，括号中的结果表示未通过从两个数据源中单独采样来降低标签噪声带 * 的结果取自[4]亚马逊-谷歌WDC电脑#培训3K8K23K68K以消除这种噪音。实验结果表明，在这种情况下，减少标签噪声对于监督对比学习是非常重要的：在没有源感知采样策略的情况下，Abt-Buy和Amazon-Google的性能分别下降了55%和37%F1。对于WDC数据集，所有经过对比预训练的RoBERTa模型的性能都优于基线0.8- 8.8%F1。增加对比预训练可使小训练和中等训练规模的最佳基线结果分别提高8.8%和6.6%F1。large和xlarge的改进是可见的，但在0.8%到1.8%F1的范围一般来说，在对比预训练步骤之后冻结编码器参数与在微调步骤期间进一步更新它们相比会导致所有数据集上的更高性能。在对比预训练阶段应用增强会在数据集上产生混合结果。对于较小的WDC训练集，我们看到了1-2%的F1改进，但在较大的训练集和Abt-Buy上只有很小的改进，而Amazon-Google在应用增强时看到了4%的性能下降。在对比预训练期间只使用自我监督会导致比完全不进行预训练更差的结果由于仅将相同报价的增强版本视为匹配而将所有其他报价视为不匹配（即使它们实际上匹配），因此自监督模拟器固有的标签噪声可能是性能大幅下降的原因4结论我们已经证明，与仅对多源和双源执行交叉熵微调相比，监督对比预训练之后的交叉熵微调通常可以提高产品匹配器的性能基准任务的F1分数提高0.8-8.8%，从而为每个任务设定新的最新技术水平。我们进一步提出了一种源感知采样策略，旨在减少对比预训练过程中的源间标签噪声。我们表明，这种抽样过程是至关重要的，以实现良好的性能匹配任务没有明确的产品标识符。以纯粹的自我监督方式执行对比预训练步骤会降低微调匹配器的性能，这可能是由于相同的效果。总之，我们表明，监督对比预训练是一种很有前途的产品匹配技术。致谢作者感谢巴登-符腾堡州通过bwHPC提供的支持。引用[1] Ting Chen ， Simon Kornblith ， Mohammad Norouzi ， and GeoffreyHinton.2020年。视觉表征对比学习的简单框架。第37届机器学习国际会议论文集1597-1607年。[2] 高天宇，姚兴城，陈丹琪2021年SimCSE：简单的句子嵌入对比学习2021年自然语言处理经验方法会议论文集。6894-6910。[3] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， Aaron Sarna ， YonglongTian，et al. 2020.监督对比学习。神经信息处理系统进展，第33卷。18661-18673。[4] Yuliang Li ， Jinfeng Li ， Yoshihiko Suhara ， AnHai Doan ， and Wang-ChiewTan.2020年。使用预先训练的语言模型进行深度实体匹配VLDB捐赠的诉讼14，1（2020），50[5] Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Mandar Joshi，et al.2019年。 RoBERTa：一种鲁棒优化的BERT 预训练方法。 arXiv ： 1907.11692 [cs]（2019）。[6] Sidharth Mudgal，Han Li，Theodoros Rekatsinas，AnHai Doan，YoungchoonPark，et al. 2018年实体匹配的深度学习：设计空间探索2018年国际数据管理会议论文集。十九比三十四[7] 拉尔夫·皮特斯和克里斯蒂安·比泽2021年BERT实体匹配的双目标微调。VLDB捐赠的诉讼14，10（2021），1913[8] 安娜·普林佩利，拉尔夫·彼得斯，克里斯蒂安·比泽。2019年。WDC训练数据集和大规模产品匹配的黄金标准在2019年万维网会议的配套程序中。381-386.对7.5K9K（小）（中等）（大）（xlarge）Deepmatcher62.80美元 *70.70美元 *61.2269.8584.3288.95罗伯塔91.0574.10美元 *86.3791.9094.6894.73Ditto89.33美元 *75.58美元 *80.76美元 *88.62美元*91.70美元 *95.45*JointBERT--77.5588.8296.9097.49R-SupCon（F）93.70（38.24）79.28（42.44）93.1897.6698.1698.33R-SupCon（F）+aug94.2976.1495.2198.5098.5098.33R-SupCon（UF）79.99（71.47）71.81（61.06）79.5287.3294.5996.16R-SupCon（UF）+aug77.8468.3780.6989.1294.5696.13R-Simplified（女）56.6356.1653.9855.2558.9760.66

下载后可阅读完整内容，剩余1页未读，立即下载