基于Transformer的跨语言产品匹配方法研究

9 浏览量更新于2023-11-29 收藏 435KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

236→产品匹配的跨语言学习拉尔夫·彼得斯德国曼海姆大学数据和网络科学小组ralph@informatik.uni-mannheim.de摘要基于转换器的实体匹配方法已经显著地改变了用于较少结构化的匹配任务（诸如匹配电子商务中的产品报价）的为了在这些任务中表现出色，基于transformer的匹配方法需要大量的训练对。提供足够的训练数据可能具有挑战性，特别是如果应该学习非英语产品描述的匹配器。这张海报探讨了匹配来自不同电子商店的产品报价的用例，在何种程度上可以通过补充目标语言（在我们的情况下是德语）的一小部分训练对来提高基于Transformer的匹配器的性能，并使用更大的英语训练对。我们使用不同的变压器的实验表明，扩展德语与英语对提高匹配性能在所有情况下。在只有相当少量的非英语对可用的低资源环境中，添加英语对的影响尤其大。由于通常可以通过利用schema.org注释从Web自动收集英语训练对，因此我们的结果与许多针对低资源语言的产品匹配场景有关。CCS概念• 信息系统实体解析;数据提取和集成。关键词实体匹配，跨语言学习，电子商务，transform-ers，schema.orgACM参考格式：拉尔夫·皮特斯和克里斯蒂安·比泽2022.产品匹配的跨语言学习。在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。 ACM ， New York ， NY ， USA ， 3 页。https://doi.org/10.1145/3487553.35242341介绍识别相同产品的报价是诸如价格比较门户和电子市场等电子商务应用中的核心挑战之一。训练基于transformer的匹配器克里斯蒂安·比泽德国曼海姆大学数据和网络科学小组chris@informatik.uni-mannheim.de使用来自共享相同产品标识符的不同电子商店的报价已被证明是用于在许多情况下达到0.9以上的F1分数的产品匹配的成功解决方案[4，5，7]。这种方法的瓶颈在于，它需要大量的产品报价对作为训练数据进行匹配。近年来，大量的网站已经开始使用schema.org词汇表1在其页面内标记结构化数据。最广泛注释的实体类型之一是产品报价：例如，WebDataCommons项目分析了2021年10月的CommonCrawl网络语料库，发现有150万个网站在其页面中注释了产品报价。这意味着对于广泛使用的语言（如英语），可以通过依赖于schema.org注释从Web抓取中提取所需的训练数据，这些注释识别产品标题，产品描述和产品标识符，如网页中的GTIN或MPN编号3 [7]。对于不太广泛使用的语言和不太常用的产品，很难在网上找到足够的相应目标语言的报价。为了解决这个问题，这张海报探讨了英语语言的实用性，以培训产品匹配器，用于不太广泛使用的目标语言，如德语。为此，我们对训练集进行了实验，将大量的英语语言报价对与目标语言的少量训练对相结合。我们对内部依赖于不同预训练Transformer 模型的匹配器进行了实验，这些模型包括BERT[3]，BERT 4的德语版本，多语言BERT 5，XLM-R [2]以及SVM分类器。多语言转换器最初是在多语言文本上进行预训练的，并且在不使用多语言词典中的显式跨语言对齐的情况下进行微调[8，9]。最近关于实体链接的跨语言嵌入对齐的工作可以在知识图嵌入领域找到[1，6，9]。我们的实验表明，用英语对扩展德语训练集总是有益的。在只有一小部分德语对可用的低资源环境中，添加英语对的影响尤其大海报的贡献是双重的：1。据我们所知，我们是第一个尝试使用Transformers进行跨语言学习以匹配文本实体描述的人。2.我们证明，通过结合英语语言训练对和目标语言中相当少量的训练对，本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.35242341https://schema.org/2http://webdatacommons.org/structureddata/#toc33http://webdatacommons.org/largescaleproductcorpus/v2/4https://github.com/dbmdz/berts5https://github.com/google-research/bert/blob/master/multilingual.md237WWW学习产品匹配器达到F1分数90%以上，明显优于仅使用目标语言的产品提供进行训练的匹配器。2数据集我们尝试了英语和德语的手机报价，这些手机已经从66个不同的电子商店、拍卖平台和电子市场中抓取。每个报价都包含一个标题、一个描述和一些产品标识符，如GTIN或MPN编号。这些数据是使用150部手机作为爬行过程的种子收集的这些种子包含广泛销售的头部产品，但也有销售较少的长尾手机。除了种子电话的报价之外，数据集还包含在抓取过程中发现的其他电话的报价。我们通过使用共享的GTIN，EAN和MPN号码作为远程监督将报价分组成对[7]。之后，我们从报价中删除标识符，以防止匹配变得微不足道。通过将种子产品的报价与类似种子产品的报价或来自在爬行期间发现的电话的类似报价相结合来创建非匹配对我们将这些配对排列成不同大小的语言特定训练集训练集的范围从450到7200对，包含50%的匹配和50%的非匹配。图1显示了一对英语产品报价和一对德语产品报价的示例我们使用包含1200对（25%匹配，75%不匹配）的德语测试集。测试集中没有一对也包含在训练集中。所有集合中的一半对是随机选择的，而另一半包含角情况对（通过余弦相似性测量）。图2显示了150部种子手机在德国测试集中的阳性和阴性配对分布。该网页6提供关于数据集创建过程的附加信息，以附加语言（西班牙语和法语）提供相同产品，以及用于复制实验的代码。3模型和基线我们使用 HuggingFace7 库中三种不同的预训练的基于Transformer的作为单语英语选项，我们使用BERT基础模型该模型在英文维基百科和BookCorpus上进行了预训练我们进一步使用德语BERT模型（“bert-base-german-dbmdz-uncased”），该模型在包括德语维基百科、Common Crawl的部分内容和EU Bookshop corpus在内的各种德语文本集上进行了预训练，其大致总结了与英语BERT基础模型相同的预训练数据量。作为多语言模型，我们使用多语言BERT（'bert-base-multilingual-uncased'），它是在前100个最大的维基百科上训练的，以及XLM-RoberTa（'xlm-roberta-base'），它是在由100种不同语言组成的CommonCrawl语料库上训练的。这种模型的选择使我们能够检查使用多语言文本进行预训练所带来的性能增益。此外，我们使用SVM分类器计算一个简单的词共现基线进行预测。6 http://data.dws.informatik.uni-mannheim.de/Web-based-Systems-Group/StudentProjects/2020/Cross-lingual-Product-Matching-using-Transformers/7https://huggingface.co/transformers/我们通过将产品报价的标题和描述属性连接到一个字符串中，并将相应的标记器应用于成对的两个产品报价，以在序列分类的标准输入表示中表示它们，从而为基于转换器的模型创建输入序列，即“[CLS]产品1 [SEP]产品2 [SEP]”用于基于BERT的模型。作为SVM基线的输入，我们生成一个词袋词向量表示，指示产品对中的同现词，作为分类器的输入对于每次实验运行，使用验证集和早期停止在5e-6和1 e-4之间的范围内优化学习率。如果给定的模型在超参数调整期间连续三个时期没有改善，则运行停止。在训练过程中，我们对模型进行了25次微调我们使用固定批量16和重量衰减0.01。所有其他hyperparmeters设置为默认值。报告的分数是使用相同超参数设置单独训练的三次运行的平均值。表1：德语测试集的结果w/和w/o额外的英语训练数据。培训尺寸：EN-7200，DE-1800。SVM伯特gBERTmBERTXLM-RF1无EN71.0065.2773.4387.6973.40F1与EN71.0574.2989.8391.4486.98差异0.059.0216.403.7513.584结果和讨论在第一组实验中，我们比较了不同的单语言和多语言模型在德语测试集上的性能，同时一方面只使用1800个德语训练对进行训练，另一方面使用相同的1800个德语对和额外的7200个英语对进行训练。表1显示了该实验的结果。当仅使用1800个德语对进行微调时，英语BERT模型的整体得分最低，落后SVM基线65%F1的6%F1，这意味着英语预训练和德语微调之间的语言失配具有严重的负面影响。德语版本的BERT可以在SVM上提高2.5%F1，这表明与英语BERT相比，德语预训练的重要性。多语言XLM-R实现了与德语BERT相当的结果。多语言BERT取得了最好的结果，达到87%的F1，超过德语BERT 14%的F1。在这种情况下，多语言BERT的非常强大的性能可能源于与大多数其他模型相比，模型训练的预训练数据量更大（维基百科以100种语言转储）。尽管只有一部分训练数据是德语的，但不同语言的大量不同的预训练数据导致模型在德语中进行微调时具有高度的训练数据效率。在用额外的7200个英语训练对扩展德语训练集之后（表1中具有EN的行F1），除了SVM之外的所有模型都得到了显著改善。德国BERT的进步最大，获得了16%的F1，落后于多语言BERT 1.5%，后者获得了91.4%的F1的整体最高分数。这些结果清楚地表明，在高资源环境中添加训练数据238跨语言学习产品匹配WWW图1：英语中的匹配产品报价对（上）和德语中的相同产品报价对（下）的示例图2：150部种子移动电话中每一部在德国测试集中的阳性（左）和阴性（右）配对分布。将英语等语言转换为目标语言中的少量训练数据导致所有Transformer模型的改进，因此对于从业者来说是有希望的行动过程表2：当改变两种语言的训练数据量时，德语测试集的结果。ENDE0450900180036007200粤ICP备17007770号-145067.1172.7975.4480.8386.8287.9720.8690075.7675.1074.0087.6788.9288.1912.43180087.6988.4388.3890.1790.7291.443.75360093.6392.9892.4693.9793.2594.460.83在第二组实验中，我们使用两种语言的训练数据大小的不同组合来训练mBERT，以了解需要多少目标语言的训练数据以及需要添加多少英语训练数据才能达到高性能水平。表2显示了实验结果。对于大小为900或更小的德语训练集，无论语言之间的组成如何，导致总数小于2000对的训练数据集的任何组合都会导致F1约为75% F1或如果训练集由超过2000对组成，则在所有场景中都可以实现超过80%的F1如果目标语言的训练数据很少（450对），则添加英语训练对具有显著效果，导致每一步都有很大的改进，直到增加3600个英语对（86.82%F1）。在这一点之后，将英语训练数据量加倍只会产生1%F1的改进额外的英语训练数据的有益效果在所有设置中都是可见的，尽管它会随着德语训练集大小的增加而减少。一旦德国训练集达到1800对的大小添加英语训练数据的能力不再像以前那样强，但仍然导致整体改进的模型，当使用3600个德语和7200个英语对训练时，达到最大94.5%的F15结论我们已经证明，通过将英语报价对添加到训练集中，可以显着提高低资源语言的基于transformer的产品匹配器的性能。添加英语对的影响对于只有相当少量的非英语对可用的低资源设置尤其高。事实进一步证明，为了在微调期间成功地进行跨语言学习，应该选择一个Transformer模型作为起点，该模型也已经在不同语言的大量文本上进行了预训练。鉴于可以通过利用schema.org注释[7]从Web中自动提取英语等中心语言的训练对，我们相信跨语言学习可以有助于降低许多低资源语言匹配场景中的标签成本致谢这张海报中使用的数据集是由 Andreas Küpfer ， BenediktEbing，Daniel Schweimer，Fritz Niglion和Jakob Gutmann组成的学生团队组装的。引用[1] Muhao Chen， Yingtao Tian ， Kai-Wei Chang ， Steven Skiena ， and CarloZaniolo.2018.跨语言实体对齐的知识图和实体描述的协同训练嵌入。第27届国际人工智能联合会议论文集。斯德哥尔摩，瑞典，3998[2] AlexisConneau ， KartikayKhandelwal ， NamanGoyal ， VishravChaudhary，Guil-laume Wenzek，et al.2019年。大规模无监督跨语言表征学习。arXiv预印本arXiv：1911.02116（2019）。[3] Jacob Devlin，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova. 2019.BERT：用于语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷。4171-4186[4] 李玉良，李金凤，Yoshihiko Suhara，AnHai Doan，等。2020年。使用预先训练的语言模型进行深度实体匹配。VLDB捐赠的诉讼14，1（2020），50-60。[5] 拉尔夫·皮特斯和克里斯蒂安·比泽2021年BERT实体匹配的双目标微调。VLDB捐赠的诉讼14，10（2021），1913[6] Shichao Pei，Lu Yu，Guoxian Yu，and Xiangliang Zhang.2020年。REA：知识图之间的鲁棒跨语言实体对齐第26届ACM SIGKDD知识发现&数据挖掘国际会议论文集。美国纽约州纽约市，2175[7] 安娜·普林佩利，拉尔夫·彼得斯，克里斯蒂安·比泽。2019年。 WDC训练数据集和大规模产品匹配的黄金标准。在Companion Proc. 2019年万维网大会381-386.[8] Sebastian Ruder，Ivan Vulić，and Anders Søgaard.2019年。跨语言词嵌入模型综述。人工智能研究杂志65（8月）2019），569-631.[9] 王志春，吕青松，蓝晓涵，张宇。2018年通过图卷积网络的跨语言知识图对齐。2018年自然语言处理经验方法会议论文集。布鲁塞尔，比利时，349-357。

下载后可阅读完整内容，剩余1页未读，立即下载