商业推荐系统的相似性函数优化及用户反馈方法

132 浏览量更新于2023-12-04 收藏 579KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

商业推荐系统的学习和工程相似性函数Hans Friedrich Witschel和Andreas MartinFHNW应用科学与艺术大学西北瑞士商学院，Riggenbachstrasse 16，CH-4600 Olten，瑞士{hansfriedrich. fhnw.ch，martin@www.example.comfhnw.ch}摘要我们研究的相似性度量的优化任务中的相似性计算是不直接可见的最终用户，即聚类和基于案例的分析。在这两种情况下，相似性都起着至关重要的作用，但也有其他算法组件有助于最终结果。我们建议的方法将一种新的交互形式引入到这些场景中，这些场景使用跨最终用户的相似性，从而允许从他们那里收集关于相似性的直接反馈。这样做不会分散他们对目标的注意力然后，我们建议使用的反馈的方式，incorpo-rates机器学习更新权重和知识工程师的决定可能的额外功能，基于来自用户反馈的摘要的见解。回顾的文献和我们自己以前的经验调查表明，这是最可行的方式-在- volving机器和人类，每一个在一个任务，他们特别擅长。介绍在人工智能的许多子学科中，相似性的概念起着重要的作用。例如，在聚类（Strehl，Ghosh和Mooney，2000年）中，项目按相似性分组，在基于案例的推理（CBR）中，通过从类似的先前案例中转移见解来重用知识（Cunningham，2009年）。更确切地说，CBR通常将案例结构化为问题和解决方案部分，并且给定当前问题，检索具有类似问题描述的过去案例，以便将其先前解决方案（的部分）应用于当前问题。在本文中，我们研究了改进类似的可能性聚类和基于案例的推理的度量关于CBR，我们将更具体地关注一个重要的应用领域，即业务流程。这些系统可以通过分析版权归作者所有以 . 马丁， K.Hinkelmann ， A.Gerber ，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。情况和支持业务决策，提供适当的建议。业务推荐者在某些方面与其他推荐者不同（见Witschel和Martin，2018; Felfernig和Burke，2008）显然，在业务场景中，推荐的效用是由业务需求定义的，而不是由一个人的偏好或品味定义的。此外，业务查询器通常比消费者用来查找产品（书籍、音乐、电影等）的查询器调用得更少他们的品味。这意味着业务推荐器不能收集关于用户的大量信息（配置文件）-相反，用户需要在访问推荐器时以查询的形式描述他们的上下文和需求。最后，需求或上下文变量的集合可能相当复杂，超出了简单的键-值对。总而言之，这些差异排除了构建推荐系统的最流行的方法，即协作过滤-它依赖于大量的用户评分，并假设项目没有内部结构-和基于内容的过滤，它从用户和系统之间的重复交互中构建用户配置文件。相反，已经提出了基于病例的诊断器（Bridge等人，2005），其通过构建手头的业务问题的描述来进行，检索具有类似问题描述的案例并组合它们的解决方案的元素。虽然这种方法的检索部分不仅适用于业务场景，而且也适用于电子商务中的消费者--总之，基于案例的推荐是一个特殊的情况下，一个经典的CBR系统，从检索的情况下，解决方案元素的组合是自动执行-而不是许多CBR应用程序的情况下，组合和适应是手动完成。因此，聚类和基于案例的（业务）分类器有一个共同点：尽管相似性对它们两者都是非常重要的成分，但相似性计算的结果对用户并不直接可见。在聚类中，用户看到的是一组相似的元素;在基于案例的推荐中，用户看到的是推荐的结果。从类似问题的案例中提取的解决方案元素在这两种方法中，在相似性计算和用户看到的内容之间存在某种东西-在聚类中为什么会有问题呢？在许多使用函数来对项目进行评分或排名的领域中，例如信息检索，用户可以直接看到应用函数的输出并对其进行评级。这允许通过使用用户的（隐式）反馈来训练学习算法来学习好的函数（ Li ， 2011 ）。这也被研究了经典的 CBR 场景（Stahl，2001; Lamontagne和Guyard，2014）。然而，如上所述，当在聚类或基于案例的（业务）聚类器中应用相似性函数时，这是不可能的，因为相似性计算（部分或完全）对用户隐藏。在这份立场文件中，我们主张用户与聚类算法和基于案例的（业务）决策者之间的新的交互方式，这些方法允许直接从用户那里收集与因此，我们将能够以两种方式利用人类关于相似性的知识其次，我们建议利用反馈也支持知识工程师在扩展的相似性函数，例如，包括更多的属性。相关工作聚类和CBR具有完全不同类型的相似性度量。在聚类中，要聚类的数据对象通常由向量描述，这些向量通常包括针对二进制（Choi，Cha和Tappert，2010; Lesot ， Rifqi 和 Benhadda ， 2009 ）、分类（ Boriah ， Rifola 和 Kumar ， 2008 ）或数值变量（Lesot，Rifqi和Benhadda，2009）的向量的某种类型的要求变量的当对象被描述为可变类型的混合时，挑战开始出现（Cheung和Jia，2013）。特别是对于分类属性，由于对象的总体相似性是基于局部的、每个属性的相似性的组合，因此出现了每个局部相似性应该对全局相似性贡献多少的问题同样，当分类变量和数值变量都存在时，必须决定如何将两者的贡献合并和加权（Cheung和Jia，2013）。在CBR中，情况通常是不同的，因为案例可能具有复杂的结构-这些关系可以是n：m，即一个案件可能与若干特定种类的对象有关，其数量可能因案件而异例如，人们可能希望通过公司运行的IT系统来描述公司的情况和IT系统。表示这种案例结构的常见方法2017; Martinand Hinkelmann，2018）。已经开发了相应的相似性度量（Witschel等人，2015年;Onta nBago'n和Plaza，2012年;Hef k e等人，2006年）。就像在聚类中使用的相似性度量一样，简单的基于属性的和关系的案例表示都导致在将局部属性级或关系级相似性组合成全局相似性时的适当权重识别应包含数据对象或病例内容的属性、相似性函数的选择以及通过权重表示的表征项的视点特定重要性的定义是一项需要人类知识和经验的任务（Stahl，2002; Martin，2016; Martin和Hinkelmann，2018）。大多数自动学习CBR中相似性方面的方法都集中在学习用于将局部相似性组合成全局相似性的权重为了做到这一点，收集了关于检索或排名项目的效用的用户反馈，然后使用梯度下降（Lamontagne和Guyard，2014; Stahl ， 2001 ），贝叶斯推理（ Abdel-Aziz ，Strickert 和 Hüllermeier ， 2014 ）或遗传算法（Jarmulak，Craw和Rowe，2000）来更新权重。在（Lamontagne和Guyard，2014）中，反馈被区分为相关性反馈- 即，用户对期望排名的说明。Stahl（2001）则认为，用户将无法指定绝对效用或完整排名，而只能这种在聚类中，直接从标记为相似或不相似的对象对（Ying和Li，2012）或从相对比较（以“A比C更接近B”的形式）（Schultz和Joachims，2004）学习相似性然而，这些研究都集中在纯粹的数字属性表示的对象。尽管所有这些努力，据我们所知，没有合适的方法来学习聚类或CBR的相似性度量，其a）在使用相似性但对用户不可直接可见的任务中起作用，b）适用于关系和/或使用混合属性类型的对象表示，以及c）以利用机器学习的优势（例如基于反馈调整权重）和人类的优势（例如基于反馈调整权重）的方式工作。识别正确的属性来描述和比较数据对象或案例。一种新的相似工程过程本节基于实践和相关工作的早期发现，提出了一种开发包括权重在内的相似函数的新方法。∈核心见解和假设考虑到基于案例的（商业）推荐器和聚类算法的特性，如在引言和来自前一部分的相关工作中所描述的，用于学习相似性度量的合适解决方案将基于以下见解：见解1：在基于病例的建议中建立初始病例表征是人类的认知密集型任务，因为首先，病例可能具有复杂的结构，其次，表征需要通用化（ Martin ，2016）。洞察2：人类不擅长估计体重，例如用于加权和全局相似性函数。让他们这样做会迫使他们做出主观的决定，而这些决定很难被任何具体的经验或明确的知识所证明（Stahl，2002）。见解三：从个体的心理相似性模型中推导出一个统一的相似性模型，并将其用于案例推荐系统的配置，这对人类来说是一项具有挑战性的任务。通过确定全局和局部相似性函数并分配权重来配置统一的心理相似性模型，这需要深厚的专业知识（Martin，2016）。洞察4：基于案例的聚类器和聚类算法都代表了相似度计算的结果对人类不可见的情况用户确实看到的结果的效用（聚类和聚类）也取决于其他算法组件。这使得它不可能使用人类的反馈，这些结果的效用直接调整的相似性度量（见引言中的论证洞察5：然而，人类被认为能够提供关于相对比较的反馈Stahl（2002）; Schultz和Joachims（2004）或洞察6：学习相似性度量的算法通常专注于权重自适应。很难设计它们来识别和建议缺失的属性，即应该另外并入相似性度量的属性。这通常仍然是一项人工任务。总之，这些见解表明，手动制作的相似性函数可能主要存在两个缺陷：首先，由于难以从整体上对相似性进行建模（参见见解1和见解3），相似性函数可能不包括准确定义两个对象相似所需的一些属性（导致见解6）。其次，由于人类不擅长指定权重（见洞察2），相似性函数可能具有次优权重。我们的工程相似函数的新方法试图消除这两个缺陷。相似工程新工艺下面，我们将描述一种工程相似性功能人类这种方法的灵感来自于我们以前的一部作品中描述的交互机制（ von Rohr ， Witschel 和 Martin ，2018）。在这项工作中，目标是根据以前的经验估计新项目的工作量。如图1所示，我们构建了一个系统，执行CBR的检索步骤，然后从n个最相似的案例中学习回归模型，以预测新项目的工作量。在这里，检索步骤中相似性计算的结果（否则通常是不可见的）对用户是可见的，允许他们丢弃被认为与新项目不相似的项目。这反过来又导致了一个不同的建议。基于这一想法，我们提出了以下过程，用于在基于案例的推荐器中学习相似性函数;图2中给出了概述。1. 用户参与：假设基于案例的推荐器，给定用户查询q，检索与q最相似的n个案例的集合C。进一步假设推荐器将C中的情况的解决方案组合成新的解决方案。我们的建议是向用户显示cC的情况，并允许他/她删除那些不被认为与q相似的情况，见图1。这将导致不同的推荐结果正如我们的实验（von Rohr，Witschel和Martin，2018）所示，这是用户感到自信的事情，甚至增加了他们对最终建议的信任。如图所示，用户还可以通过链接访问案例的完整描述（在本例中是项目），然后再决定是否将其排除在外。我们建议始终纳入这种可能性，即通过链接向用户提供完整的案例信息。2. 假设第一步中使用的相似度函数最初是由人类设计的，并使用一些人类估计的权重进行初始化，以组合属性级的局部相似度，我们现在可以使用第一步中的用户反馈来调整这些权重（请记住，我们假设人类不擅长估计权重）。例如，正如（von Rohr，Witschel和Martin，2018）中所建议的那样，适应可能基于进化算法，使用案例排名的平均精度作为适应度函数。这意味着算法以这样的方式学习权重，使得人类选择/接受的案例的最终得分将高于拒绝案例的得分。如果这是一贯的情况下，那么平均精度将是最佳的。更多细节可以在（von Rohr，Witschel和Martin，2018）中找到。3. 在最后一步中，在一定数量的用户以步骤1中描述的方式使用推荐器之后，我们建议收集数据并将其显示给知识工程师。更确切地说，系统应该显示用户排除案例的交互摘要。其中，最应该注意的是那些被排除的病例与同一等级中其他未被排除的病例几乎相同的相互作用。这样的情况将帮助知识工程师进一步识别可能与描述案例相关的属性到······图1：具有显式相似度反馈的基于案例的推荐器的屏幕截图（von Rohr，Witschel和Martin，2018）理解这背后的原理，让我们假设，例如，项目由三个属性来描述，即目的（A1，自由文本）、客户名称（A2）和所请求特征的数量（A3）。让我们进一步假设，推荐器在检索步骤中检索3个案例A、B和C，将它们按该顺序排列，并且它们都具有相同的值2和3以及几乎相同的值1。最后，让显然，这个决定只能用项目之间的差异来解释，而项目之间的差异不是由属性a1、a2、a3中的任何一个来传达的。通过研究这样的示例，人类知识工程师可以受到启发，将附加属性包括到相似度的计算中，这将允许通过建立A、B和C之间的差异来正确地对它们进行排名，该差异导致用户排除B，而不是A和C。图2：相似度量工程我们需要展示我们的方法如何适应集群。为此，我们只需要调整步骤1：而不是建议及其“解释”，聚类算法的用户将看到元素组。我们建议，在推荐方案中，用户应该能够访问每个俱乐部成员的详细描述。此外，系统应该显示所有集群成员之间的成对链接，并允许用户重新移动它们，如图3所示。再次，当用户已经完成对聚类的分析时，这样的反馈将导致重新聚类和更新的结果。作为一个例子，并激励这一点，考虑一个非常流行的应用领域的集群业务，即客户细分。通过聚类算法识别的细分将用于以不同的方式处理细分，例如在营销活动中。研究图3中的结果的用户（例如能够表达这种关注将导致重新聚类（并且因此有希望实现更好的分割），并且增加用户对重新聚类结果的信任步骤2和3将类似地工作-显然，这种方法不适合非常大的对于这些，可以选择并显示一些讨论和结论我们认为这种方法是合适的，因为它将任务分配给机器和人类，每个人都擅长：机器使用反馈来学习权重，人类设计额外的功能，基于以下示例：图三：聚类中相似性反馈的交互概念-显示一个具有三个成员的聚类和一个用户声明对象1和2不相似的交互分化失败我们还声称，使用推荐器的人愿意在第1步中提供这样的反馈，特别是因为它允许他们改进最终的推荐，获得更多的控制权和对结果的更多信任-我们已经在经验上证明了这一点（von Rohr，Witschel和Martin，2018）。因此，我们已经找到了一种方法来获得关于相似性的明确反馈，而不会分散人们对接收有用建议的目标的注意力。引用Abdel-Aziz，A.; Stric k ert，M.; 和H üllermeier，E.2014年。基于偏好的案例推理中解决方案相似性的学习。在基于案例推理的国际会议上，1731. 斯普林格。Boriah，S.; Quinola，V.; Kumar，V. 2008.分类数据的相似性度量：比较评估。2008年SIAM国际数据挖掘会议论文集，243-254。暹罗。Bridge ， D.; Goék e r， M. H. 的 ; McGint y， L.;和Smyth ， B. 2005 年基于案例的推荐系统 TheKnowledge Engi- neering Review20（3）：315-320.Cheung，Y.- M.，和Jia，H. 2013.基于统一相似度量的类数属性数据聚类 Pattern Recognition46 （ 8 ）：2228-2238.崔S.的;查，S.- H.的;和Tappert，C. C. 2010.二进制相似性和距离度量的综述。 Journal of Systemics ，Cybernetics and Informatics8（1）：43-48.Cunningham，P. 2009年。基于案例推理的相似机制分类法。 IEEE Transactions on Knowledge and DataEngineering21（11）：1532-1543.Felfernig，A.，和Burke，R. 2008.基于约束的推荐系统：技术和研究问题。第十届国际电子商务会议论文集，3。ACM。Hefke ， M.;Zacharias ， V.;Abecker ， A.; 王，Q.;Biesalski，E.; 和Breiter，M.2006年。一个可扩展的Java框架在Ontologies中的实例相似性。在ICEIS 2006年的会议记录中，263Jarmulak，J.; Craw，S.;和Rowe，R. 2000.优化cbr检索的遗传算法在基于案例推理的进展欧洲研讨会上，136斯普林格。拉蒙塔涅湖和Guyard，A. B. 2014.从相关性和排名反馈中学习案例特征权重。在FLAIRS会议上。Lesot，M. J.道：Rifqi，M.;和Benhadda，H. 2009.二进制和数值数据的相似性度量：综述。InternationalJournal of Knowledge Engineering and Soft DataParadigms1（1）：63.Li，H. 2011.学习为信息检索和自然语言处理排序。汉语语言技术综合讲座4（1）：1-113.Martin，A.，和Hinkelmann，K. 2018. 基于案例的过程经验。陈：施普林格国际出版社.47比63Martin，A.; Emmenegger，S.; Hinkelmann，K.;和Thonsen，B.2017年。一种基于虚拟现实的案例推理方法，利用企业架构本体进行体验管理。企业信息系统11（4）：551-575。Martin，A. 2016. 一种面向知识密集型工作的基于案例推理与过程执行相结合的方法。博士论文，南非大学。Onta nBago'n，S.，和Plaza，E. 2012年。精化图上的相似度量机器学习87（1）：57-92。Schultz，M.，Joachims，T. 2004.从相对比较中学习距离度量。在神经信息处理系统的进展，41史密斯湾2007.基于案例的建议。在适应性网络中。斯普林格。342-376Stahl，A. 2001. 从案例反馈中学习特征权重。基于案例推理的国际会议，502-516。斯普林格。Stahl，A. 2002.定义相似性度量：自上而下与自下而上。在基于案例推理的欧洲会议上，406-420。斯普林格。Strehl，A.; Ghosh，J.;和Mooney，R. 2000.相似性度量对网页聚类的影响。在Web搜索人工智能研讨会（AAAI 2000），第58卷，第64页。von Rohr，C.的R.; Witschel，H.;和Martin，A.2018年培训和再利用人类经验：项目规划中更准确成本估算的推荐器。第十届知识管理与信息共享国际会议（KMIS）Witschel，H.，和Martin，A. 2018.人类知识的随机漫步：将人类知识转化为数据驱动的推荐器。第十届知识管理与信息共享国际会议（KMIS）。Witschel，H.; Martin，A.; Emmenegger，S.; Lutz，J.2015.一种新的基于本体的复杂案例描述检索函数。在CBR-MD '15的会议记录中Ying，Y.，（英），Li，P. 2012.特征值优化的距离度量学习。 Journal of Machine Learning Research13（Jan）：1-26.

下载后可阅读完整内容，剩余1页未读，立即下载