Graph Search个性化模型：高级特征挖掘策略

需积分: 31 133 浏览量更新于2024-07-19 收藏 998KB DOCX 举报

"本文主要探讨了在Graph search个性化模型中如何进行高级特征挖掘，特别是利用latent factor models（如PLSA和LDA）来提取有价值的信息，以提升模型的预测性能，尤其是AUC（Area Under the ROC Curve）。在大数据背景下，尽管深度学习能够自动学习抽象级别的特征，手工特征工程仍然是优化模型的关键环节。在Graph search个性化模型中，通过应用latent factor models，如Probabilistic Latent Semantic Analysis (PLSA)和Latent Dirichlet Allocation (LDA)，我们可以发现一些潜在的因素或主题，这些因素有助于构建更丰富的用户和文档表示。 PLSA和LDA都是主题模型，广泛应用于文本建模。LDA相比PLSA更为复杂，它是一种贝叶斯层级模型。主题模型的基本形式是P(w|d) = ∑[p(w|z)*p(z|d)]，其中p(w|z)代表词w在主题z上的概率，而p(z|d)表示文档d的主题分布。在用户-文档点击率预估问题中，可以使用PLSA或LDA训练出用户和文档的隐含主题向量。一种简单的方法是将用户的购买、收藏、点击和添加到购物车的商品集合视为一个文档，每个商品视为一个词，从而得到用户和文档的隐向量。更进一步，可以结合文档的类别、卖家信息以及用户的一些个人资料信息来扩展原始的用户-文档矩阵，这不仅可以增加特征维度，还能降低矩阵的稀疏性。将用户和文档的隐向量进行点积后离散化，得到的值可以作为逻辑回归模型的输入特征。此外，选择点积向量中最大值所在的维度索引作为一个额外特征，实践证明，这种方法能够显著提高模型的AUC，即预测准确度。在Graph search个性化模型中，利用PLSA和LDA等高级特征挖掘技术，可以从海量数据中提取出对预测目标有显著影响的新特征，进而提升模型的性能和预测能力。对于算法工程师来说，这是一项非常有价值的技术，可以有效地改善模型的泛化能力和业务效果。"

标签推荐算法实践

背景

为什么要做标签推荐？

 通用的用户个性化推荐算法往往是基于用户的行为去计算 1）用户与后台类目、

2）用户商品之间（U2I）的偏好关系，在某些情况下，这套算法会遇到各种业务问

题，首先，后台类目在淘宝的业务环境里是用来做商家后台商品管理，而不是用来

做营销的，所以“用户与后台类目”的偏好关系很多情况下不能直接应用到个性化导购

场景，“用户商品之间（U2I）的偏好关系”可以解决这个问题，但“用户商品之间的偏

好关系”的缺陷在与数据粒度太细，针对不同的个性化需求，可能需要做不同的算法，

也就是 N 个推荐场景可能需要 N 份 U2I 数据，这样开发代价大、周期长。

 所以，目前想到的一个解决思路是，用“前台类目”的方式去构建用户偏好的粒度：

基于标签的偏好，所谓的“标签”，其实是介于“类目”与“商品”之前的粒度，且它是扁

平化的，直接面对业务需求的。

剩余22页未读，继续阅读

LinuxG_G

粉丝: 57
资源: 7

Graph Search个性化模型：高级特征挖掘策略

TigerGraph图数据库应用.docx

SparkCore.docx

将word文本文件导入python，文件地址为C:\Users\Admin\Desktop\三国演义.docx，用jieba实现词频统计，输出前10个频率最高的词，并构建20个节点的知识图谱

graph_opt.pb模型

在tensorflow中如何保存训练模型

如何调用saver.save保存下来的深度模型？

yolov8.pt模型怎么变成.onnx模型

最新资源