Python实现DeepFM代码详解与数据预处理步骤

137 浏览量更新于2024-08-29 收藏 153KB PDF 举报

本文主要介绍了DeepFM模型的Python实现，结合了特征向量化、深度学习和传统的因子分解机（Factorization Machine, FM）的融合方法。首先，我们从数据预处理阶段开始： 1. 数据预处理： - 使用Python的`pickle`库和`pandas`库加载训练数据，将CSV文件中的数据转换成DataFrame格式，便于后续操作。 - 重命名列以区分特征，例如：'c0', 'c1', 'c2'等。 - 提取目标变量（标签）并将其转换为一维数组。 - 创建两个DataFrame，`co_feature`用于存储连续特征，`ca_feature`用于存储离散特征。同时记录特征的列名和对应的特征编号。在DeepFM部分，主要关注以下几个步骤： 2. FM部分的特征向量化： - 对于离散特征，根据特征值的唯一性，将多分类特征标准化处理（如减去均值，除以标准差），确保输入特征具有可比较性。 - 将离散特征和连续特征分别存储到对应的DataFrame中，同时创建一个字典`feat_dict`用于后续的特征编码。 3. Deep部分的权重设置： - DeepFM模型中，Deep部分通常指多层神经网络，这里没有具体说明网络架构，但可能涉及权重初始化、激活函数选择等步骤。 4. 网络传递部分： - 深度学习部分的网络结构会接收特征向量作为输入，经过一系列线性和非线性变换，计算出Deep特征表示。 5. Loss函数： - DeepFM的损失函数通常包括FM部分和Deep部分的损失，可能是交叉熵损失（适用于分类任务）或均方误差（MSE，适用于回归任务），加上可能的正则化项。 6. 梯度正则： - 模型优化过程中，可能采用L1或L2正则化来防止过拟合，通过调整权重的范数来控制模型复杂度。 7. 完整代码： - 文章提供了基于某个基础代码（https://www.jianshu.com/p/71d819005fed）的修改版本，包含了上述步骤的实现细节，并添加了注释以便理解和复现。 8. 执行结果和测试数据集： - 最后，作者分享了执行DeepFM模型的代码执行结果以及使用特定的测试数据集来验证模型性能。通过阅读本文，读者能够了解如何使用Python实现DeepFM模型，包括数据预处理、模型构建和训练过程，以及如何评估模型效果。这对于理解深度学习与传统机器学习方法的融合在推荐系统或其他相关领域的应用非常有帮助。

DeepFM代码详解及代码详解及Python实现实现

文章目录文章目录摘要一、数据预处理部分二、DeepFM部分1、FM部分的特征向量化2、Deep部分的权重设置3、网络传递部分4、

loss5、梯度正则6、完整代码三、执行结果和测试数据集

摘要摘要

DeepFM原理部分可以参看博客https://blog.csdn.net/weixin_45459911/article/details/105359982，本文就着重介绍其代码复现

部分的内容。

本文所写的代码参考自https://www.jianshu.com/p/71d819005fed，在此基础上进行了一些修改，并增加了注释。

一、数据预处理部分一、数据预处理部分

import pickle

import pandas as pd

import numpy as np

def load_data():

train_data = {}

file_path = '../data/tiny_train_input.csv'

data = pd.read_csv(file_path, header=None)

data.columns = ['c' + str(i) for i in range(data.shape[1])] # 将列名改成了c0,c1,c2...

label = data.c0.values # 第一列

label = label.reshape(len(label), 1) # 将列向量变成行向量

train_data['y_train'] = label

co_feature = pd.DataFrame()

ca_feature = pd.DataFrame()

ca_col = [] co_col = [] feat_dict = {}

cnt = 1

for i in range(1, data.shape[1]):

target = data.iloc[:, i] # iloc用于取出前i列

col = target.name # 得到是不包含列索引的Series结构

l = len(set(target)) # set() 函数创建一个无序不重复元素集

if l > 10:

target = (target - target.mean()) / target.std() # .std()函数计算标准差

co_feature = pd.concat([co_feature, target], axis=1) # 将c0_feature与target进行纵向拼接

feat_dict[col] = cnt

cnt += 1

co_col.append(col)

else:

us = target.unique() # unique()是以数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）

print(us)

feat_dict[col] = dict(zip(us, range(cnt, len(us) + cnt))) # zip()函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一

个个元组，然后返回由这些元组组成的列表

ca_feature = pd.concat([ca_feature, target], axis=1)

cnt += len(us)

ca_col.append(col)

feat_dim = cnt

feature_value = pd.concat([co_feature, ca_feature], axis=1)

feature_index = feature_value.copy()

for i in feature_index.columns:

if i in co_col:

feature_index[i] = feat_dict[i] else:

feature_index[i] = feature_index[i].map(feat_dict[i])

feature_value[i] = 1.

train_data['xi'] = feature_index.values.tolist()

train_data['xv'] = feature_value.values.tolist()

train_data['feat_dim'] = feat_dim

return train_data

如上，重要的是做了两件事情，生成了feature_index和feature_value。

feature_index是把所有特征进行了标序，feature1，feature2…featurem，分别对应0，1，2，3，…m，但是，请注意分类变量

需要拆分！就是说如果有性别：男|女|未知，三个选项。需要构造feature男，feature女，feature未知三个变量，而连续变量就

不需要这样。

feature_value就是特征的值，连续变量按真实值填写，分类变量全部填写1。

二、二、DeepFM部分部分

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38659311

粉丝: 5
资源: 892

Python实现DeepFM代码详解与数据预处理步骤

DeepFM_with_PyTorch_deepfmpytorch_pytorch实现deepFM_ctr_Python推荐系统

DeepCTR-Torch：【PyTorch】基于深度学习的CTR模型的易于使用，模块化和可扩展的软件包

deepFM实现基于TensorFlow

deepsort代码详解

遗传算法python代码详解库

python量化策略代码详解

EP详解及其Python代码实现

python代码案例详解-Python代码样例列表

yolov5 deepsort代码详解

目标跟踪sort代码详解(python&c++)

最新资源