在逻辑回归模型—交易数据异常检测实验中,讨论用到的两种方法,下采样和过采样,哪种更适合我们的模型?根据召回率观察
时间: 2023-06-13 20:02:35 浏览: 96
python - 信用卡欺诈异常值检测(上采样、下采样)相关文件
在逻辑回归模型中,下采样和过采样都是解决类别不平衡问题的方法。下采样是指从多数类中删除样本,使得多数类和少数类的样本数接近;过采样则是指从少数类中增加样本,使得多数类和少数类的样本数接近。这两种方法各有优缺点,需要根据具体情况进行选择。
在交易数据异常检测实验中,我们的目标是尽可能地检测出所有的异常交易,因此我们需要关注召回率。由于异常交易的数量相对于正常交易来说很少,因此少数类是异常交易,多数类是正常交易。因此,过采样方法更适合我们的模型。过采样可以增加少数类样本的数量,从而提高少数类样本在模型中的比重,使得模型更加关注少数类,从而提高召回率。
需要注意的是,过采样也有可能会引入噪声和过拟合问题,因此需要根据具体情况进行选择,可以考虑使用一些基于过采样的改进算法,如SMOTE算法等。
阅读全文