Lasso回归在中文垃圾邮件过滤中的应用

需积分: 15 187 浏览量更新于2024-08-08 收藏 1013KB PDF 举报

"基于套索（Lasso）的中文垃圾邮件过滤 (2014年)：使用Lasso回归进行垃圾邮件过滤，建立分类模型并结合中文文本垃圾邮件数据集TREC06C进行实验，结果显示Lasso回归与逻辑回归结合的模型性能更优。" 在信息技术领域，尤其是数据挖掘和机器学习的应用中，垃圾邮件过滤是一个重要的研究方向。这篇2014年的论文探讨了如何利用Lasso（Least Absolute Shrinkage and Selection Operator）回归来解决中文垃圾邮件过滤的问题。Lasso回归是线性模型的一种变体，它引入了l1正则化，这使得模型在估计参数时能够同时执行特征选择，从而减少不必要的特征，降低模型复杂度。文本邮件数据通常被表示为向量空间模型，这种表示方法虽然能够捕捉文本的语义信息，但其高维度和稀疏性却带来了挑战。在构建邮件过滤分类模型时，高维度可能导致过拟合，即模型在训练集上表现良好，但在未见过的数据上泛化能力差。因此，通常需要在模型训练之前进行特征选择或降维。论文提出了两种方法：一是使用Lasso回归直接建立邮件分类模型；二是结合Lasso回归的特征选择和逻辑回归进行分类。逻辑回归是一种广泛应用于分类任务的算法，尤其适用于二元分类问题，如判断一封邮件是否为垃圾邮件。通过Lasso回归进行特征选择，可以减少不重要特征的影响，提升逻辑回归模型的性能。实验部分，研究者使用了中文文本垃圾邮件数据集TREC06C，这是一个专门用于垃圾邮件检测的公开数据集。通过对这两种模型进行比较，发现Lasso回归在特征选择后与逻辑回归相结合的模型在垃圾邮件过滤任务上表现出更好的性能。这表明，Lasso回归不仅能够有效地降低维度，还能增强模型的预测能力和泛化能力，从而在实际应用中更为有效。这篇论文的研究成果对于中文垃圾邮件过滤提供了新的思路，强调了在处理高维稀疏数据时，结合Lasso回归进行特征选择的重要性。这一方法可以为其他文本分类问题提供借鉴，尤其是在面对大规模、高维度数据集时，有助于提高模型的训练速度和预测准确性。

_________________________________

收稿日期：

基金项目：

作者简介：

文章编号：1005-0523（2014）04

第 31卷第 4期

2014年 8月

Vol. 31 No. 4

Aug.，2014

华东交通大学学报

Journal of East China Jiaotong University

-0130-06

基于套索（Lasso）的中文垃圾邮件过滤

徐征

，刘遵雄

，张贤龙

（华东交通大学 1.电气与电子工程学院；2.信息工程学院，江西南昌 330013）

摘要：使用向量空间模型表示的文本邮件数据高维而稀疏，不利于邮件过滤分类模型的建立，通常需在分类器训练前进行维

数约减。Lasso 回归是一种基于 l

正则化的多元线性模型，其在模型参数估计的同时实现了变量选择。提出使用 Lasso 回归

进行垃圾邮件过滤，建立 Lasso 回归邮件分类模型、Lasso 回归词条选择结合逻辑回归的分类模型，结合中文文本垃圾邮件数

据集 TREC06C进行垃圾邮件过滤实验。实验结果表明 Lasso回归词条选择结合逻辑回归的邮件分类模型性能更佳。

关键词：中文文本邮件；垃圾邮件；过滤；Lasso；逻辑回归

中图分类号：TP391 文献标志码：A

基于内容的垃圾邮件过滤技术逐步成为垃圾邮件过滤研究重点

［1-2］

，研究方法多为模式识别、数据挖掘

等领域的分类或回归技术，常用的模型算法有决策树、支持向量机

［3］

、贝叶斯分类和逻辑回归（Logistic Re⁃

gression）

［4-5］

等。建立垃圾邮件过滤模型首先需要获得一定数目的正常邮件和垃圾邮件，使用向量空间模

型（vector space model，VSM）表示的邮件数据特征维度高而且稀疏，基于这些数据建立分类模型时计算量

庞大，分类器模型容易陷于“过学习”，其泛化能力不好。解决该问题通常的办法是先于分类器训练进行特

征维数约减，以提高算法运算效率、改善分类性能。

特征选择是常用的维数约减方法，其采用一些统计和信息论方法，如文档频率、

统计和信息增益等

［6］

，

选择出对分类贡献最大的特征子集。最小绝对缩减和变量选择算子（least absolute shrinkage and selection

operator，Lasso）回归是一种回归系数绝对值和受限制的多元线性回归方法，也称为“套索”回归，其可以同时

实现模型参数估计和变量选择

［7-9］

。Lasso回归研究发展很快，相应的改进模型（弹性网、组套索等）和算法相

继被提出，而最小角度回归（least angle regression，LAR）算法能很好解决Lasso回归的计算问题

［10］

。

提出基于套索的垃圾邮件过滤算法，使用 Lasso 回归选择特征词条，建立逻辑回归分类模型。结合中

文垃圾邮件的数据集 TREC（Text retrieval conference）

［11］

进行垃圾邮件过滤模拟实验，并对求得的邮件过滤

性能评价指标值给以分析说明。

1 基于 VSM（向量空间模型）的邮件表示

研究文本邮件数据，垃圾邮件过滤等效于二元文本分类问题。进行垃圾邮件过滤，首先需使用向量空

间模型 VSM将邮件数据表示成易于计算机处理的形式，即使用中文分词对邮件进行预处理（得到邮件正文

和主题的词条），选择一定词条特征进行统计分析，将每封邮件表示为一长度等于词条数的向量。从而邮

件数据集表示成词条文档矩阵

n ×m

=(x

,...,x

) 和邮件目标向量 y

n × 1

，其中 m 为词条数，n 为文档数，y 的

2014-05-10

国家自然科学基金项目（71361009，61065003）；教育部人文社会科学研究项目（13YJC630192）；华东交通大学校立

科研课题（09DQ04）

徐征（1978—），女，讲师，主要研究方向为数理统计、机器学习、非线性系统分析与建模及其在网络行为分析中的

应用。

收稿日期：

基金项目：

作者简介：

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38651661

粉丝: 6
资源: 960

Lasso回归在中文垃圾邮件过滤中的应用

最新资源