没有合适的资源?快使用搜索试试~ 我知道了~
首页机器学习之(四)特征工程以及特征选择的工程方法
机器学习之(四)特征工程以及特征选择的工程方法
1.4k 浏览量
更新于2023-05-25
评论
收藏 328KB PDF 举报
本文来自于segmentfault.com,从特征工程是什么?为什么要做特征工程?应该如何做特征工程?这三个方面详细叙述。关于特征工程(FeatureEngineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能。遗憾的是,在很多的书籍中
资源详情
资源评论
资源推荐

机器学习之(四)特征工程以及特征选择的工程方法机器学习之(四)特征工程以及特征选择的工程方法
关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而
模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征
工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,
大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能。遗憾的是,
在很多的书籍中并没有直接提到Feature Engineering,更多的是Feature selection。这也并不,很多ML书籍都是以讲解算法
为主,他们的目的是从理论到实践来理解算法,所以用到的数据要么是使用代码生成的,要么是已经处理好的数据,并没有提
到特征工程。在这篇文章,我打算自我总结下特征工程,让自己对特征工程有个全面的认识。在这我要说明一下,我并不是说
那些书写的不好,其实都很有不错,主要是因为它们的目的是理解算法,所以直接给出数据相对而言对于学习和理解算法效果
更佳。
这篇文章主要从以下三个问题出发来理解特征工程:
特征工程是什么?
为什么要做特征工程?
应该如何做特征工程?
对于第一个问题,我会通过特征工程的目的来解释什么是特征工程。对于第二个问题,主要从特征工程的重要性来阐述。对于
第三个问题,我会从特征工程的子问题以及简单的处理方法来进一步说明。下面来看看详细内容!
1、特征工程是什么
首先来解释下什么是特征工程?
当你想要你的预测模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息。那
么问题来了,你应该如何为你的预测模型得到更好的数据呢?
想必到了这里你也应该猜到了,是的,这就是特征工程要做的事,它的目的就是获取更好的训练数据。关于特征工程的定
义,Wikipedia上是这样说的:
Feature engineering is the process of using domain knowledge of the data to create features that make machine learning
algorithms work. ”
我的理解:
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在
未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。
特征工程更是一门艺术,跟编程一样。导致许多机器学习项目成功和失败的主要因素就是使用了不同的特征。说了这么多,想
必你也大概知道了为什么要做特征工程,下面来说说特征工程的重要性。
2、特征工程的重要性
首先,我们大家都知道,数据特征会直接影响我们模型的预测性能。你可以这么说:“选择的特征越好,最终得到的性能也就
越好”。这句话说得没错,但也会给我们造成误解。事实上,你得到的实验结果取决于你选择的模型、获取的数据以及使用的
特征,甚至你问题的形式和你用来评估精度的客观方法也扮演了一部分。此外,你的实验结果还受到许多相互依赖的属性的影
响,你需要的是能够很好地描述你数据内部结构的好特征。
(1)特征越好,灵活性越强
只要特征选得好,即使是一般的模型(或算法)也能获得很好的性能,因为大多数模型(或算法)在好的数据特征下表现的性
能都还不错。好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。
(2)特征越好,构建的模型越简单
有了好的特征,即便你的参数不是最优的,你的模型性能也能仍然会表现的很nice,所以你就不需要花太多的时间去寻找最有
参数,这大大的降低了模型的复杂度,使模型趋于简单。
(3)特征越好,模型的性能越出色
显然,这一点是毫无争议的,我们进行特征工程的最终目的就是提升模型的性能。
下面从特征的子问题来分析下特征工程。



















weixin_38655810
- 粉丝: 6
- 资源: 908
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

评论0