特征工程:数据预处理与衍生技术详解

需积分: 5 0 下载量 21 浏览量 更新于2024-06-18 收藏 1.92MB PDF 举报
"数据分析第一期-19.pdf" 在数据分析领域,特征工程是至关重要的一个环节,它直接影响到模型的性能和预测准确性。本课程详细介绍了特征工程的多个方面,包括数据预处理、特征衍生、特征缩减等核心概念。 首先,数据预处理是特征工程的基础,它涉及到对原始数据的清洗和转化,确保数据的质量和可用性。在预处理阶段,可能需要处理缺失值、异常值、重复值等问题,并进行数据类型转换。对于图片数据,可能涉及图像增强或转化为可以输入模型的数字表示。对于时序数据,需要处理时间序列的特点,如提取时间周期性特征。 特征衍生是特征工程的核心,通过对原始数据进行转换和组合来创建新的、更具有预测能力的特征。课程中提到了单变量特征衍生,包括对连续数据的标准化(如z-score标准化、min-max缩放)和离散化(等距分箱、等频分箱)。对于离散数据,常见的处理方法有字典编码和独热编码。此外,还可以通过计算高阶多项式(如二次方至多次方)来增强特征表达能力,如使用`PolynomialFeatures`库进行操作。 双变量特征衍生涉及两个特征之间的交互,可以是简单的四则运算,或者根据特征的实际含义进行计算,如总金额=单价×个数。交叉组合是创建新特征的一种常见方式,特别是对于两个离散特征,可通过笛卡尔积生成所有可能的组合。另外,也可以使用多项式特征组合,如生成多项式特征矩阵。 分组统计特征衍生是基于数据的分组属性进行统计计算,例如计算每组的均值、中位数、标准差等。这适用于离散特征较多的情况,可以生成二阶特征,如个体与均值的差距(Gap)、上四分位数与下四分位数的差等。不过,需要注意的是,这种方法计算量大且可能导致信息的衰减。 多变量特征衍生扩展了特征组合的概念,例如通过交叉特征衍生,可以生成多个特征间的交互项。当有n个特征,每个特征有k个变量时,会有k^n种可能的组合。多变量分组特征衍生则涉及对多个keys进行groupby操作,但需注意粒度过细可能导致组内数据不足,失去统计意义。此外,可以利用多变量的多项式特征,如对𝑥1,𝑥2,𝑥3生成不同的组合形式。 时序特征衍生考虑了数据的时间顺序,如提取季度(dt.quarter)、周数(dt.weekofyear)、星期几(dt.dayofweek)等自然周期性特征,以及早晚时段、四季等类别特征,这些可以帮助模型捕捉时间序列中的模式。同时,可以进行二阶衍生,对时序类别进行分组分析。 最后,NLP特征衍生主要应用于文本数据,如计算词频、对分组进行词频求和,可以将文本数据转化为定量特征,类似CountVectorizer的过程。这种方法有助于模型理解和捕捉文本数据的语义信息。 特征工程是一门艺术与科学的结合,它要求数据科学家深入理解业务,灵活运用各种方法来提取数据的隐藏价值,从而提升模型的预测能力和解释性。
2022-12-23 上传
【课标要求】 考点 课标要求 知识与技能目标 了解 理解 掌握 灵活 应用 总体、个 体、样本、 样本容量 了解总体、个体、样本 、样 本容量等概念的意义 平均数、众 数、中位数 理解平均数、加权平均数的 意义,会求一组数据的平均 数 了解众数、中位数的作用 会求一组数据的众数与中位 数 极差、方 差、标准差 了解极差、方差和标准差的 概念 了解极差、方差和标准差的 作用 会求一组数据的极差、方 差、标准差 【知识梳理】 1.解统计学的几个基本概念 总体、个体、样本、样本容量是统计学中特有的规定,准确把握教材, 明确所考查的对象是解决有关总体、个体、样本、样本容量问题的关 键。 2.平均数 当给出的一组数据,都在某一常数a上下波动时,一般选用简化平均数 公式 ,其中a是取接近于这组数据平均数中比较"整"的数;当所 给一组数据中有重复多次出现的数据,常选用加权平均数公式。 3.众数与中位数 平均数、众数、中位数都是用来描述数据集中趋势的量。平均数的大小 与每一个数据都有关,任何一个数的波动都会引起平均数的波动,当一 组数据中有个数据太高或太低,用平均数来描述整体趋势则不合适,用 中位数或众数则较合适。中位数与数据排列有关,个别数据的波动对中 位数没影响;当一组数据中不少数据多次重复出现时,可用众数来描 述。 4.极差 用一组数据中的最大值减去最小值所得的差来反映这组数据的变化范 围,用这种方法得到的差称为极差,极差=最大值-最小值。 5.方差与标准差 用"先平均,再求差,然后平方,最后再平均"得到的结果表示一组数 据偏离平均值的情况,这个结果叫方差,计算公式是 s2= [(x1 - )2+(x2 - )2+…+(xn - )2]; 标准差= 方差和标准差都是反映一组数据的波动大小的一个量,其值越大,波动 越大,也越不稳定或不整齐。 【能力训练】 一、填空题: 1.甲、乙、丙三台包装机同时分装质量为400克的茶叶.从它们各自 分装的茶叶中分别随机抽取了10盒,测得它们的实际质量的方差如下表 所示: 甲包装 机 乙包装 机 丙包装 机 方差 (克2) 31.96 7.96 16.32 根据表中数据,可以认为三台包装机中, 包装机包装的茶叶质量最稳定。 2.甲、乙、丙三台机床生产直径为60mm的螺丝,为了检验产品质量,从三台机床生产的螺 丝中各抽查了20个测量其直径,进行数据处理后,发现这三组数据的平均数都是60mm,它们的 方差依次为S2 甲=0.162,S2 乙=0.058,S2 丙=0.149.根据以上提供的信息,你认为生产螺丝质量 最好的是__ __机床。 3.一组数据:2,-2,0,4的方差是 。 4.在世界环境日到来之际,希望中学开展了"环境与人类生存"主题 研讨活动,活动之一是对我们的生存环境进行社会调查,并对学生的 调查报告进行评比。初三(3)班将本班50篇学生调查报告得分进行整 理(成绩均为整数),列出了频率分布表,并画出了频率分布直方图 (部分)如下: 分组 频率 49.5~ 59.5 0.04 59.5~ 69.5 0.04 69.5~ 79.5 0.16 79.5~ 89.5 0.34 89.5~ 99.5 0.42 合计 1 根据以上信息回答下列问题: (1)该班90分以上(含90分)的调查报告共有________篇; (2)该班被评为优秀等级(80分及80分以上)的调查报告占_________%; (3)补全频率分布直方图。 5.据资料记载,位于意大利的比萨斜塔1918~1958这41年间,平均 每年倾斜1.1mm;1959~1969这11年间,平均每年倾斜1.26mm,那么 1918~1969这52年间,平均每年倾斜约_________(mm)(保留两位小 数)。 6.为了缓解旱情,我市发射增雨火箭,实施增雨作业,在一场降雨 中,某县测得10个面积相等区域的降雨量如下表: 区域 1 2 3 4 5 6 7 8 9 10 降雨量 (mm) 10 12 13 13 20 15 14 15 14 14 则该县这10个区域降雨量的众数为________(mm);平均降雨量为 ________(mm)。 7.一个射箭运动员连续射靶5次,所得环数分别是8,6,10,7,9, 则这个运动员所得环数的标准差为________。 8.下图显示的是今年2月25日《太原日报》刊登的太原市2002年至 2004年财政总收入完成情况,图中数据精确到1亿元,根据图中数据完 成下列各题: (1)2003年比2002年财政总收入增加了_______亿元; (2)2004年财政总收入的年增长率是_______;(精确 到1%) (3)假如2005年财政总收入的年增长率不低于2004年 财政总收入的年增长率,预计2005年财政总收入至少达