掌握Python特征工程，构建高效机器学习模型

需积分: 32 192 浏览量更新于2024-12-14 收藏 5.24MB ZIP 举报

资源摘要信息:《Python Feature Engineering Cookbook》是Packt出版的一本专业书籍，主要介绍如何使用Python进行有效的特征工程，以构建强大的机器学习模型。本书包含了超过70种配方（即解决方案），涵盖了从创建、工程设计到转换特征的各个方面。本书的主旨是向读者展示如何利用Python的强大功能简化特征工程流程，并提高代码的质量与效率。特征工程作为机器学习中的一项关键步骤，对于提升模型性能有着至关重要的作用。通过掌握各种特征工程技巧，数据科学家和机器学习工程师可以更有效地从原始数据中提取信息，增强模型的预测能力。本书中介绍了众多实用的Python工具包，这些工具包在简化特征工程流水线方面表现出了显著的效率。它们帮助开发者快速实施复杂的数据处理和转换工作，进而能够专注于模型的构建和优化。在内容上，本书重点介绍了以下几个方面的知识： 1. 掌握处理缺失值的方法：在数据预处理阶段，缺失值是常见问题之一。本书提供了多种估算缺失值的技巧，例如使用均值、中位数、众数或者其他统计方法填充，以及利用机器学习算法进行更复杂的估算。 2. 对分类变量进行编码：在机器学习中，分类变量（如性别、职业等）需要转换为模型能够理解的数值形式。本书介绍了多种技术，如独热编码（One-Hot Encoding）、标签编码（Label Encoding）、二进制编码等，帮助读者更好地处理分类数据。 3. 从文本中提取特征：文本数据蕴含了丰富信息，但直接用于模型训练则需要转换为数值形式。书中展示了如何使用词袋模型（Bag of Words）、TF-IDF（词频-逆向文档频率）等技术提取文本数据的特征。 4. 利用交易数据和时间序列数据开发特征：交易数据和时间序列数据是金融领域常见数据类型，本书指导如何从这类数据中提取时间相关特征，并介绍了时间序列分析的基础知识。 5. 派生新特征：通过组合现有变量，可以生成新的特征，这有助于提升模型的预测性能。书中介绍了如何基于领域知识创建有意义的新变量。 6. 变量变换、离散化和缩放：为了适应机器学习模型的输入需求，本书涵盖了变量变换（如对数变换）、离散化（将连续变量转换为离散形式）、标准化和归一化等技术。 7. 利用日期和时间创建新特征：日期和时间数据通常含有大量的隐含信息，如何从中提取有用特征是本书的一个重点。例如，如何从日期中提取出星期几、节假日等信息。《Python Feature Engineering Cookbook》适合有一定Python和机器学习基础的读者，尤其是那些希望深入理解并实践特征工程的工程师和研究人员。全书通过实践案例的方式，一步步引导读者掌握如何使用Python进行高效、高质量的特征工程。最后，本书所附带的代码被组织在以Python-Feature-Engineering-Cookbook-master命名的压缩包中。通过这些代码示例，读者可以更好地理解书中的概念，并将这些知识应用到实际的机器学习项目中。代码示例通常以Jupyter Notebook的形式存在，这使得学习和演示过程更加直观和互动。

资源目录

收起资源包目录

掌握Python特征工程，构建高效机器学习模型（88个子文件）

Recipe-09-Performing-multivariate-imputation-by-chained-equations-MICE.ipynb 39KB

Recipe-11-Assembling-an-imputation-pipeline-with-Feature-Engine.ipynb 12KB

Recipe-07-Implementing-random-sample-imputation.ipynb 19KB

Recipe-4-power-transformation.ipynb 150KB

Recipe3-bag-of-words.ipynb 21KB

Recipe-06-Replacing-missing-values-by-a-value-at-the-end-of-the-distribution.ipynb 11KB

Recipe-1-logarithmic-transformation.ipynb 166KB

Recipe5-PCA.ipynb 25KB

Recipe-2-reciprocal-transformation.ipynb 150KB

Recipe-6-target-mean-encoding.ipynb 65KB

Recipe-2-One-hot-encoding-top-categories.ipynb 25KB

Recipe6--different-time-zones.ipynb 14KB

Recipe-3-Discretisation-plus-categorical-encoding.ipynb 40KB

viz.js.download 1.3MB

CreditApprovalUCI_dataPrep.ipynb 19KB

Recipe1-Outlier-Trimming.ipynb 24KB

Recipe-10--Feature-Hashing.ipynb 15KB

CreditApprovalUCI_dataPrep.ipynb 19KB

Recipe1-Capturing-text-complexity-in-features.ipynb 29KB

Recipe-8-Highlighting-outliers.ipynb 23KB

LICENSE 1KB

Recipe-6-Yeo-Johnson-transformation.ipynb 147KB

Recipe-3-Determining-cardinality.ipynb 22KB

Recipe4-Combining-features-with-trees.ipynb 67KB

Recipe-9-Binary-Encoding.ipynb 16KB

Recipe-5-Identifying-a-linear-relationship.ipynb 193KB

Recipe-4-Pinpointing-rare-categories.ipynb 23KB

TechReqs-Dataset-creation.ipynb 4KB

DataPrep_Titanic.ipynb 1KB

Recipe-2-Quantifying-missing-data.ipynb 28KB

Recipe-05-Capturing-missing-values-in-a-bespoke-category.ipynb 17KB

requirements.txt 380B

R5-Creating-features-with-featuretools.ipynb 71KB

Recipe2-Deriving-year-month-semester-quarter.ipynb 12KB

Recipe-02-Performing-mean-or-median-imputation.ipynb 18KB

Recipe-1-One-hot-encoding.ipynb 39KB

Recipe3-Creating-representations-of-week-day.ipynb 16KB

Recipe-3-square-cube-root.ipynb 170KB

Recipe-08-Adding-a-missing-value-indicator-variable.ipynb 31KB

Recipe-6-Identifying-a-normal-distribution.ipynb 103KB

tree_model.txt 1KB

Recipe-3-Replacing-categories-by-ordinal-numbers.ipynb 27KB

R2--aggregate-transactional-data-in-time-windows.ipynb 143KB

Recipe-5-Discretisation-Kmeans.ipynb 46KB

Recipe6-Scaling-to-unit-length.ipynb 16KB

Recipe2-Mean-normalization.ipynb 81KB

Recipe2-Winsorisation.ipynb 264KB

tree_model.png 149KB

Recipe-7-Distinguishing-variable-distribution.ipynb 48KB

Recipe5-Robust-Scaling.ipynb 78KB

Recipe-5-ordered-ordinal-encoding.ipynb 63KB

site.js.download 2KB

R4-Calculating-distance-between-events.ipynb 184KB

R1-Aggregating-transactional-data-with-math-operations.ipynb 20KB

Recipe1-Extracting-date-and-time-part.ipynb 11KB

Recipe4-Maximum-Absolute-Scaling.ipynb 121KB

Recipe-4-Arbitrary-interval-discretisation.ipynb 16KB

Recipe-1-Equal-width-discretisation.ipynb 138KB

Recipe2-Substraction-Quotient-Features.ipynb 64KB

Recipe-6-Discretisation-with-decision-trees.ipynb 380KB

Recipe-5-Box-Cox-transformation.ipynb 145KB

Recipe4-TFIDF.ipynb 22KB

Recipe-04-Replacing-missing-values-by-an-arbitrary-number.ipynb 18KB

Recipe-03-Implementing-mode-or-frequent-category-imputation.ipynb 17KB

Recipe-4-replacing-categories-by-counts-frequency.ipynb 24KB

Recipe-9-Comparing-feature-magnitude.ipynb 15KB

Recipe-01-Removing-observations-with-missing-data.ipynb 8KB

Recipe-1-indetifying-variables-types.ipynb 31KB

README.md 5KB

Recipe1-Add-Multiply-Features.ipynb 264KB

Recipe5-cleaning-text.ipynb 19KB

Recipe2-Sentence-tokenization.ipynb 17KB

Recipe5-Capturing-elapsed-time-between-2-variables.ipynb 16KB

graphiz_browser.png 71KB

energydata_complete.csv 11.41MB

jquery.min.js.download 90KB

Recipe4-Zero-coding.ipynb 30KB

Recipe3-MinMaxScaling.ipynb 82KB

Recipe1-Standardization.ipynb 83KB

Recipe4-Extracting-time-parts.ipynb 12KB

Recipe-2-Equal-frequency-discretisation.ipynb 123KB

Recipe3-PolynomialExpansion.ipynb 148KB

Recipe-10-Assembling-an-imputation-pipeline-with-Scikit-learn.ipynb 15KB

Recipe-8-grouping-rare-categories.ipynb 22KB

R3-Identifying-and-counting-local-maxima-and-minima.ipynb 483KB

Recipe3-Capping.ipynb 13KB

AirQualityUCI.csv 757KB

Recipe-7-weight-of-evidence.ipynb 57KB

共 88 条

蒙霄阳

粉丝: 25
资源: 4572

掌握Python特征工程，构建高效机器学习模型

Machine-Learning-with-R-Cookbook:Packt Publishing发布的《使用R Cookbook进行机器学习的代码库》

Python Cookbook 第二版英文epub版

Modern-Python-Standard-Library-Cookbook:Packt发行的《现代Python标准库食谱》

Natural-Language-Processing-with-Python-Cookbook:Packt发行的《使用Python Cookbook进行自然语言处理》

Python-Web-Scraping-Cookbook:Packt发行的Python Web Scraping Cookbook

Python-for-Finance-Cookbook:Packt发行的Python for Finance Cookbook

Python-Digital-Forensics-Cookbook:Packt发行的《 Python Digital Forensics Cookbook》

Artificial-Intelligence-with-Python-Cookbook:Packt出版的《人工智能与Python食谱》

Python-Data-Cleaning-Cookbook:Packt发行的《 Python数据清理食谱》

Python-Penetration-Testing-Cookbook:Packt发行的《 Python渗透测试手册》

最新资源