机器学习算法全方位解析

下载需积分: 1 | PDF格式 | 3.15MB | 更新于2024-07-15 | 51 浏览量 | 举报

"本文是关于机器学习算法的深入研究与总结，涵盖了多种算法，包括分类、回归、聚类、推荐系统、异常检测和关联分析。文章详细介绍了每种算法的基本概念、特点、参数、调优策略以及应用场景，并提供了示例进行说明。" 在机器学习领域，算法的选择和理解是至关重要的。本文对一系列常用算法进行了详尽的阐述，旨在帮助读者全面掌握这些工具。以下是各部分的详细说明： 1. **分类算法**：包括决策树、XGBoost、LightGBM、随机森林、GBDT、最近邻算法、朴素贝叶斯、逻辑回归、人工神经网络和支持向量机（SVM）。决策树以其直观性和易于解释而受到欢迎，XGBoost和LightGBM则在提升模型性能和处理大规模数据时表现出色。推荐使用时考虑数据规模、模型复杂度和解释性需求。 2. **推荐系统算法**：包括基于用户和物品的协同过滤、SVD（奇异值分解）和ALS（交替最小二乘法）。协同过滤基于用户历史行为进行预测，SVD和ALS则用于矩阵分解，降低推荐系统的维度，提高推荐精度。 3. **回归算法**：包括线性回归、保序回归、随机梯度下降法、最近邻回归、决策树、随机森林、AdaBoost、支持向量机和LASSO回归。线性回归适用于线性关系的数据，而LASSO回归通过正则化减少过拟合风险。 4. **聚类算法**：如K均值、DBSCAN和层次聚类。K均值适用于凸形状的簇，DBSCAN可以发现任意形状的簇，层次聚类则提供了上层或下层的簇结构。 5. **异常检测算法**：包括孤立森林和OneClassSVM，这两种方法都能在没有正常样本的情况下检测异常。 6. **关联分析算法**：如Apriori和FPGrowth，常用于市场篮子分析，发现商品之间的购买关联。每个算法都有其独特的优势和适用场景。例如，决策树适合分类任务，随机森林能降低过拟合风险，而SVM在处理小样本数据时表现优秀。在实际应用中，需要根据问题的具体情况选择合适的算法，同时，优化算法参数和集成学习方法也是提高模型性能的关键。这篇资源提供了丰富的机器学习算法知识，不仅有理论介绍，还有具体的实现示例，是学习和提升机器学习技能的宝贵资料。

boosting 或者’boost’ 或者 ‘boosting_type’：一个字符串，给出了基学习器模型算法。

可以为：

‘gbdt’：表示传统的梯度提升决策树。默认值为’gbdt’

‘rf’：表示随机森林。

‘dart’：表示带 dropout 的 gbdt

goss：表示 Gradient-based One-Side Sampling 的 gbdt

data 或者 train 或者 train_data：一个字符串，给出了训练数据所在的文件的文件名。默

认为空字符串。lightgbm 将使用它来训练模型。

valid 或者 test 或者 valid_data 或者 test_data：一个字符串，表示验证集所在的文件的

文件名。默认为空字符串。lightgbm 将输出该数据集的度量。如果有多个验证集，则用逗号

分隔。

num_iterations 或者 num_iteration 或者 num_tree 或者 num_trees 或者 num_round 或

者 num_rounds 或者 num_boost_round 一个整数，给出了 boosting 的迭代次数。默认为

100。

对于 python/R 包，该参数是被忽略的。对于 python，使用 train()/cv()的输入参数

num_boost_round 来代替。

在内部，lightgbm 对于 multiclass 问题设置了 num_class*num_iterations 棵树。

learning_rate 或者 shrinkage_rate：个浮点数，给出了学习率。默认为 1。在 dart 中，

它还会影响 dropped trees 的归一化权重。

num_leaves 或者 num_leaf：一个整数，给出了一棵树上的叶子数。默认为 31

tree_learner 或者 tree：一个字符串，给出了 tree learner，主要用于并行学习。默认

为’serial’。可以为：

‘serial’：单台机器的 tree learner

‘feature’：特征并行的 tree learner

‘data’：数据并行的 tree learner

‘voting’：投票并行的 tree learner

num_threads 或者 num_thread 或者 nthread：一个整数，给出了 lightgbm 的线程数。

默认为 OpenMP_default。

为了更快的速度，应该将它设置为真正的 CPU 内核数，而不是线程的数量（大多

数 CPU 使用超线程来使每个 CPU 内核生成 2 个线程）。

当数据集较小的时候，不要将它设置的过大

对于并行学习，不应该使用全部的 CPU 核心，因为这会使得网络性能不佳

device：一个字符串，指定计算设备。默认为’cpu’。可以为’gpu’,’cpu’。

建议使用较小的 max_bin 来获得更快的计算速度

为了加快学习速度， GPU 默认使用 32 位浮点数来求和。你可以设置

gpu_use_dp=True 来启动 64 位浮点数，但是它会使得训练速度降低。

学习控制参数：

max_depth：一个整数，限制了树模型的最大深度，默认值为-1。如果小于 0，则表示

没有限制。

min_data_in_leaf 或者 min_data_per_leaf 或者 min_data 或者 min_child_samples：一

个整数，表示一个叶子节点上包含的最少样本数量。默认值为 20

min_sum_hessian_in_leaf 或者 min_sum_hessian_per_leaf 或者 min_sum_hessian 或者

min_hessian 或者 min_child_weight：一个浮点数，表示一个叶子节点上的最小 hessian

之和。（也就是叶节点样本权重之和的最小值）默认为 1e-3 。

feature_fraction 或者 sub_feature 或者 colsample_bytree：一个浮点数，取值范围为

[0.0,1.0]，默认值为 0。如果小于 1.0，则 lightgbm 会在每次迭代中随机选择部分特征。如

0.8 表示：在每棵树训练之前选择 80% 的特征来训练。

feature_fraction_seed：一个整数，表示 feature_fraction 的随机数种子，默认为 2。

bagging_fraction 或者 sub_row 或者 subsample：一个浮点数，取值范围为[0.0,1.0]，

默认值为 0。如果小于 1.0，则 lightgbm 会在每次迭代中随机选择部分样本来训练（非重复

采样）。如 0.8 表示：在每棵树训练之前选择 80% 的样本（非重复采样）来训练。

bagging_freq 或者 subsample_freq：一个整数，表示每 bagging_freq 次执行 bagging。

如果该参数为 0，表示禁用 bagging。

bagging_seed 或者 bagging_fraction_seed：一个整数，表示 bagging 的随机数种子，

默认为 3 。

early_stopping_round 或者 early_stopping_rounds 或者 early_stopping：一个整数，默

认为 0。如果一个验证集的度量在 early_stopping_round 循环中没有提升，则停止训练。如

果为 0 则表示不开启早停。

lambda_l1 或者 reg_alpha：一个浮点数，表示 L1 正则化系数。默认为 0

lambda_l2 或者 reg_lambda：一个浮点数，表示 L2 正则化系数。默认为 0

min_split_gain 或者 min_gain_to_split：一个浮点数，表示执行切分的最小增益，默认

为 0

drop_rate：一个浮点数，取值范围为[0.0,1.0]，表示 dropout 的比例，默认为 1。该

参数仅在 dart 中使用

skip_drop：一个浮点数，取值范围为[0.0,1.0]，表示跳过 dropout 的概率，默认为 5。

该参数仅在 dart 中使用

max_drop：一个整数，表示一次迭代中删除树的最大数量，默认为 50。如果小于等

于 0，则表示没有限制。该参数仅在 dart 中使用

uniform_drop：一个布尔值，表示是否想要均匀的删除树，默认值为 False。该参数仅

在 dart 中使用

xgboost_dart_mode：一个布尔值，表示是否使用 xgboost dart 模式，默认值为 False。

该参数仅在 dart 中使用

drop_seed：一个整数，表示 dropout 的随机数种子，默认值为 4。该参数仅在 dart

中使用

top_rate：一个浮点数，取值范围为[0.0,1.0]，表示在 goss 中，大梯度数据的保留比例，

默认值为 2。该参数仅在 goss 中使用

other_rate：一个浮点数，取值范围为[0.0,1.0]，表示在 goss 中，小梯度数据的保留比

例，默认值为 1。该参数仅在 goss 中使用

min_data_per_group：一个整数，表示每个分类组的最小数据量，默认值为 100。用于

排序任务

max_cat_threshold：一个整数，表示 category 特征的取值集合的最大大小。默认为 32 。

cat_smooth：一个浮点数，用于 category 特征的概率平滑。默认值为 10。它可以降

低噪声在 category 特征中的影响，尤其是对于数据很少的类。

cat_l2：一个浮点数，用于 category 切分中的 L2 正则化系数。默认为 10 。

top_k 或者 topk：一个整数，用于投票并行中。默认为 20 。将它设置为更大的值可

以获得更精确的结果，但是会降低训练速度。

IO 参数：

max_bin：一个整数，表示最大的桶的数量。默认值为 255。lightgbm 会根据它来自

动压缩内存。如 max_bin=255 时，则 lightgbm 将使用 uint8 来表示特征的每一个值。

min_data_in_bin：一个整数，表示每个桶的最小样本数。默认为 3。该方法可以避免出

现一个桶只有一个样本的情况。

data_random_seed：一个整数，表示并行学习数据分隔中的随机数种子。默认为 1 它

不包括特征并行。

output_model 或者 model_output 或者 model_out：一个字符串，表示训练中输出的

模型被保存的文件的文件名。默认 txt 。

input_model 或者 model_input 或者 model_in：一个字符串，表示输入模型的文件的

文件名。默认空字符串。对于 prediction 任务，该模型将用于预测数据，对于 train 任务，

训练将从该模型继续

output_result 或者 predict_result 或者 prediction_result：一个字符串，给出了 prediction

结果存放的文件名。默认为 txt。

pre_partition 或者 is_pre_partition：一个布尔值，指示数据是否已经被划分。默认值

为 False。如果为 true，则不同的机器使用不同的 partition 来训练。它用于并行学习（不包

括特征并行）

is_sparse 或者 is_enable_sparse 或者 enable_sparse：一个布尔值，表示是否开启稀疏

优化，默认为 True。如果为 True 则启用稀疏优化。

two_round 或者 two_round_loading 或者 use_two_round_loading：一个布尔值，指示

是否启动两次加载。默认值为 False，表示只需要进行一次加载。默认情况下，lightgbm 会

将数据文件映射到内存，然后从内存加载特征，这将提供更快的数据加载速度。但是当数据

文件很大时，内存可能会被耗尽。如果数据文件太大，则将它设置为 True

save_binary 或者 is_save_binary 或者 is_save_binary_file：一个布尔值，表示是否将数据集

（包括验证集）保存到二进制文件中。默认值为 False。如果为 True，则可以加快数据的加

载速度。

verbosity 或者 verbose：一个整数，表示是否输出中间信息。默认值为 1。如果小于 0，

则仅仅输出 critical 信息；如果等于 0，则还会输出 error,warning 信息；如果大于 0，则还

会输出 info 信息。

header 或者 has_header：一个布尔值，表示输入数据是否有头部。默认为 False。

label 或者 label_column：一个字符串，表示标签列。默认为空字符串。你也可以指定

一个整数，如 label=0 表示第 0 列是标签列。你也可以为列名添加前缀，如

label=prefix:label_name

weight 或者 weight_column：一个字符串，表示样本权重列。默认为空字符串。你也

可以指定一个整数，如 weight=0 表示第 0 列是权重列。注意：它是剔除了标签列之后的索

引。假如标签列为 0，权重列为 1，则这里 weight=0。你也可以为列名添加前缀，如

weight=prefix:weight_name

query 或者 query_column 或者 gourp 或者 group_column：一个字符串，query/group

ID 列。默认为空字符串。你也可以指定一个整数，如 query=0 表示第 0 列是 query 列。注

意：它是剔除了标签列之后的索引。假如标签列为 0，query 列为 1，则这里 query=0。你也

可以为列名添加前缀，如 query=prefix:query_name

ignore_column 或者 ignore_feature 或者 blacklist：一个字符串，表示训练中忽略的一

些列，默认为空字符串。可以用数字做索引，如 ignore_column=0,1,2 表示第 0,1,2 列将被

忽略。注意：它是剔除了标签列之后的索引。

你也可以为列名添加前缀，如 ignore_column=prefix:ign_name1,ign_name2

categorical_feature 或者 categorical_column 或者 cat_feature 或者 cat_column：一个字

符串，指定 category 特征的列。默认为空字符串。可以用数字做索引，如

categorical_feature=0,1,2 表示第 0,1,2 列将作为 category 特征。注意：它是剔除了标签列

之后的索引。你也可以为列名添加前缀，如 categorical_feature=prefix:cat_name1,cat_name2

在 categorycal 特征中，负的取值被视作缺失值。

predict_raw_score 或者 raw_score 或者 is_predict_raw_score：一个布尔值，表示是否预

测原始得分。默认为 False。如果为 True 则仅预测原始得分。该参数只用于 prediction 任务。

predict_leaf_index 或者 leaf_index 或者 is_predict_leaf_index：一个布尔值，表示是否

预测每个样本在每棵树上的叶节点编号。默认为 False。在预测时，每个样本都会被分配到

每棵树的某个叶子节点上。该参数就是要输出这些叶子节点的编号。该参数只用于 prediction

任务。

predict_contrib 或者 contrib 或者 is_predict_contrib：一个布尔值，表示是否输出每个

特征对于每个样本的预测的贡献。默认为 False。输出的结果形状为[nsamples,nfeatures+1]，

之所以+1 是考虑到 bais 的贡献。所有的贡献加起来就是该样本的预测结果。该参数只用

于 prediction 任务。

bin_construct_sample_cnt 或者 subsample_for_bin：一个整数，表示用来构建直方图的

样本的数量。默认为 200000。如果数据非常稀疏，则可以设置为一个更大的值，如果设置

更大的值，则会提供更好的训练效果，但是会增加数据加载时间。

num_iteration_predict：一个整数，表示在预测中使用多少棵子树。默认为-1。小于等

于 0 表示使用模型的所有子树。该参数只用于 prediction 任务。

pred_early_stop：一个布尔值，表示是否使用早停来加速预测。默认为 False。如果为

True，则可能影响精度。

pred_early_stop_freq：一个整数，表示检查早停的频率。默认为 10

pred_early_stop_margin：一个浮点数，表示早停的边际阈值。默认为 0

use_missing：一个布尔值，表示是否使用缺失值功能。默认为 True 如果为 False 则禁

用缺失值功能。

zero_as_missing：一个布尔值，表示是否将所有的零（包括在 libsvm/sparse 矩阵中未

显示的值）都视为缺失值。默认为 False。如果为 False，则将 nan 视作缺失值。如果为 True，

则 np.nan 和零都将视作缺失值。

init_score_file：一个字符串，表示训练时的初始化分数文件的路径。默认为空字符串，

表示 train_data_file+”.init” （如果存在）

valid_init_score_file：一个字符串，表示验证时的初始化分数文件的路径。默认为空字

符串，表示 valid_data_file+”.init” （如果存在）。如果有多个（对应于多个验证集），则可以

用逗号, 来分隔。

目标函数的参数：

sigmoid：一个浮点数，用 sigmoid 函数的参数，默认为 0。它用于二分类任务和

lambdarank 任务。

alpha：一个浮点数，用于 Huber 损失函数和 Quantile regression ，默认值为 0。它用

于 huber 回归任务和 Quantile 回归任务。

fair_c：一个浮点数，用于 Fair 损失函数，默认值为 0 。它用于 fair 回归任务。

gaussian_eta：一个浮点数，用于控制高斯函数的宽度，默认值为 0 。它用于

regression_l1 回归任务和 huber 回归任务。

posson_max_delta_step：一个浮点数，用于 Poisson regression 的参数，默认值为 7 。

它用于 poisson 回归任务。

scale_pos_weight：一个浮点数，用于调整正样本的权重，默认值为 0 它用于二分类任

务。

boost_from_average：一个布尔值，指示是否将初始得分调整为平均值（它可以使得收

敛速度更快）。默认为 True。它用于回归任务。

is_unbalance 或者 unbalanced_set ：一个布尔值，指示训练数据是否均衡的。默认为

True。它用于二分类任务。

max_position：一个整数，指示将在这个 NDCG 位置优化。默认为 20 。它用于

lambdarank 任务。

label_gain：一个浮点数序列，给出了每个标签的增益。默认值为 0,1,3,7,15,….它用于

lambdarank 任务。

num_class 或者 num_classes ：一个整数，指示了多分类任务中的类别数量。默认为 1

它用于多分类任务。

reg_sqrt：一个布尔值，默认为 False。如果为 True，则拟合的结果为：√label。同时

预测的结果被自动转换为：pred2。它用于回归任务。

度量参数：

metric：一个字符串，指定了度量的指标，默认为：对于回归问题，使用 l2 ；对于二分

类问题，使用 binary_logloss；对于 lambdarank 问题，使用 ndcg。如果有多个度量指标，

则用逗号, 分隔。

‘l1’ 或者 mean_absolute_error 或者 mae 或者 regression_l1：表示绝对值损失

‘l2’ 或者 mean_squared_error 或者 mse 或者 regression_l2 或者 regression：表示

平方损失

‘l2_root’ 或者 root_mean_squared_error 或者 rmse：表示开方损失

‘quantile’：表示 Quantile 回归中的损失

‘mape’ 或者 ‘mean_absolute_percentage_error’ ：表示 MAPE 损失

‘huber’：表示 huber 损失

‘fair’：表示 fair 损失

‘poisson’：表示 poisson 回归的负对数似然

‘gamma’：表示 gamma 回归的负对数似然

‘gamma_deviance’：表示 gamma 回归的残差的方差

‘tweedie’：表示 Tweedie 回归的负对数似然

‘ndcg’：表示 NDCG

‘map’ 或者’mean_average_precision’：表示平均的精度

‘auc’：表示 AUC

‘binary_logloss’或者’binary’：表示二类分类中的对数损失函数

‘binary_error’：表示二类分类中的分类错误率

‘ multi_logloss’ 或者 ‘multiclass’ 或者 ‘softmax’ 或者 ‘multiclassova’ 或者

‘multiclass_ova’,或者’ova’或者 ‘ovr’：表示多类分类中的对数损失函数

‘multi_error’：表示多分类中的分类错误率

‘xentropy’或者’cross_entropy’：表示交叉熵

‘xentlambda’ 或者’cross_entropy_lambda’：表示 intensity 加权的交叉熵

‘kldiv’或者’kullback_leibler’：表示 KL 散度

metric_freq 或者’output_freq’：一个正式，表示每隔多少次输出一次度量结果。默认为

1。

train_metric 或者 training_metric 或者 is_training_metric：一个布尔值，默认为 False。

如果为 True，则在训练时就输出度量结果。

剩余122页未读，继续阅读

Emmitte

粉丝: 122

机器学习算法全方位解析

基于机器学习实现海上气田陆地终端液态产品产量预测与挖潜.pdf

基于机器学习的蛋白质相互作用位点预测研究进展.pdf

机器学习在淘宝的应用实例

基于机器学习方法的拟南芥基因组DNA复制时间预测研究.pdf

基于生物信息学及机器学习预测与 NAT10 相关的下游基.zip

基于人口腔上皮细胞颅颌面特异增强子序列机器学习预测IRF6位点唇腭裂致病突变.pdf

降水：沉淀

沉淀工艺中的絮凝剂智能控制技术.pptx

大数据环境下基于决策树算法的人才招聘系统优化研究.pdf

chemistry:化学计算算法

最新资源