Python机器学习实战教程：回归_机器学习入门回归案例

36 浏览量更新于2023-04-29 评论收藏 473KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Python机器学习实战教程：回归机器学习实战教程：回归

引言和数据

欢迎阅读 Python 机器学习系列教程的回归部分。这里，你应该已经安装了 Scikit-Learn。如果没有，安装它，以及 Pandas

和 Matplotlib。

pip install numpy

pip install scipy

pip install scikit-learn

pip install matplotlib

pip install pandas

除了这些教程范围的导入之外，我们还要在这里使用 Quandl：

pip install quandl

首先，对于我们将其用于机器学习而言，什么是回归呢？它的目标是接受连续数据，寻找最适合数据的方程，并能够对特定值

进行预测。使用简单的线性回归，你可以仅仅通过创建最佳拟合直线，来实现它。

这里，我们可以使用这条直线的方程，来预测未来的价格，其中日期是 x 轴。

回归的热门用法是预测股票价格。由于我们会考虑价格随时间的流动，并且使用连续的数据集，尝试预测未来的下一个流动价

格，所以可以这样做。

回归是监督的机器学习的一种，也就是说，科学家向其展示特征，之后向其展示正确答案来教会机器。一旦教会了机器，科学

家就能够使用一些不可见的数据来测试机器，其中科学家知道正确答案，但是机器不知道。机器的答案会与已知答案对比，并

且度量机器的准确率。如果准确率足够高，科学家就会考虑将其算法用于真实世界。

由于回归广泛用于股票价格，我们可以使用一个示例从这里开始。最开始，我们需要数据。有时候数据易于获取，有时你需要

出去并亲自收集。我们这里，我们至少能够以简单的股票价格和成交量信息开始，它们来自 Quandl。我们会抓取 Google 的

股票价格，它的代码是GOOGL：

import

pandas as pd

import quandl

df = quandl.get("WIKI/GOOGL")

print(df.head())

注意：写这篇文章的时候，Quandl 的模块使用大写 Q 引用，但现在是小写 q，所以import quandl。

到这里，我们拥有：

Open High Low Close Volume Ex-Dividend \

Date

2004-08-19 100.00 104.06 95.96 100.34 44659000 0

2004-08-20 101.01 109.08 100.50 108.31 22834300 0

2004-08-23 110.75 113.48 109.05 109.40 18256100 0

2004-08-24 111.24 111.60 103.57 104.87 15247300 0

2004-08-25 104.96 108.00 103.88 106.00 9188600 0

Split Ratio Adj. Open Adj. High Adj. Low Adj. Close \

Date

2004-08-19 1 50.000 52.03 47.980 50.170

2004-08-20 1 50.505 54.54 50.250 54.155

2004-08-23 1 55.375 56.74 54.525 54.700

2004-08-24 1 55.620 55.80 51.785 52.435

2004-08-25 1 52.480 54.00 51.940 53.000

Adj. Volume

Date

2004-08-19 44659000

2004-08-20 22834300

2004-08-23 18256100

2004-08-24 15247300

2004-08-25 9188600

这是个非常好的开始，我们拥有了数据，但是有点多了。

这里，我们有很多列，许多都是多余的，还有些不怎么变化。我们可以看到，常规和修正（Adj）的列是重复的。修正的列看

起来更加理想。常规的列是当天的价格，但是股票有个叫做分拆的东西，其中一股突然就变成了两股，所以一股的价格要减

半，但是公司的价值不变。修正的列为股票分拆而调整，这使得它们对于分析更加可靠。

所以，让我们继续，削减原始的 DataFrame。

df = df[['Adj. Open', 'Adj. High', 'Adj. Low', 'Adj. Close', 'Adj. Volume']]

现在我们拥有了修正的列，以及成交量。有一些东西需要注意。许多人谈论或者听说机器学习，就像无中生有的黑魔法。机器

学习可以突出已有的数据，但是数据需要先存在。你需要有意义的数据。所以你怎么知道是否有意义呢？我的最佳建议就是，

仅仅简化你的大脑。考虑一下，历史价格会决定未来价格吗？有些人这么认为，但是久而久之这被证实是错误的。但是历史规

律呢？突出的时候会有意义（机器学习会有所帮助），但是还是太弱了。那么，价格变化和成交量随时间的关系，再加上历史

规律呢？可能更好一点。所以，你已经能够看到，并不是数据越多越好，而是我们需要使用有用处的数据。同时，原始数据应

该做一些转换。

考虑每日波动，例如最高价减最低价的百分比差值如何？每日的百分比变化又如何呢？你觉得Open, High, Low, Close这种简

单数据，还是Close, Spread/Volatility, %change daily更好？我觉得后者更好一点。前者都是非常相似的数据点，后者基于前

者的统一数据创建，但是带有更加有价值的信息。

所以，并不是你拥有的所有数据都是有用的，并且有时你需要对你的数据执行进一步的操作，并使其更加有价值，之后才能提

供给机器学习算法。让我们继续并转换我们的数据：

df['HL_PCT'] = (df['Adj. High'] - df['Adj. Low']) / df['Adj. Close'] * 100.0

这会创建一个新的列，它是基于收盘价的百分比极差，这是我们对于波动的粗糙度量。下面，我们会计算每日百分比变化：

df['PCT_change'] = (df['Adj. Close'] - df['Adj. Open']) / df['Adj. Open'] *

100.0

现在我们会定义一个新的 DataFrame：

df = df[['Adj. Close', 'HL_PCT', 'PCT_change', 'Adj. Volume']]

print(df.head())

Adj. Close HL_PCT PCT_change Adj. Volume

Date

2004-08-19 50.170 8.072553 0.340000 44659000

2004-08-20 54.155 7.921706 7.227007 22834300

2004-08-23 54.700 4.049360 -1.218962 18256100

2004-08-24 52.435 7.657099 -5.726357 15247300

2004-08-25 53.000 3.886792 0.990854 9188600

特征和标签

基于上一篇机器学习回归教程，我们将要对我们的股票价格数据执行回归。目前的代码：

import quandl

import pandas as pd

df = quandl.get("WIKI/GOOGL")

df = df[['Adj. Open', 'Adj. High', 'Adj. Low', 'Adj. Close', 'Adj. Volume']]

df['HL_PCT'] = (df['Adj. High'] - df['Adj. Low']) / df['Adj. Close'] * 100.0

df['PCT_change'] = (df['Adj. Close'] - df['Adj. Open']) / df['Adj. Open'] *

100.0

df = df[['Adj. Close', 'HL_PCT', 'PCT_change', 'Adj. Volume']]

print(df.head())

这里我们已经获取了数据，判断出有价值的数据，并通过操作创建了一些。我们现在已经准备好使用回归开始机器学习的过

程。首先，我们需要一些更多的导入。所有的导入是：

import quandl, math

import numpy as np

import pandas as pd

from sklearn import preprocessing, cross_validation, svm

from sklearn.linear_model import LinearRegression

我们会使用numpy模块来将数据转换为 NumPy 数组，它是 Sklearn 的预期。我们在用到preprocessing和cross_validation

时，会深入谈论他们，但是预处理是用于在机器学习之前，对数据清洗和缩放的模块。交叉验证在测试阶段使用。最后，我们

也从 Sklearn 导入了LinearRegression算法，以及svm。它们用作我们的机器学习算法来展示结果。

这里，我们已经获取了我们认为有用的数据。真实的机器学习如何工作呢？使用监督式学习，你需要特征和标签。特征就是描

述性属性，标签就是你尝试预测的结果。另一个常见的回归示例就是尝试为某个人预测保险的保费。保险公司会收集你的年

龄、驾驶违规行为、公共犯罪记录，以及你的信用评分。公司会使用老客户，获取数据，并得出应该给客户的“理想保费”，或

者如果他们觉得有利可图的话，他们会使用实际使用的客户。

所以，对于训练机器学习分类器来说，特征是客户属性，标签是和这些属性相关的保费。

我们这里，什么是特征和标签呢？我们尝试预测价格，所以价格就是标签？如果这样，什么是特征呢？对于预测我们的价格来

说，我们的标签，就是我们打算预测的东西，实际上是未来价格。这样，我们的特征实际上是：当前价格、HL 百分比和百分

比变化。标签价格是未来某个点的价格。让我们继续添加新的行：

forecast_col = 'Adj. Close'

df.fillna(value=-99999, inplace=True)

forecast_out = int(math.ceil(0.01 * len(df)))

这里，我们定义了预测列，之后我们将任何 NaN 数据填充为 -99999。对于如何处理缺失数据，你有一些选择，你不能仅仅将

NaN（不是数值）数据点传给机器学习分类西，你需要处理它。一个主流选项就是将缺失值填充为 -99999。在许多机器学习

分类器中，会将其是被为离群点。你也可以仅仅丢弃包含缺失值的所有特征或标签，但是这样你可能会丢掉大量的数据。

真实世界中，许多数据集都很混乱。多数股价或成交量数据都很干净，很少有缺失数据，但是许多数据集会有大量缺失数据。

我见过一些数据集，大量的行含有缺失数据。你并不一定想要失去所有不错的数据，如果你的样例数据有一些缺失，你可能会

猜测真实世界的用例也有一些缺失。你需要训练、测试并依赖相同数据，以及数据的特征。

最后，我们定义我们需要预测的东西。许多情况下，就像尝试预测客户的保费的案例中，你仅仅需要一个数字，但是对于预测

来说，你需要预测指定数量的数据点。我们假设我们打算预测数据集整个长度的 1%。因此，如果我们的数据是 100 天的股票

价格，我们需要能够预测未来一天的价格。选择你想要的那个。如果你只是尝试预测明天的价格，你应该选取一天之后的数

据，而且也只能一天之后的数据。如果你打算预测 10 天，我们可以为每一天生成一个预测。

我们这里，我们决定了，特征是一系列当前值，标签是未来的价格，其中未来是数据集整个长度的 1%。我们假设所有当前列

都是我们的特征，所以我们使用一个简单的 Pnadas 操作添加一个新的列：

df['label'] = df[forecast_col].shift(-forecast_out)

现在我们拥有了数据，包含特征和标签。下面我们在实际运行任何东西之前，我们需要做一些预处理和最终步骤，我们在下一

篇教程会关注。

训练和测试

欢迎阅读 Python 机器学习系列教程的第四部分。在上一个教程中，我们获取了初始数据，按照我们的喜好操作和转换数据，

之后我们定义了我们的特征。Scikit 不需要处理 Pandas 和 DataFrame，我出于自己的喜好而处理它，因为它快并且高效。反

之，Sklearn 实际上需要 NumPy 数组。Pandas 的 DataFrame 可以轻易转换为 NumPy 数组，所以事情就是这样的。

目前为止我们的代码：

import quandl, math

import numpy as np

import pandas as pd

from sklearn import preprocessing, cross_validation, svm

from sklearn.linear_model import LinearRegression

df = quandl.get("WIKI/GOOGL")

print(df.head())

#print(df.tail())

df = df[['Adj. Open', 'Adj. High', 'Adj. Low', 'Adj. Close', 'Adj. Volume']]

df['HL_PCT'] = (df['Adj. High'] - df['Adj. Low']) / df['Adj. Close'] * 100.0

df['PCT_change'] = (df['Adj. Close'] - df['Adj. Open']) / df['Adj. Open'] *

100.0

df = df[['Adj. Close', 'HL_PCT', 'PCT_change', 'Adj. Volume']]

print(df.head())

forecast_col = 'Adj. Close'

df.fillna(value=-99999, inplace=True)

forecast_out = int(math.ceil(0.01 * len(df)))

df['label'] = df[forecast_col].shift(-forecast_out)

我们之后要丢弃所有仍旧是 NaN 的信息。

df.dropna(inplace=True)

对于机器学习来说，通常要定义X（大写）作为特征，和y（小写）作为对于特征的标签。这样，我们可以定义我们的特征和

标签，像这样：

X = np.array(df.drop(['label'], 1))

y = np.array(df['label'])

上面，我们所做的就是定义X（特征），是我们整个的 DataFrame，除了label列，并转换为 NumPy 数组。我们使用drop方

法，可以用于 DataFrame，它返回一个新的 DataFrame。下面，我们定义我们的y变量，它是我们的标签，仅仅是

DataFrame 的标签列，并转换为 NumPy 数组。

现在我们就能告一段落，转向训练和测试了，但是我们打算做一些预处理。通常，你希望你的特征在 -1 到 1 的范围内。这可

能不起作用，但是通常会加速处理过程，并有助于准确性。因为大家都使用这个范围，它包含在了 Sklearn 的preprocessing

模块中。为了使用它，你需要对你的X变量调用preprocessing.scale。

X = preprocessing.scale(X)

下面，创建标签y：

y = np.array(df['label'])

现在就是训练和测试的时候了。方式就是选取 75% 的数据用于训练机器学习分类器。之后选取剩下的 25% 的数据用于测试分

类器。由于这是你的样例数据，你应该拥有特征和一直标签。因此，如果你测试后 25% 的数据，你就会得到一种准确度和可

靠性，叫做置信度。有许多方式可以实现它，但是，最好的方式可能就是使用内建的cross_validation，因为它也会为你打乱

数据。代码是这样：

X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y,

test_size=0.2)

这里的返回值是特征的训练集、测试集、标签的训练集和测试集。现在，我们已经定义好了分类器。Sklearn 提供了许多通用

的分类器，有一些可以用于回归。我们会在这个例子中展示一些，但是现在，让我们使用svm包中的支持向量回归。

clf = svm.SVR()

我们这里仅仅使用默认选项来使事情简单，但是你可以在sklearn.svm.SVR的文档中了解更多。

一旦你定义了分类器，你就可以训练它了。在 Sklearn 中，使用fit来训练。

clf.fit(X_train, y_train)1

这里，我们拟合了我们的训练特征和训练标签。

我们的分类器现在训练完毕。这非常简单，现在我们可以测试了。

confidence = clf.score(X_test, y_test)

加载测试，之后：

print(confidence)

# 0.960075071072

所以这里，我们可以看到准确率几乎是 96%。没有什么可说的，让我们尝试另一个分类器，这一次使用LinearRegression：

clf = LinearRegression()

# 0.963311624499

更好一点，但是基本一样。所以作为科学家，我们如何知道，选择哪个算法呢？不久，你会熟悉什么在多数情况下都工作，什

么不工作。你可以从 Scikit 的站点上查看选择正确的评估工具。这有助于你浏览一些基本的选项。如果你询问搞机器学习的

人，它完全是试验和出错。你会尝试大量的算法并且仅仅选取最好的那个。要注意的另一件事情就是，一些算法必须线性运

行，其它的不是。不要把线性回归和线性运行搞混了。所以这些意味着什么呢？一些机器学习算法会一次处理一步，没有多线

程，其它的使用多线程，并且可以利用你机器上的多核。你可以深入了解每个算法，来弄清楚哪个可以多线程，或者你可以阅

读文档，并查看n_jobs参数。如果拥有n_jobs，你就可以让算法通过多线程来获取更高的性能。如果没有，就很不走运了。所

以，如果你处理大量的数据，或者需要处理中等规模的数据，但是需要很高的速度，你就可能想要线程加速。让我们看看这两

个算法。

访问sklearn.svm.SVR的文档，并查看参数，看到n_jobs了嘛？反正我没看到，所以它就不能使用线程。你可能会看到，在我

们的小型数据集上，差异不大。但是，假设数据集由 20MB，差异就很明显。然后，我们查看LinearRegression算法，看到

n_jobs了嘛？当然，所以这里，你可以指定你希望多少线程。如果你传入-1，算法会使用所有可用的线程。

这样：

clf = LinearRegression(n_jobs=-1)

就够了。虽然我让你做了很少的事情（查看文档），让我给你说个事实吧，仅仅由于机器学习算法使用默认参数工作，不代表

你可以忽略它们。例如，让我们回顾svm.SVR。SVR 是支持向量回归，在执行机器学习时，它是一种架构。我非常鼓励那些

有兴趣学习更多的人，去研究这个主题，以及向比我学历更高的人学习基础。我会尽力把东西解释得更简单，但是我并不是专

家。回到刚才的话题，svm.SVR有一个参数叫做kernel。这个是什么呢？核就相当于你的数据的转换。这使得处理过程更加迅

速。在svm.SVR的例子中，默认值是rbf，这是核的一个类型，你有一些选择。查看文档，你可以选择'linear', 'poly', 'rbf',

剩余26页未读，继续阅读

weixin_38698433

粉丝: 4
资源: 969

会员权益专享

Python机器学习实战教程：回归

评论0

会员权益专享

最新资源

Python机器学习实战教程：回归

评论0

python机器学习房价预测实战案例

机器学习实战项目：工业蒸汽量预测

基于python实现的机器学习预测系统汇总+GUI界面(贝叶斯网络、马尔科夫模型、线性回归、岭回归多项式回归、决策树等).zip

python机器学习实战案例

python数据分析实战教程

python3机器学习实战

给个Python学习机器学习的学习路径

python 机器学习资料

python机器学习 学习资料

机器学习实战：基于scikit-learn和tensorflow

python金融大数据风控建模实战：基于机器学习pdf

python机器学习 教案

python机器学习学习路线

机器学习实战 python3 pdf

python预测粮价_Python机器学习实战项目--预测红酒质量（超详细）

机器学习python实战

python机器学习手册

机器学习算法与python实战

深入浅出python机器学习[pdf]

陆家嘴学堂邹博 python机器学习与深度学习课件

会员权益专享

最新资源

python机器学习学习资料

python机器学习教案