def standRegres(xArr,yArr): xMat = mat(xArr); yMat = mat(yArr).T xTx = xMat.T*xMat#计算xTx if linalg.det(xTx) == 0.0:#判断行列式是否为0 print("This matrix is singular, cannot do inverse") return ws = xTx.I * (xMat.T*yMat)#计算回归系数 return ws from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines(): lineArr =[] curLine = line.strip().split('\t') for i in range(numFeat): lineArr.append(float(curLine[i])) dataMat.append(lineArr) labelMat.append(float(curLine[-1])) return dataMat,labelMat ##测试线性回归 xArr,yArr=loadDataSet('ex0.txt') xArr[0:2] ws=standRegres(xArr,yArr)#计算回归系数 xMat=mat(xArr) yMat=mat(yArr) #绘散点图 import matplotlib.pyplot as plt fig=plt.figure() ax=fig.add_subplot(111) ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])#.A转变为数组 xCopy=xMat.copy() xCopy.sort(0)#维度,行排序 yHat=xCopy*ws ax.plot(xCopy[:,1],yHat) plt.show #求预测值和真实值的相关系数 yHat1=xMat*ws corrcoef(yHat1.T,yMat) 如何处理ex0.txt里的文件不出现could not convert string to float: 'M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15'的报错
时间: 2023-06-18 20:03:10 浏览: 122
这个报错意味着你的代码无法将文件中的字符串转换为浮点数。这是因为在ex0.txt中,每行最后一个字段是一个字符串,而不是一个浮点数。你需要确保将该字段排除在读取数据的过程中。你可以修改loadDataSet函数,如下所示:
```python
def loadDataSet(fileName):
# general function to parse tab-delimited floats
dataMat = []
labelMat = []
fr = open(fileName)
for line in fr.readlines():
lineArr = line.strip().split('\t')
# 将最后一个字段排除在数据中
lineArr = [float(lineArr[i]) for i in range(len(lineArr)-1)]
dataMat.append(lineArr)
labelMat.append(float(lineArr[-1]))
return dataMat, labelMat
```
这样,你就可以成功读取数据并进行回归分析了。
相关问题
def standRegres(xArr,yArr): xMat = mat(xArr); yMat = mat(yArr).T xTx = xMat.TxMat#计算xTx if linalg.det(xTx) == 0.0:#判断行列式是否为0 print("This matrix is singular, cannot do inverse") return ws = xTx.I * (xMat.TyMat)#计算回归系数 return ws from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines(): lineArr =[] curLine = line.strip().split('\t') for i in range(numFeat): lineArr.append(float(curLine[i])) dataMat.append(lineArr) labelMat.append(float(curLine[-1])) return dataMat,labelMat ##测试线性回归 xArr,yArr=loadDataSet('ex0.txt') xArr[0:2] ws=standRegres(xArr,yArr)#计算回归系数 xMat=mat(xArr) yMat=mat(yArr) #绘散点图 import matplotlib.pyplot as plt fig=plt.figure() ax=fig.add_subplot(111) ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])#.A转变为数组 xCopy=xMat.copy() xCopy.sort(0)#维度,行排序 yHat=xCopyws ax.plot(xCopy[:,1],yHat) plt.show #求预测值和真实值的相关系数 yHat1=xMatws corrcoef(yHat1.T,yMat) 如何处理ex0.txt里的文件不出现could not convert string to float: 'M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15'的报错
您可以尝试使用 `open()` 函数打开文件时指定文件的编码方式,例如:
```python
fr = open(fileName, encoding='utf-8')
```
如果您不确定文件的编码方式,可以使用 `chardet` 库来自动检测文件编码方式,例如:
```python
import chardet
with open(fileName, 'rb') as f:
result = chardet.detect(f.read())
fr = open(fileName, encoding=result['encoding'])
```
这样可以避免出现无法将字符串转换为浮点数的错误。
#编写误差计算函数 def error(xArr, yArr, yHat): return sum((yArr - yHat) ** 2) # 训练LWLR模型并计算误差 def trainLWLR(xArr, yArr, k): m = shape(xArr)[0] yHat = zeros(m) for i in range(m): yHat[i] = lwlr(xArr[i], xArr, yArr, k) return error(xArr, yArr, yHat) # 加载数据 xArr, yArr = loadDataSet('abalone.txt') # 比较不同k值下,模型在训练样本上的误差值 k_list = [0.1, 1, 10] for k in k_list: print('k={}'.format(k)) print('train error: {:.2f}'.format(trainLWLR(xArr, yArr, k)))
这段代码是用来训练LWLR模型并计算误差的。具体来说,它包括以下几个步骤:
1. 定义误差计算函数error(xArr, yArr, yHat),其中xArr和yArr是训练数据集,yHat是模型预测的输出结果。该函数返回预测值和实际值之间的平方误差和。
2. 定义训练LWLR模型的函数trainLWLR(xArr, yArr, k),其中xArr和yArr是训练数据集,k是LWLR模型中的核函数带宽参数。该函数首先计算出训练数据集中每个样本的预测值yHat,然后调用误差计算函数error来计算模型在训练样本上的误差值。
3. 加载数据集,其中xArr是自变量,yArr是因变量。
4. 对于不同的k值,分别调用trainLWLR函数来训练LWLR模型,并计算模型在训练样本上的误差值。最终输出每个k值下的误差值。
LWLR(Locally Weighted Linear Regression)是一种基于局部加权的线性回归算法,它的核心思想是对每个预测点附近的训练数据赋予不同的权重,从而使得预测点周围的数据对预测结果的影响更大。
阅读全文