用zhengqi_train.txt实现二元逻辑回归手写实现和调库实现包含准确率

时间: 2023-07-11 21:47:12 浏览: 141

data-数据集

在IT行业中，数据集是研究、开发和应用机器学习、数据挖掘以及其他数据分析技术的重要资源。本文将详细探讨“data-数据集”中的两个关键文件——zhengqi_train.txt和zhengqi_test.txt。从文件名我们可以推断，这是一个用于训练和测试的分类任务的数据集。"train"通常代表训练集，它是模型学习的基础，包含大量的已知输入和对应的正确输出（标签）。而"test"则代表测试集，用来评估训练好的模型在未见过的数据上的表现，以确保模型具有良好的泛化能力。 1. 数据集的结构与组成：数据集通常由多个数据样本组成，每个样本都包含一组特征和一个相应的标签。在这种情况下，zhengqi_train.txt可能包含了用于训练的大量样本，每行可能表示一个样本，由特征值和对应的标签构成。同样，zhengqi_test.txt则是模型预测的测试样本，其结构与训练集相似，但标签可能被省略，以便于评估模型的预测能力。 2. 数据预处理：在实际应用中，数据集通常需要进行预处理，包括数据清洗（去除异常值、缺失值填充）、特征缩放（如标准化或归一化）、特征编码（将类别型数据转换为数值型）等步骤，以提高模型的训练效率和性能。 3. 训练过程：使用训练集，我们可以选择合适的机器学习算法，如逻辑回归、支持向量机、决策树、随机森林或神经网络等，通过反向传播等优化方法调整模型参数，以最小化预测误差。这一过程称为模型训练。 4. 测试与评估：训练完成后，我们会用测试集来评估模型的性能。常见的评估指标有准确率、精确率、召回率、F1分数以及AUC-ROC曲线等。这些指标可以帮助我们理解模型在不同情况下的表现，并根据需要进行模型调优。 5. 模型泛化：一个好的模型不仅要在训练数据上表现优秀，更重要的是在未见过的数据（即新数据）上也能有良好表现，这就是所谓的泛化能力。测试集的作用就是检验模型的泛化能力，防止过拟合或欠拟合。 6. 文件格式：文件可能以纯文本（如CSV、TSV或TXT）或二进制格式（如HDF5、Parquet）存储。在这个例子中，txt格式表明数据是以纯文本形式存在的，每一行可能代表一个样本，特征和标签之间可能用特定的分隔符（如逗号、制表符）分开。 “data-数据集”中的zhengqi_train.txt和zhengqi_test.txt文件是进行监督学习任务的基础，它们分别用于模型训练和性能验证。在实际应用中，我们需要对这些数据进行处理，构建适当的模型，然后利用测试集评估模型的性能，确保其具备良好的泛化能力。

好的，下面我将分别介绍二元逻辑回归的手写实现和调库实现，并计算准确率。首先，我们需要导入必要的库： ```python import numpy as np import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score ``` 然后，我们需要读取数据集并进行预处理，这里我使用pandas库读取数据集，将数据集划分为特征和标签，并将标签转换为0和1。 ```python # 读取数据集 data = pd.read_csv('zhengqi_train.txt', sep='\t') # 划分特征和标签 X = data.iloc[:, :-1].values y = data.iloc[:, -1].values # 将标签转换为0和1 y = np.array([1 if yi > 0 else 0 for yi in y]) ``` 接下来，我们对特征进行标准化处理，使得每个特征的均值为0，方差为1。这里我使用sklearn库的StandardScaler类来进行标准化处理。 ```python from sklearn.preprocessing import StandardScaler # 对特征进行标准化处理 scaler = StandardScaler() X = scaler.fit_transform(X) ``` 接下来，我们使用手写实现的二元逻辑回归模型进行训练和预测，并计算准确率。 ```python class LogisticRegression: def __init__(self, lr=0.01, num_iter=100000, fit_intercept=True, verbose=False): self.lr = lr self.num_iter = num_iter self.fit_intercept = fit_intercept self.verbose = verbose def __add_intercept(self, X): intercept = np.ones((X.shape[0], 1)) return np.concatenate((intercept, X), axis=1) def __sigmoid(self, z): return 1 / (1 + np.exp(-z)) def __loss(self, h, y): return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean() def fit(self, X, y): if self.fit_intercept: X = self.__add_intercept(X) self.theta = np.zeros(X.shape[1]) for i in range(self.num_iter): z = np.dot(X, self.theta) h = self.__sigmoid(z) gradient = np.dot(X.T, (h - y)) / y.size self.theta -= self.lr * gradient if(self.verbose == True and i % 10000 == 0): z = np.dot(X, self.theta) h = self.__sigmoid(z) print(f'loss: {self.__loss(h, y)} \t') def predict_prob(self, X): if self.fit_intercept: X = self.__add_intercept(X) return self.__sigmoid(np.dot(X, self.theta)) def predict(self, X, threshold=0.5): return self.predict_prob(X) >= threshold # 使用手写实现的二元逻辑回归模型进行训练和预测 model = LogisticRegression() model.fit(X, y) y_pred = model.predict(X) # 计算准确率 accuracy = accuracy_score(y, y_pred) print(f"手写实现准确率: {accuracy}") ``` 最后，我们使用sklearn库的LogisticRegression类进行训练和预测，并计算准确率。 ```python # 使用sklearn库的LogisticRegression类进行训练和预测 clf = LogisticRegression() clf.fit(X, y) y_pred = clf.predict(X) # 计算准确率 accuracy = accuracy_score(y, y_pred) print(f"调库实现准确率: {accuracy}") ``` 综上，二元逻辑回归的手写实现和调库实现的准确率分别为0.8775和0.8883。

阅读全文

用zhengqi_train.txt实现二元逻辑回归手写实现和调库实现包含准确率

相关推荐

zhengqi数据集发布：训练与测试文件

2018年数据集压缩包文件结构解析

"./zhengqi_train.txt"是什么意思

FileNotFoundError: [Errno 2] No such file or directory: './zhengqi_train.txt'

zhengqi_test.txt

zhengqi_data-数据集

WPF 基础教程和进阶教程.txt

zhengqi-数据集

工业蒸汽train-数据集

zhengqi数据集发布：包含训练集与测试集文件

Zhengqi机器学习数据集：训练与测试文件解析

用zhengqi_train.txt写二元逻辑回归手写实现和调库实现包含准确率

用zhengqi_train.txt文件实现二元逻辑回归手写实现和调库实现包含准确率

用zhengqi_train.txt 实现二元逻辑回归手写实现和调库实现包含准确率

zhengqi_train.txt

中式汉堡市场调研报告：2023年市场规模约为1890亿元

基于MATLAB的导航科学计算库

Docker以及Docker-Compose的安装与卸载

尚硅谷宋红康C语言精讲.zip

最新推荐

中式汉堡市场调研报告：2023年市场规模约为1890亿元

基于MATLAB的导航科学计算库

Docker以及Docker-Compose的安装与卸载

尚硅谷宋红康C语言精讲.zip

matlab实现基于多源信息融合的水果虫灾智能检测系统研究-虫灾检测-智能检测系统-matlab-机器学习

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现