print('=' * 20, '已筛选出重要列', '=' * 20, data2_new, '\n')优化代码

时间: 2024-01-13 08:02:52 浏览: 39
可以将重复使用的字符串 `'=' * 20` 提取出来,以便代码更简洁,可以尝试如下方式: ```python separator = '=' * 20 print(f"{separator}已筛选出重要列{separator}\n{data2_new}\n") ``` 这样,每次需要打印分隔符时,只需要使用 `separator` 变量即可,代码也更易于维护。
相关问题

plt.boxplot(x=train_data.values,labels=train_data.columns) 3 plt.hlines([-7.5, 7.5], 0, 40, colors='r') 4 plt.show() 5 6 train_data = train_data[train_data['V9']>-7.5] 7 train_data.describe() 8 9 from sklearn import preprocessing 10 11 features_columns = [col for col in train_data.columns if col not in ['target']] 12 13 min_max_scaler = preprocessing.MinMaxScaler() 14 15 min_max_scaler = min_max_scaler.fit(train_data[features_columns]) 16 17 train_data_scaler = min_max_scaler.transform(train_data[features_columns]) 18 test_data_scaler = min_max_scaler.transform(test_data[features_columns]) 19 20 train_data_scaler = pd.DataFrame(train_data_scaler) 21 train_data_scaler.columns = features_columns 22 23 test_data_scaler = pd.DataFrame(test_data_scaler) 24 test_data_scaler.columns = features_columns 25 26 train_data_scaler['target'] = train_data['target'] 27 28 train_data 29 30 mcorr=mcorr.abs() 31 numerical_corr=mcorr[mcorr['target']>0.1]['target'] 32 print(numerical_corr.sort_values(ascending=False))解释每一行代码的意思

好的,我来解释每一行代码的意思: 1. `plt.boxplot(x=train_data.values,labels=train_data.columns)`: 绘制箱线图,用于检测是否存在异常值; 2. `plt.hlines([-7.5, 7.5], 0, 40, colors='r')`: 在箱线图上绘制两条水平线,用于标记异常值的阈值; 3. `train_data = train_data[train_data['V9']>-7.5]`: 去除训练数据中V9列中小于-7.5的异常值; 4. `train_data.describe()`: 输出训练数据的统计信息,包括均值、标准差、最小值、最大值等; 5. `from sklearn import preprocessing`: 导入preprocessing模块,用于数据预处理; 6. `features_columns = [col for col in train_data.columns if col not in ['target']]`: 提取除了目标变量之外的特征列,存储在features_columns变量中; 7. `min_max_scaler = preprocessing.MinMaxScaler()`: 创建MinMaxScaler对象,用于对特征数据进行归一化处理; 8. `min_max_scaler = min_max_scaler.fit(train_data[features_columns])`: 对MinMaxScaler对象进行拟合,计算出归一化所需的最大值和最小值; 9. `train_data_scaler = min_max_scaler.transform(train_data[features_columns])`: 对训练数据的特征列进行归一化处理; 10. `test_data_scaler = min_max_scaler.transform(test_data[features_columns])`: 对测试数据的特征列进行归一化处理; 11. `train_data_scaler = pd.DataFrame(train_data_scaler)`: 将归一化后的训练数据特征列转换成DataFrame格式; 12. `train_data_scaler.columns = features_columns`: 给训练数据的特征列添加列名; 13. `test_data_scaler = pd.DataFrame(test_data_scaler)`: 将归一化后的测试数据特征列转换成DataFrame格式; 14. `test_data_scaler.columns = features_columns`: 给测试数据的特征列添加列名; 15. `train_data_scaler['target'] = train_data['target']`: 将训练数据的目标变量添加到归一化后的训练数据中; 16. `train_data`: 输出训练数据的内容; 17. `mcorr=mcorr.abs()`: 计算特征之间的相关性矩阵,并对矩阵中的元素取绝对值; 18. `numerical_corr=mcorr[mcorr['target']>0.1]['target']`: 筛选出与目标变量相关性大于0.1的特征; 19. `print(numerical_corr.sort_values(ascending=False))`: 输出筛选后的特征相关性,按照相关性大小降序排列; 20. `index0 = numerical_corr.sort_values(ascending=False).index`: 获取筛选后的特征名字,并存储在index0变量中; 21. `print(train_data_scaler[index0].corr('spearman'))`: 计算筛选后的特征之间的Spearman相关系数; 22. `new_numerical=['V0', 'V2', 'V3', 'V4', 'V5', 'V6', 'V10','V11', 'V13', 'V15', 'V16', 'V18', 'V19', 'V20', 'V22','V24','V30', 'V31', 'V37']`: 将相关性较高的特征名字存储在new_numerical变量中; 23. `X=np.matrix(train_data_scaler[new_numerical])`: 将训练数据中的new_numerical列转换为矩阵格式,存储在X变量中; 24. `VIF_list=[variance_inflation_factor(X, i) for i in range(X.shape[1])]`: 计算new_numerical列之间的VIF值,存储在VIF_list变量中; 25. `VIF_list`: 输出VIF_list变量的值; 26. `pca = PCA(n_components=0.9)`: 创建PCA对象,并设置保留90%的方差; 27. `new_train_pca_90 = pca.fit_transform(train_data_scaler.iloc[:,0:-1])`: 对训练数据进行PCA降维,并保留90%的方差; 28. `new_test_pca_90 = pca.transform(test_data_scaler)`: 对测试数据进行PCA降维,并保留90%的方差; 29. `new_train_pca_90 = pd.DataFrame(new_train_pca_90)`: 将降维后的训练数据转换为DataFrame格式; 30. `new_test_pca_90 = pd.DataFrame(new_test_pca_90)`: 将降维后的测试数据转换为DataFrame格式; 31. `new_train_pca_90['target'] = train_data_scaler['target']`: 将训练数据的目标变量添加到降维后的训练数据中; 32. `new_train_pca_90.describe()`: 输出降维后的训练数据的统计信息,包括均值、标准差、最小值、最大值等。

plt.boxplot(x=train_data.values,labels=train_data.columns) 3 plt.hlines([-7.5, 7.5], 0, 40, colors='r') 4 plt.show() 5 6 train_data = train_data[train_data['V9']>-7.5] 7 train_data.describe() 8 9 from sklearn import preprocessing 10 11 features_columns = [col for col in train_data.columns if col not in ['target']] 12 13 min_max_scaler = preprocessing.MinMaxScaler() 14 15 min_max_scaler = min_max_scaler.fit(train_data[features_columns]) 16 17 train_data_scaler = min_max_scaler.transform(train_data[features_columns]) 18 test_data_scaler = min_max_scaler.transform(test_data[features_columns]) 19 20 train_data_scaler = pd.DataFrame(train_data_scaler) 21 train_data_scaler.columns = features_columns 22 23 test_data_scaler = pd.DataFrame(test_data_scaler) 24 test_data_scaler.columns = features_columns 25 26 train_data_scaler['target'] = train_data['target'] 27 28 train_data 29 30 mcorr=mcorr.abs() 31 numerical_corr=mcorr[mcorr['target']>0.1]['target'] 32 print(numerical_corr.sort_values(ascending=False)) 33 34 index0 = numerical_corr.sort_values(ascending=False).index 35 print(train_data_scaler[index0].corr('spearman')) 36 37 new_numerical=['V0', 'V2', 'V3', 'V4', 'V5', 'V6', 'V10','V11', 38 'V13', 'V15', 'V16', 'V18', 'V19', 'V20', 'V22','V24','V30', 'V31', 'V37'] 39 X=np.matrix(train_data_scaler[new_numerical]) 40 VIF_list=[variance_inflation_factor(X, i) for i in range(X.shape[1])] 41 VIF_list 42 43 44 pca = PCA(n_components=0.9) 45 new_train_pca_90 = pca.fit_transform(train_data_scaler.iloc[:,0:-1]) 46 new_test_pca_90 = pca.transform(test_data_scaler) 47 new_train_pca_90 = pd.DataFrame(new_train_pca_90) 48 new_test_pca_90 = pd.DataFrame(new_test_pca_90) 49 new_train_pca_90['target'] = train_data_scaler['target'] 50 new_train_pca_90.describe()

这段代码涉及到数据预处理和特征工程的内容。具体来说,它做了以下几件事情: 1. 使用箱线图和阈值来去除异常值; 2. 对特征进行归一化处理; 3. 计算特征之间的相关性,并筛选出与目标变量相关性大于0.1的特征; 4. 使用方差膨胀因子(VIF)来检查特征之间的多重共线性; 5. 使用主成分分析(PCA)来降维,使得保留90%的方差。

相关推荐

企业所得税是对我国境内的企业或其他取得收入的组织的生产经营所得、其他所得而征收的一种所得税。缴纳企业所得税在组织财政收入、调控经济、监督管理、维护国家税收权益等方面具有重要的作用。现采集了某企业所得税数据“income_tax.csv”,主要字段说明如下表。 请基于“income_tax.csv”数据编写Python代码完成下列操作。 (1)读取“income_tax.csv”数据,设置数据的索引为year(年份),存储至名为“data”的数据框中。(2分) (2)提取字段“x1”到字段“x10”的所有数据作为特征数据,存为“new_data”,基于皮尔逊相关系数计算每个特征之间的相关系数,将数值保留2位小数,并打印输出查看相关系数矩阵。(4分) (3)导入Lasso回归函数进行特征筛选,λ参数值为10000000000,存为“lasso”,输出查看x1-x10特征数据与y的相关系数值,并找出相关系数为非0的特征,合并字段“y”(企业所得税),结果存为“new_reg_data”。(6分) (4)计算new_reg_data变量的平均数存为“data_mean”,计算new_reg_data变量的标准差存为“data_std”,基于标准差标准化计算公式对new_reg_data数据进行处理,结果存为“new_data_std”。(4分) (5)提取new_data_std数据中的特征数据和标签数据,分别存为“x”和“y”,导入LinearSVR函数构建SVR模型(random_state参数值为123),存为“svr”,输入x和y进行模型训练,并预测2004年-2015年的企业所得税(需转换为原数据)。(6分) (6)进行模型评估,计算并打印模型的R方值。(3分)

最新推荐

recommend-type

操作系统的开发是一项复杂而深奥的工作,涉及到计算机科学中的许多核心概念和技术 下面是操作系统开发的一些关键方面和步骤: ###

操作系统的开发是一项复杂而深奥的工作,涉及到计算机科学中的许多核心概念和技术。下面是操作系统开发的一些关键方面和步骤: ### 1. **理解操作系统的基本概念** 操作系统是管理计算机硬件和软件资源的系统软件。它提供了用户和应用程序与计算机硬件之间的接口,包括处理器管理、内存管理、文件系统、设备驱动程序等功能。 ### 2. **选择开发平台和工具** 操作系统开发通常在特定的硬件平台上进行,例如 x86 架构的个人电脑或者嵌入式系统。选择合适的开发工具和环境对于成功开发操作系统至关重要,常见的工具包括汇编语言、C 语言以及相关的开发工具链。 ### 3. **设计操作系统架构** 操作系统的设计涉及到架构设计和功能划分,主要包括以下几个方面: - **内核类型**:选择单内核、微内核还是混合内核。 - **进程管理**:实现进程调度、进程通信和同步。 - **内存管理**:包括虚拟内存管理、页面置换算法等。 - **文件系统**:设计文件存储和管理的结构。 - **设备管理**:编写设备驱动程序以管理计算机硬件。 ### 4. **实现核心功能** 在设计之后,开
recommend-type

共轴极紫外投影光刻物镜设计研究

"音视频-编解码-共轴极紫外投影光刻物镜设计研究.pdf" 这篇博士学位论文详细探讨了共轴极紫外投影光刻物镜的设计研究,这是音视频领域的一个细分方向,与信息技术中的高级光学工程密切相关。作者刘飞在导师李艳秋教授的指导下,对这一前沿技术进行了深入研究,旨在为我国半导体制造设备的发展提供关键技术支持。 极紫外(EUV)光刻技术是当前微电子制造业中的热点,被视为下一代主流的光刻技术。这种技术的关键在于其投影曝光系统,特别是投影物镜和照明系统的设计。论文中,作者提出了创新的初始结构设计方法,这为构建高性能的EUV光刻投影物镜奠定了基础。非球面结构的成像系统优化是另一个核心议题,通过这种方法,可以提高光刻系统的分辨率和成像质量,达到接近衍射极限的效果。 此外,论文还详细阐述了极紫外光刻照明系统的初始建模和优化策略。照明系统的优化对于确保光刻过程的精确性和一致性至关重要,能够减少缺陷,提高晶圆上的图案质量。作者使用建立的模型和优化算法,设计出多套EUV光刻机的成像系统,并且经过优化后的系统展现出优秀的分辨率和成像性能。 最后,作者在论文中做出了研究成果声明,保证了所有内容的原创性,并同意北京理工大学根据相关规定使用和分享学位论文。这表明,该研究不仅代表了个人的学术成就,也符合学术界的伦理规范,有助于推动相关领域的知识传播和进步。 这篇论文深入研究了共轴极紫外投影光刻物镜的设计,对于提升我国半导体制造技术,尤其是光刻技术的自主研发能力具有重大意义。其内容涵盖的非球面成像系统优化、EUV照明系统建模与优化等,都是目前微电子制造领域亟待解决的关键问题。这些研究成果不仅为实际的光刻设备开发提供了理论基础,也为未来的科研工作提供了新的思路和方法。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

泊松分布:离散分布中的典型代表,探索泊松分布的应用场景

![泊松分布:离散分布中的典型代表,探索泊松分布的应用场景](https://img-blog.csdnimg.cn/20190802094932661.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3ltaHVh,size_16,color_FFFFFF,t_70) # 1. 泊松分布的理论基础 泊松分布是一种离散概率分布,用于描述在固定时间或空间间隔内发生的随机事件的数量。它以法国数学家西梅翁·德尼·泊松(Siméon Denis
recommend-type

``` if build_id then -- 单个屋子 else -- 所有屋子 end ```

在你的代码片段中,`build_id` 的存在与否决定了执行不同的逻辑。如果 `build_id` 为真(非空或非零),则执行针对单个屋子的代码;否则,执行针对所有屋子的代码。这种结构在 Lua 中已经相对简洁,但为了提高可读性和潜在的性能优化,你可以考虑以下几点: 1. **使用更明确的条件语句**:可以使用 `if build_id ~= nil` 替换 `if build_id then`,因为 `nil` 在 Lua 中被视为 `false`。 2. **逻辑封装**:如果两个分支的代码复杂度相当,可以考虑将它们抽象为函数,这样更易于维护和复用。 3. **避免不必要的布尔转换*
recommend-type

基于GIS的通信管线管理系统构建与音视频编解码技术应用

音视频编解码在基于GIS的通信管线管理系统中的应用 音视频编解码技术在当前的通信技术中扮演着非常重要的角色,特别是在基于GIS的通信管线管理系统中。随着通信技术的快速发展和中国移动通信资源的建设范围不断扩大,管线资源已经成为电信运营商资源的核心之一。 在当前的通信业务中,管线资源是不可或缺的一部分,因为现有的通信业务都是建立在管线资源之上的。随着移动、电信和联通三大运营商之间的竞争日益激烈,如何高效地掌握和利用管线资源已经成为运营商的一致认识。然而,大多数的资源运营商都将资源反映在图纸和电子文件中,管理非常耗时。同时,搜索也非常不方便,当遇到大规模的通信事故时,无法找到相应的图纸,浪费了大量的时间,给运营商造成了巨大的损失。 此外,一些国家的管线资源系统也存在许多问题,如查询基本数据非常困难,新项目的建设和迁移非常困难。因此,建立一个基于GIS的通信管线管理系统变得非常必要。该系统可以实现管线资源的高效管理和查询,提高运营商的工作效率,减少事故处理时间,提高客户满意度。 在基于GIS的通信管线管理系统中,音视频编解码技术可以发挥重要作用。通过音视频编解码技术,可以将管线资源的信息实时地捕捉和处理,从而实现管线资源的实时监控和管理。同时,音视频编解码技术也可以用于事故处理中,对管线资源进行实时监控和分析,以便快速确定事故原因和位置,减少事故处理时间。 此外,基于GIS的通信管线管理系统还可以实现管线资源的空间分析和可视化,通过音视频编解码技术,可以将管线资源的信息转换为实时的视频图像,从而实现管线资源的实时监控和管理。同时,该系统还可以实现管线资源的智能分析和预测,对管线资源的使用和维护进行科学的分析和预测,从而提高管线资源的使用效率和可靠性。 音视频编解码技术在基于GIS的通信管线管理系统中扮演着非常重要的角色,可以实现管线资源的高效管理和查询,提高运营商的工作效率,减少事故处理时间,提高客户满意度。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

二项分布:离散分布中的关键案例,理解二项分布的应用

![二项分布:离散分布中的关键案例,理解二项分布的应用](https://img-blog.csdnimg.cn/20201206104644803.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDQ0MTEzMQ==,size_16,color_FFFFFF,t_70) # 1. 二项分布的基本概念 二项分布是一种离散概率分布,用于描述在固定次数的独立试验中成功事件发生的次数。它广泛应用于各种领域,包括质量控
recommend-type

程序哪里有错误 fun(int *p1,int *p2) { int *p; *p = *p1; *p1 = *p2; *p2 = *p; }

这个函数`fun(int *p1, int *p2)`存在几个错误和潜在问题: 1. 变量声明与赋值:你试图通过`*p = *p1`来分配指针`p`的值,但实际上`p`是一个未初始化的指针,直接赋值可能会导致不确定的行为。正确的做法是先为`p`指向一个内存位置。 2. 临时变量:你的代码没有明确使用`p`这个临时变量。如果你想交换`p1`和`p2`所指向的值,应该使用指针的解引用操作,而不是将`*p`赋值给它们。 3. 指向不确定的数据:由于`p`没有被初始化,如果它指向的是栈上的临时空间,当函数结束时这些值可能会丢失,除非特别指定它指向堆中的数据。 修复后的代码可能如下所示: ```
recommend-type

单站被动目标跟踪算法:空频域信息下的深度研究与进展

本文档《大数据-算法-基于空频域信息的单站被动目标跟踪算法研究.pdf》探讨了在大数据背景下,针对单站被动目标跟踪的算法开发。研究者强调了本论文是其在导师指导下独立完成的创新工作,保证了原创性和学术诚信。 论文首先回顾了单站被动定位技术的发展历程,包括国外和国内的研究现状。国外研究着重于理论模型的构建和完善,如不同的跟踪滤波算法,如粒子滤波、卡尔曼滤波等。国内研究则反映了在复杂环境下的实际应用探索,可能涉及数据融合和处理技术的进步。 在系统模型与可观测性分析部分,论文构建了一维和三维空间机动模型,讨论了这些模型下的观测方程,并对系统的可观测性进行了深入分析,这对于确定目标跟踪算法的有效性和稳定性至关重要。通过仿真实例,作者展示了模型的实际效果和可能遇到的挑战。 接着,文章转向核心内容——基于解析高斯近似的被动目标跟踪算法。这里介绍了随机变量的非线性传递问题,以及粒子滤波(EKF)和改进版本的运用。解析高斯近似是将复杂的非线性系统简化为线性形式的一种方法,而EKF在此过程中发挥着关键作用。然而,EKF的近似误差是需要关注的问题,因此作者探讨了如何通过改进方法来减小误差。此外,文中还提及了 Unscented Kalman Filter (UKF) 的应用,这是一种在高维非线性系统中表现优异的滤波器。 这篇论文不仅涵盖了单站被动目标跟踪的基本原理,而且深入探讨了算法设计中的关键技术,如非线性建模、可观测性分析以及滤波器优化。对于大数据背景下提高单站被动目标跟踪的精度和效率具有重要的理论和实践价值。