python代码根据文件“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据，针对1974个化合物的729个分子描述符进行变量选择，根据变量对生物活性影响的重要性进行排序，并给出前20个对生物活性最具有显著影响的分子描述符（即变量），并请详细说明分子描述符筛选过程及其合理性，选择不超过20个分子描述符变量，构建化合物对ERα生物活性的定量预测模型，请叙述建模过程。然后使用构建的预测模型，对文件“ERα_activity.xlsx”的test表中的50个化合物进行IC50值和对应的pIC50值预测，并将结果分别填入“ERα_activity.xlsx”的test表中的IC50_nM列及对应的pIC50列。问题3. 请利用文件“Molecular_Descriptor.xlsx”提供的729个分子描述符，针对文件“ADMET.xlsx”中提供的1974个化合物的ADMET数据，从五个指标（Caco-2、CYP3A4、hERG、HOB、MN）中任选2个，分别构建其分类预测模型，并简要叙述建模过程。然后使用所构建的2个分类预测模型，对文件“ADMET.xlsx”的test表中的50个化合物进行相应的预测，并将结果填入“ADMET.xlsx”的test表中对应的Caco-2、CYP3A4、hERG、HOB、MN列。

时间: 2024-03-29 13:38:49 浏览: 113

问题1的代码： # 导入必要的库和数据 import pandas as pd import numpy as np from sklearn.preprocessing import StandardScaler df1 = pd.read_excel('Molecular_Descriptor.xlsx', sheet_name='train', index_col=0) df2 = pd.read_excel('ERα_activity.xlsx', sheet_name='train', index_col=0) # 数据预处理 X = StandardScaler().fit_transform(df1.values) y = df2.values.ravel() # 特征选择 from sklearn.feature_selection import SelectKBest, f_regression selector = SelectKBest(score_func=f_regression, k=20) selector.fit(X, y) # 输出前20个重要的分子描述符 df_scores = pd.DataFrame({'Feature': df1.columns, 'Score': selector.scores_}) df_scores = df_scores.sort_values(by='Score', ascending=False) top20_features = df_scores.head(20)['Feature'].values print(top20_features) # 构建预测模型 from sklearn.linear_model import LinearRegression X_selected = df1[top20_features].values model = LinearRegression() model.fit(X_selected, y) # 对test数据集进行预测并保存结果 df_test = pd.read_excel('ERα_activity.xlsx', sheet_name='test', index_col=0) X_test = StandardScaler().fit_transform(df_test.values) X_test_selected = df_test[top20_features].values y_pred = model.predict(X_test_selected) df_test['IC50_nM'] = y_pred df_test['pIC50'] = -np.log10(y_pred * 1e-9) df_test.to_excel('ERα_activity.xlsx', sheet_name='test', index=True) 问题3的代码： # 导入必要的库和数据 import pandas as pd import numpy as np from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split df1 = pd.read_excel('Molecular_Descriptor.xlsx', sheet_name='train', index_col=0) df2 = pd.read_excel('ADMET.xlsx', sheet_name='train', index_col=0) # 数据预处理 X = StandardScaler().fit_transform(df1.values) y_caco2 = df2['Caco-2'].values y_cyp3a4 = df2['CYP3A4'].values # 特征选择 from sklearn.feature_selection import SelectKBest, f_classif selector = SelectKBest(score_func=f_classif, k=20) selector.fit(X, y_caco2) top20_features_caco2 = df1.columns[selector.get_support()].values selector = SelectKBest(score_func=f_classif, k=20) selector.fit(X, y_cyp3a4) top20_features_cyp3a4 = df1.columns[selector.get_support()].values # 构建分类预测模型 from sklearn.linear_model import LogisticRegression X_selected_caco2 = df1[top20_features_caco2].values X_selected_cyp3a4 = df1[top20_features_cyp3a4].values model_caco2 = LogisticRegression() model_caco2.fit(X_selected_caco2, y_caco2) model_cyp3a4 = LogisticRegression() model_cyp3a4.fit(X_selected_cyp3a4, y_cyp3a4) # 对test数据集进行预测并保存结果 df_test = pd.read_excel('ADMET.xlsx', sheet_name='test', index_col=0) X_test = StandardScaler().fit_transform(df_test.values) X_test_selected_caco2 = df_test[top20_features_caco2].values X_test_selected_cyp3a4 = df_test[top20_features_cyp3a4].values y_pred_caco2 = model_caco2.predict(X_test_selected_caco2) y_pred_cyp3a4 = model_cyp3a4.predict(X_test_selected_cyp3a4) df_test['Caco-2'] = y_pred_caco2 df_test['CYP3A4'] = y_pred_cyp3a4 df_test.to_excel('ADMET.xlsx', sheet_name='test', index=True)

阅读全文

相关推荐

（3个国二，3种解法）2021年华为杯数学建模D题抗乳腺癌候选药物的优化建模

usb_descriptor.h.rar_USB HID Descriptor_usb descript_usb hid

USB_descriptor.zip_USB_Descriptor_usb 描述符

java计算器源码.zip

FRP Manager-V1.19.2

基于优化EKF的PMSM无位置传感器矢量控制研究_崔鹏龙.pdf

旧物置换网站(基于springboot,mysql,java).zip

上位机开发，对桥梁、环境等传感器传输的数据进行采集并入库，以便用于系统平台对数据进行处理分析(毕设&课设&实训&大作业&竞赛&项目)

质子号.zip

两级式单相光伏并网仿真研究：MATLAB 2021a版本下的DC-DC变换与桥式逆变技术实现功率跟踪与并网效果优化,基于Matlab 2021a的两级式单相光伏并网仿真研究：实现最大功率跟踪与稳定的直

光伏MPPT仿真研究：光照强度和温度对太阳能电池输出特性的影响及调整策略，助力光伏发电学习 ,光伏MPPT仿真研究：光照强度和温度对太阳能电池输出特性的影响及调整策略学习指南,光伏mppt仿真:通过调

java项目，毕业设计（包含源代码）-springboot学生综合成绩测评系统

陨石-4天际星（SFS-AEF）.zip

西门子Smart PLC四轴搬运取料机案例程序：从新手到项目的跃升之路,西门子Smart PLC四轴搬运取料机运动控制案例程序-PLC通信与伺服电机自动化控制解决方案,西门子200smart运动控制

小蜻蜓三号探测器.zip

大家在看

STM32的FOC库教程

2000-2022年 上市公司-股价崩盘风险相关数据（数据共52234个样本，包含do文件、excel数据和参考文献）.zip

Mac OS X10.6.3 Snow Leopard系统 中文版完整安装盘 下载地址连接

SigmaStudioHelp_3.0(中文)

涉密网络建设方案模板.doc

最新推荐

mmw Demo Data Structure_8_16.pdf

详解Java中的File文件类以及FileDescriptor文件描述类

java计算器源码.zip

FRP Manager-V1.19.2

基于优化EKF的PMSM无位置传感器矢量控制研究_崔鹏龙.pdf

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理

2000-2022年上市公司-股价崩盘风险相关数据（数据共52234个样本，包含do文件、excel数据和参考文献）.zip

Mac OS X10.6.3 Snow Leopard系统中文版完整安装盘下载地址连接