df =pd.read_excel("D:\HBVdata\HBV_P.xlsx") smile_list =df['Smiles'].tolist() mols =[Chem.MolFromSmiles(smile) for smile in smile_list] fingerprints =[Chem.RDKFingerprint(mol) for mol in mols] dg =pd.read_csv("D:\HBVdata\hbvfrag_recap_delete_duplicate.csv") smi_list =dg['mol'].tolist() submols =[Chem.MolFromSmarts(smi) for smi in smi_list] count_dict = {} for submol_idx, submol in enumerate(submols): count = 0 for mol in mols: if mol.HasSubstructMatch(submol): count += 1 count_dict[submol_idx] = count改变这段代码将字典索引变成分子smiles

时间: 2024-02-28 07:53:07 浏览: 151

可以尝试如下修改代码： ``` df = pd.read_excel("D:\HBVdata\HBV_P.xlsx") smile_list = df['Smiles'].tolist() mols = [Chem.MolFromSmiles(smile) for smile in smile_list] fingerprints = [Chem.RDKFingerprint(mol) for mol in mols] dg = pd.read_csv("D:\HBVdata\hbvfrag_recap_delete_duplicate.csv") smi_list = dg['mol'].tolist() submols = [Chem.MolFromSmarts(smi) for smi in smi_list] count_dict = {} for submol in submols: count = 0 for mol_idx, mol in enumerate(mols): if mol.HasSubstructMatch(submol): count += 1 smiles = smile_list[mol_idx] count_dict[smiles] = count ``` 这样修改后，字典的键为分子的SMILES字符串，值为包含该分子的子结构的母体分子个数。

df =pd.read_excel("D:\HBVdata\HBV_P.xlsx") smile_list =df['Smiles'].tolist() mols =[Chem.MolFromSmiles(smile) for smile in smile_list] fingerprints =[Chem.RDKFingerprint(mol) for mol in mols] dg =pd.read_csv("D:\HBVdata\hbvfrag_recap_delete_duplicate.csv") smi_list =dg['mol'].tolist() submols =[Chem.MolFromSmarts(smi) for smi in smi_list] count =0 for submol in submols: for mol in mols: if mol.HasSubstructMatch(submol): count +=1 print(count)改变这段代码让输出的值为每个分子对应的count

您可以将计数变量 `count` 转换为一个字典，其中键为分子的 SMILES 字符串，值为该分子结构中匹配子结构的数量。代码如下： ```python df = pd.read_excel("D:\HBVdata\HBV_P.xlsx") smile_list = df['Smiles'].tolist() mols = [Chem.MolFromSmiles(smile) for smile in smile_list] fingerprints = [Chem.RDKFingerprint(mol) for mol in mols] dg = pd.read_csv("D:\HBVdata\hbvfrag_recap_delete_duplicate.csv") smi_list = dg['mol'].tolist() submols = [Chem.MolFromSmarts(smi) for smi in smi_list] count_dict = {} for mol in mols: count = 0 for submol in submols: if mol.HasSubstructMatch(submol): count += 1 count_dict[mol.ToSmiles()] = count print(count_dict) ``` 这将输出一个字典，其中键为每个分子的 SMILES 字符串，值为该分子匹配子结构的数量。

decomp =[Recap.RecapDecompose(mol)for mol in mol_list] smiles = [] for dec in decomp:#'rdkit.Chem.Recap.RecapHierarchyNode'>值类型 smi =dec.GetAllChildren() smile =smi.keys() smiles.append(smile) results = [] for fragment in smiles: results.append([fragment]) df_results = pd.DataFrame(results,columns=['fragment']) with pd.ExcelWriter('D:\HBVdata\hbvrecap.xlsx') as writer: df_results.to_excel(writer, index=False)这段代码改进

根据您提供的代码，我可以提出以下改进建议： 1. 将代码分成多个函数，以提高可读性和可维护性。 2. 使用列表推导式简化代码，并使用enumerate函数记录迭代次数。 3. 使用with语句管理文件句柄，以确保文件在使用完毕后能够正确关闭。 4. 使用os.path.join函数代替硬编码路径，以提高代码的可移植性。下面是改进后的代码示例： ``` import pandas as pd import os from rdkit import Chem from rdkit.Chem import Recap def get_smiles(mol): decomp = Recap.RecapDecompose(mol) smiles = [] for dec in decomp: smi = dec.GetAllChildren() smile = smi.keys() smiles.append(smile) return smiles def process_mols(mol_list): results = [] for i, mol in enumerate(mol_list): fragments = get_smiles(mol) for fragment in fragments: results.append([i, fragment]) return pd.DataFrame(results, columns=['index', 'fragment']) def save_results(df, filepath): with pd.ExcelWriter(filepath) as writer: df.to_excel(writer, index=False) if __name__ == '__main__': mol_list = [Chem.MolFromSmiles('CCO'), Chem.MolFromSmiles('CCN')] df_results = process_mols(mol_list) filepath = os.path.join('D:', 'HBVdata', 'hbvrecap.xlsx') save_results(df_results, filepath) ``` 上述代码中，首先定义了一个名为get_smiles的函数，用于获取给定分子的SMILES字符串。然后，定义了一个名为process_mols的函数，用于处理给定分子列表，并将结果返回为一个DataFrame对象。最后，定义了一个名为save_results的函数，用于将DataFrame对象保存为Excel文件。在__main__函数中，我们定义了一个mol_list列表，包含两个简单的分子，然后调用process_mols函数来处理这些分子。最后，我们调用save_results函数将结果保存到指定的Excel文件中。

阅读全文

相关推荐

Read data from the Excel spreadsheet.zip_Spreadsheet::Read_excel

关于Python 解决Python3.9 pandas.read_excel(‘xxx.xlsx‘)报错的问题

python read excel.zip_excel读取_python excel_python_read_excel_pyt

Python 中pandas.read_excel详细介绍

python基础教程：Python 中pandas.read_excel详细介绍

Excel合并读写.rar_Excel写入_excel_excel文件读写_somethingwi1_读写excel

read-excel-file-in-java.zip_in_java excel_read_excel

针对Excel表格文件操作的编程实现.rar_excel_excel文件操作_excel编程_文件操作_表格操作

read_excel.zip_count5rr_encryption_python excel读取处理_python read_

整车配置要求输入清单.xlsx_excel输入√

DataFrame.to_excel多次写入不同Sheet的实例

_NET.rar_excel

读写EXECL表内容.rar_excel_读写操作EXCEL

解决pandas .to_excel不覆盖已有sheet的问题

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】

阿里云物联网平台不支持新购

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集