data['mol'] = data['smiles'].apply(lambda x: Chem.MolFromSmiles(x)) print("data:",data.shape) data= data.dropna(axis=0) print("data:",data.shape) data['tpsa'] = data['mol'].apply(lambda x: Descriptors.TPSA(x)) data['mol_w'] = data['mol'].apply(lambda x: Descriptors.ExactMolWt(x)) data['num_valence_electorons'] = data['mol'].apply(lambda x: Descriptors.NumValenceElectrons(x)) data['num_heteroatoms'] = data['mol'].apply(lambda x: Descriptors.NumHeteroatoms(x)) from sklearn.model_selection import train_test_split y = data.pIC51.values X = data.drop(columns=['smiles','pIC51','mol']) x_train,x_test ,y_train,y_test = train_test_split(X, y, test_size=.20,random_state=42) X.index = range(0,1974)

for smiles in smiles_list: mol = Chem.MolFromSmiles(smiles) mols.append(mol) def fragment_score(mols, fragment_lib): fragments = set() for mol in mols: mol_fragment = Chem.GetMolFrags(mol, asMols=True) for mol_frag in mol_fragment:优化这段代码

mols = [Chem.MolFromSmiles(smiles) for smiles in smiles_list] 2. 可以使用集合推导式替换双重循环添加元素到集合的操作，可以让代码更简洁： fragments = {mol_frag for mol in mols for mol_frag in ...

优化这段代码from rdkit import Chem from rdkit.Chem import AllChem # 输入化学分子式 smiles = input("请输入化学分子式：") # 将SMILES字符串转化为分子对象 mol = Chem.MolFromSmiles(smiles) # 生成所有可能的立体异构体 mol = Chem.AddHs(mol) AllChem.EmbedMultipleConfs(mol, numConfs=100) AllChem.UFFOptimizeMoleculeConfs(mol) # 输出所有立体异构体的SMILES字符串 for i, conf in enumerate(mol.GetConformers()): print(f"立体异构体{i+1}：{Chem.MolToSmiles(mol, confId=conf.GetId())}")

mol = Chem.MolFromSmiles(smiles) # 生成所有可能的立体异构体 mol = Chem.AddHs(mol) # 设置构象生成参数 params = AllChem.ETKDGv3() # 并行生成分子构象 builder = AllChem.ParallelMolBuilder() builder....

运行这段代码报错“ AttributeError: 'UIntSparseIntVect' object has no attribute 'ToBitString'”，该如何解决？ smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprint(mol, 2) fps.append(fp.ToBitString()) fps_array = np.array(fps.GetNonzeroElements().values(), dtype=np.float32) fps_df = pd.DataFrame(fps_array, columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])])

mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprint(mol, 2) fps.append(fp.GetNonzeroElements()) fps_array = np.zeros((len(fps), max(max(fp.keys()) for fp in fps) + 1), dtype=np.float32...

# coding=utf-8 from rdkit import Chem import pandas as pd # 读取CSV文件 data = pd.read_csv('dataSetA.csv') # 提取SMILES列 smiles = data['rxn_Smiles'] # 遍历每个SMILES字符串并打印 rxn_SMILES for smi in smiles: print(smi) mol = Chem.MolFromSmiles(smi) if mol is not None: Chem.Draw.MolToMPL(mol) # 在Matplotlib中绘制结构式

你的代码看起来是用于读取 CSV 文件中的 rxn_Smiles 列，并使用 RDKit 库将其转换为 RDKit 分子对象，并在 Matplotlib 中绘制结构式。这是一个基本的流程，但请确保你已经正确导入了所需的模块和库，并且已经正确...

运行这段代码。报错’ Unable to allocate 28.9 TiB for an array with shape (1866, 4259567003) and data type float32‘，如何解决：“smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprint(mol, 2) fps.append(fp.GetNonzeroElements()) fps_array = np.zeros((len(fps), max(max(fp.keys()) for fp in fps) + 1), dtype=np.float32) for i, fp in enumerate(fps): for key, value in fp.items(): fps_array[i][key] = value fps_df = pd.DataFrame(fps_array, columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])])”

mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprint(mol, 2) fps.append(fp.GetNonzeroElements()) max_key = max(max_key, max(fp.keys())) fps_array = csr_matrix((len(fps), max_key + 1), ...

import argparse import numpy as np from openeye import oechem def clear_stereochemistry(mol): clear_atom_stereochemistry(mol) clear_bond_sterochemistry(mol) oechem.OESuppressHydrogens(mol, False, False, False) def clear_atom_stereochemistry(mol): for atom in mol.GetAtoms(): chiral = atom.IsChiral() stereo = oechem.OEAtomStereo_Undefined v = [] for nbr in atom.GetAtoms(): v.append(nbr) if atom.HasStereoSpecified(oechem.OEAtomStereo_Tetrahedral): stereo = atom.GetStereo(v, oechem.OEAtomStereo_Tetrahedral) if chiral or stereo != oechem.OEAtomStereo_Undefined: atom.SetStereo(v, oechem.OEAtomStereo_Tetrahedral, oechem.OEAtomStereo_Undefined) def clear_bond_sterochemistry(mol): for bond in mol.GetBonds(): if bond.HasStereoSpecified(oechem.OEBondStereo_CisTrans): for atomB in bond.GetBgn().GetAtoms(): if atomB == bond.GetEnd(): continue for atomE in bond.GetEnd().GetAtoms(): if atomE == bond.GetBgn(): continue v = [] v.append(atomB) v.append(atomE) stereo = bond.SetStereo(v, oechem.OEBondStereo_CisTrans, oechem.OEBondStereo_Undefined) def abs_smi(x): mol = oechem.OEGraphMol() if oechem.OESmilesToMol(mol, x): clear_stereochemistry(mol) return oechem.OEMolToSmiles(mol) else: return np.nan if name == 'main': parser = argparse.ArgumentParser(description="Remove stereochemistry from the input data set.") parser.add_argument("--in",dest="infile",help="whitespace-delimited input file",metavar="in.csv") parser.add_argument("--out", dest="outfile", help="output file", metavar="out.csv") args = parser.parse_args() n=0 with open(args.infile, 'r') as ifs: with open(args.outfile, 'w') as ofs: for line in ifs: if n==0: ofs.write(line) n=1 else: parsed = line.strip().split(',') if ('.' not in parsed[0]): ofs.write(f"{abs_smi(parsed[0])},{parsed[1]}\n")

它首先将输入的 SMILES 字符串转换为分子对象，然后调用之前定义的 clear_stereochemistry 函数清除立体信息，最后将分子对象转换回 SMILES 格式并返回。在 if __name__ == '__main__': 语句块中，脚本使用 ...

# coding=utf-8 #加载化学库 from rdkit import Chem from rdkit.Chem import Draw from rdkit.Chem import AllChem import pandas as pd # 读取 CSV 文件 data = pd.read_csv('dataSetA.csv') # 提取 rxn_smiles 列 rxn_smiles = data['rxn_Smiles'] # 遍历每个 rxn_smiles 字符串并打印 for smi in rxn_smiles: print(smi) rxn = Chem.AllChem.ReactionFromSmarts(smi) if rxn is not None: # 绘制反应结构 img = Draw.ReactionToImage(rxn) img.show() else: print("Failed to parse rxn_smiles.")最后要保存成图片要怎么写

print("Failed to parse rxn_smiles.") 在上述代码中，添加了一个enumerate函数来获得循环的索引值，以便在保存文件时为每个反应结构创建唯一的文件名。通过在img.save方法中传递文件名参数，可以将绘制的...

def get_canonical_smiles(x): mol = oechem.OEGraphMol() oechem.OESmilesToMol(mol, x) return oechem.OECreateCanSmiString(mol)修改代码不用oechem模块达到相同目的

mol = Chem.MolFromSmiles(x) return Chem.MolToSmiles(mol, isomericSmiles=False) 这里使用了rdkit中的MolFromSmiles和MolToSmiles函数来分别将SMILES字符串转化为分子对象和将分子对象转化为Canonical ...

from rdkit import Chem mols = df[‘SMILES’].apply(Chem.MolFromSmiles)用上述代码将smiles格式转为mol格式，接着保存为什么格式的文件能方便被padel软件处理，给出代码

这段代码利用了rdkit库中的Chem.MolFromSmiles函数，它将输入的SMILES字符串转换成Mol（分子）对象，这是一种化学结构数据的标准表示形式。SMILES是一种用于描述有机分子结构的线性文本编码。为了方便Padel软件...

以下代码运行后得到的data['Fingerprint']使用data.info()查看还是object而非float64，这是为什么呢？到底该如何解决 smiles = data['SMILES'] # 创建一个空的列表来存储分子指纹 fps = [] # 遍历每个SMILES，计算Morgan指纹并添加到列表中 for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2) # 这里使用默认的Morgan指纹参数 fps.append(fp.ToBitString())# 将分子指纹转换为数值数组 fps_array = np.array([list(fp) for fp in fps], dtype=int)# 将分子指纹加入数据集 data['Fingerprint'] = fps_array.tolist()

mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2) fps.append(fp.ToBitString()) fps_array = np.array([list(fp) for fp in fps], dtype=int) data['Fingerprint'] = pd....

decomp =[Recap.RecapDecompose(mol)for mol in mol_list] smiles = [] for dec in decomp:#'rdkit.Chem.Recap.RecapHierarchyNode'>值类型 smi =dec.GetAllChildren() smile =smi.keys() smiles.append(smile) results = [] for fragment in smiles: results.append([fragment]) df_results = pd.DataFrame(results,columns=['fragment']) with pd.ExcelWriter('D:\HBVdata\hbvrecap.xlsx') as writer: df_results.to_excel(writer, index=False)这段代码改进

mol_list = [Chem.MolFromSmiles('CCO'), Chem.MolFromSmiles('CCN')] df_results = process_mols(mol_list) filepath = os.path.join('D:', 'HBVdata', 'hbvrecap.xlsx') save_results(df_results, filepath) ...

# coding=utf-8 #加载化学库 from rdkit import Chem from rdkit.Chem import Draw from rdkit.Chem import AllChem import pandas as pd # 读取 CSV 文件 data = pd.read_csv('dataSetA.csv') # 提取 rxn_smiles 列 rxn_smiles = data['rxn_Smiles'] # 遍历每个 rxn_smiles 字符串并打印 for smi in rxn_smiles: print(smi) rxn = Chem.AllChem.ReactionFromSmarts(smi) if rxn is not None: # 绘制反应结构 img = Draw.ReactionToImage(rxn) img.show() img.save(f'structure_{rxn}.png') else: print("Failed to parse rxn_smiles.")

接下来，通过遍历rxn_smiles列表中的每个字符串，使用Chem.AllChem.ReactionFromSmarts函数尝试将rxn_smiles解析为化学反应对象rxn。如果成功解析，则使用Draw.ReactionToImage函数将反应结构绘制为图像，并显示出来...

df =pd.read_excel("D:\HBVdata\HBV_P.xlsx") smile_list =df['Smiles'].tolist() mols =[Chem.MolFromSmiles(smile) for smile in smile_list] fingerprints =[Chem.RDKFingerprint(mol) for mol in mols] dg =pd.read_csv("D:\HBVdata\hbvfrag_recap_delete_duplicate.csv") smi_list =dg['mol'].tolist() submols =[Chem.MolFromSmarts(smi) for smi in smi_list] count =0 for submol in submols: for mol in mols: if mol.HasSubstructMatch(submol): count +=1 print(count)改变这段代码让输出的值为每个分子对应的count

mols = [Chem.MolFromSmiles(smile) for smile in smile_list] fingerprints = [Chem.RDKFingerprint(mol) for mol in mols] dg = pd.read_csv("D:\HBVdata\hbvfrag_recap_delete_duplicate.csv") smi_list = dg['...

# coding=utf-8 #加载化学库 from rdkit import Chem from rdkit.Chem import Draw from rdkit.Chem import AllChem import pandas as pd import os import csv # 读取 CSV 文件 data = pd.read_csv('dataSetB.csv') # 提取 rxn_smiles 列 # 获取每一列的数据 smiles_mapping_namerxn = data['rxnSmiles_Mapping_NameRxn'] smiles_mapping_indigotk = data['rxnSmiles_Mapping_IndigoTK'] smiles_indigoautomapperknime = data['rxnSmiles_IndigoAutoMapperKNIME'] # 创建目录 os.makedirs('D:/1/', exist_ok=True) os.makedirs('D:/2/', exist_ok=True) os.makedirs('D:/3/', exist_ok=True) # 遍历每个 rxn_smiles 字符串并打印 #for i, smi in enumerate(smiles_mapping_namerxn): # print(smi) # rxn = chem.allchem.reactionfromsmarts(smi) # if rxn is not none: # # 绘制反应结构 # img = draw.reactiontoimage(rxn) # img.show() # img.save(f'd:/1/reaction_{i}.png') # else: # #当无法解析rxn_smiles时，使用print语句打印出相应的消息，并将无法解析的smi值作为附加信息一起打印。 # print("failed to parse rxn_smiles.", smi) #for i, smi in enumerate(smiles_mapping_indigotk): # print(smi) # rxn = Chem.AllChem.ReactionFromSmarts(smi) # if rxn is not None: # 绘制反应结构 # img = Draw.ReactionToImage(rxn) # img.save(f'D:/2/reaction_{i}.png') # else: # 当无法解析rxn_smiles时，使用print语句打印出相应的消息，并将无法解析的smi值作为附加信息一起打印。 # print("Failed to parse rxn_smiles.", smi) def new_func(smi): rxn = Chem.AllChem.ReactionFromSmarts(smi) return rxn #for i, smi in enumerate(smiles_indigoautomapperknime): # print(smi) # rxn = new_func(smi) # if rxn is not None: with open('your_file.csv', 'r') as file: reader = csv.reader(file) rows = list(reader) for row in rows[42154:]: # 绘制反应结构 img = Draw.ReactionToImage(rxn) img.save(f'D:/3/reaction_{i}.png') lines=lines+1 else: #当无法解析rxn_smiles时，使用print语句打印出相应的消息，并将无法解析的smi值作为附加信息一起打印。 print("Failed to parse rxn_smiles.", smi)什么地方错了。、

print("Failed to parse rxn_smiles.", smi) 请根据实际情况修改代码中的文件路径和数据列索引，以满足你的需求。另外，请确保相关的库已经正确安装。如果还有其他问题，请提供具体的错误信息，以便我可以更好...

smiles-3d-vue:Vue.js中的SMILES（简化的分子输入线输入系统）文件3D渲染应用程序

适用于SMILES（简化的分子输入行输入系统）文件的3D渲染应用程序用于教育和示范目的。应用程序接受，使用方法将SMILES字符串从文件转换为具有坐标的，应用程序利用库（）显示3D复合模型。在开发过程中，我发现...

# 转换SMILES为分子指纹 smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = rdFingerprintGenerator.GetCountFPs([mol])[0] fps.append(fp.ToBitString())

smiArr = data['smiles'].apply(splitSmi).tolist()

相关推荐

# 转换SMILES为分子指纹 smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = rdFingerprintGenerator.GetCountFPs([mol])[0] fps.append(fp.ToBitString())

smiArr = data['smiles'].apply(splitSmi).tolist()

相关推荐

Data_curation：处理数据管理的Python代码：问题分子的微笑，数据集选择，训练和测试拆分

SMILES：使用pyparsing的简单SMILES验证器和解析器-.zip

PIANO_smiles.zip

for smiles in smiles_list: mol = Chem.MolFromSmiles(smiles) mols.append(mol) def fragment_score(mols, fragment_lib): fragments = set() for mol in mols: mol_fragment = Chem.GetMolFrags(mol, asMols=True) for mol_frag in mol_fragment:优化这段代码

def get_canonical_smiles(x): mol = oechem.OEGraphMol() oechem.OESmilesToMol(mol, x) return oechem.OECreateCanSmiString(mol)修改代码不用oechem模块达到相同目的

from rdkit import Chem mols = df[‘SMILES’].apply(Chem.MolFromSmiles)用上述代码将smiles格式转为mol格式，接着保存为什么格式的文件能方便被padel软件处理，给出代码

smiles-3d-vue:Vue.js中的SMILES（简化的分子输入线输入系统）文件3D渲染应用程序

大家在看

递推最小二乘辨识

论文研究-8位CISC微处理器的设计与实现.pdf

设置段落格式-word教学内容的PPT课件

QRCT调试指导.docx

python中matplotlib实现最小二乘法拟合的过程详解

最新推荐

免费的防止锁屏小软件，可用于域统一管控下的锁屏机制

Python代码实现带装饰的圣诞树控制台输出

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

"互动学习：行动中的多样性与论文攻读经历"

【单片机编程实战】：掌握流水灯与音乐盒同步控制的高级技巧

java 号码后四位用‘xxxx’脱敏