解释一下f=open('./smility.csv','w') wr=csv.writer(f) df = pd.read_csv('./std_ligand.csv') std_smiles=df['SMILES'].tolist() df1 = pd.read_csv('./gencnn.csv') gen_smiles=df1['SMILES'].tolist() std_mols=[Chem.MolFromSmiles(s) for s in std_smiles] gen_mols=[Chem.MolFromSmiles(s) for s in gen_smiles] score_max=[] index_list=[] count=0 for gen_mol in gen_mols: score_list=[] for mol in std_mols: gen_fp=Chem.RDKFingerprint(gen_mol) fp=Chem.RDKFingerprint(mol) score=DataStructs.FingerprintSimilarity(gen_fp,fp) score_list.append(score) max1= max(score_list) index = score_list.index(max(score_list)) count+=1 score_max.append(max1) score_max.append(index)####与哪个相似性最大下标 print(index) ##下面是将结果存入csv,共两列 def list_of_groups(init_list, children_list_len): list_of_groups = zip(*(iter(init_list),) *children_list_len) end_list = [list(i) for i in list_of_groups] count = len(init_list) % children_list_len end_list.append(init_list[-count:]) if count !=0 else end_list return end_list code_list = list_of_groups(score_max,2) print(code_list) for i in range(count): # print('\t',code_list[i]) # print(code_list[i]) x=code_list[i] print(x) wr.writerows([x]) f.close()
时间: 2024-02-04 11:03:23 浏览: 166
这段代码的主要功能是比较两个SMILES字符串列表中分子的相似性,并将结果存储在一个CSV文件中。
首先,通过读取两个CSV文件,分别获取标准分子和待比较分子的SMILES字符串列表。然后,将SMILES字符串转换为RDKit Mol对象,用于计算分子指纹和相似性分数。
接下来,对于每个待比较分子,计算其与标准分子列表中每个分子的相似性分数,并记录最大分数和对应标准分子的下标。这些结果存储在score_max列表中。
然后,将结果按照每个分子与最相似标准分子的分数和下标组合成一个二元组,存储在code_list列表中。最后,将这些二元组写入CSV文件中。
需要注意的是,代码中使用了list_of_groups函数将score_max列表按照每两个元素一组进行划分,这是因为score_max列表中每个分子有一个最大相似性分数和对应标准分子的下标,需要将它们组合成一个二元组。
相关问题
import csv import random import datetime import pandas as pd import matplotlib.pyplot as plt fn = 'data.csv' with open(fn,'w',encoding = 'utf-8') as fp: wr = csv.writer(fp) wr.writerow(['日期','营业额']) startDate = datetime.date(2022,1,1) for i in range(365): amount = 500 + i*5 + random.randrange(100) wr.writerow([str(startDate),amount]) startDate = startDate + datetime.timedelta(days=1) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False df = pd.read_csv('data.csv') df.dropna(inplace=True) plt.plot(df['日期'],df['营业额']) plt.title('商场每天营业额情况') plt.xlabel('日期') plt.ylabel('营业额') plt.savefig('Te.jpg') plt.show() df['日期'] = pd.to_datetime(df['日期']) df['月份'] = df['日期'].dt.month month_sales = df.groupby('月份')['营业额'].sum() plt.bar(month_sales.index,month_sales.values) plt.xlabel('月份') plt.ylabel('营业额') plt.savefig('Ye.jpg') plt.show() diff = month_sales.diff() max_month = diff[1:].idxmax() with open('maxMonth.txt','w')as f: f.write(str(max_month)) df['季度'] = df['日期'].dt.quarter quarter_sales = df.groupby('季度')['营业额'].sum() labels = ['第一季度','第二季度','第三季度','第四季度'] plt.pie(quarter_sales.values,labels = labels,autopct = '%1.1f%%') plt.title('商场2022年季度营业额分布情况') plt.savefig('Je.jpg') plt.show()
这段代码是用 Python 生成一个商场每天营业额的数据集,并对数据进行分析和可视化。其中,首先使用 csv 模块生成一个 data.csv 的文件,记录了商场每天的营业额。然后使用 pandas 和 matplotlib 模块对数据进行分析和可视化,生成了商场每月和每季度的营业额柱形图和饼图,并找出了营业额增长最快的月份,保存在 maxMonth.txt 文件中。最后,将每张图保存成图片并展示出来。
.使用以下代码,在当前文件夹中生成某商场营业额模拟数据文件 data.csv。数据文件有两列,分别为“日期”和“营业额”。日期从2022-1-1开始,共365天,365条营业数据。 import csv import random import datetime fn = 'data.csv' with open(fn, 'w') as fp: # 创建 csv 文件写入对象 wr = csv.writer(fp) # 写入表头 wr.writerow(['日期', '营业额']) # 生成模拟数据 startDate = datetime.date(2022, 1, 1) # 生成 365 个模拟数据 for i in range(365): # 生成一个模拟数据,写入 csv 文件 amount = 500 + i*5 + random.randrange(100) wr.writerow([str(startDate), amount]) # 下一天 startDate = startDate + datetime.timedelta(days=1) copy 依据以上生成的模拟数据文件,完成下面的任务: (1)使用pandas读取文件data.csv中的数据,创建DataFrame对象,并删除其中所有缺失值。
好的,接下来我将以 Python 代码的形式回答您的问题:
```python
import pandas as pd
# 读取数据文件
df = pd.read_csv('data.csv')
# 删除所有缺失值
df.dropna(inplace=True)
```
以上代码中,我们使用 pandas 库的 `read_csv()` 函数读取了文件 `data.csv` 中的数据,并将其保存为 DataFrame 对象 `df`。接着,我们使用该对象的 `dropna()` 方法删除了所有缺失值,即将缺失值所在的行删除。最终,`df` 中不再包含任何缺失值。
阅读全文