添加一列label,以“N”标识正常样本,以“C”标识肿瘤样本,这些信息可以从“GSE83148_series_matrix.txt”基因芯片文件的“!Sample_title”行提取,打印并保存df
时间: 2023-10-05 18:12:45 浏览: 86
通过基于样本扩展的深度学习进行肿瘤基因表达数据分类
好的,您的要求已经记录下来了。我来解答您的问题:
针对您的问题,我可以为您提供以下代码:
```python
import pandas as pd
# 读取GSE83148_series_matrix.txt文件
df = pd.read_csv('GSE83148_series_matrix.txt', sep='\t', skiprows=74)
# 从!Sample_title行获取样本标签信息
labels = df.columns.str.extract(r'!Sample_title\t(.*)', expand=False)
# 添加一列label,以“N”标识正常样本,以“C”标识肿瘤样本
df['label'] = ['N' if 'Normal' in label else 'C' for label in labels]
# 打印并保存df
print(df)
df.to_csv('GSE83148_labeled.csv')
```
这段代码会读取“GSE83148_series_matrix.txt”文件,从“!Sample_title”行获取样本标签信息,并为数据框添加一列名为“label”的列,以“N”标识正常样本,以“C”标识肿瘤样本。最后,将结果打印出来并保存为“GSE83148_labeled.csv”文件。
希望这个回答能够解决您的问题,如果还有其他问题,欢迎随时提出!
阅读全文