python代码实现1对训练集train数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。 2 在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
时间: 2023-06-12 16:06:07 浏览: 93
1. 对训练集train数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。
```python
import pandas as pd
# 读取train数据
train_data = pd.read_csv("train.csv")
# 保留前五列
train_data = train_data.iloc[:, :5]
# 输出到文本文件
train_data.to_csv("exp1_1.txt", index=False, header=None, sep='\t')
```
2. 在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
```python
import os
# 创建文件夹
if not os.path.exists("exp1_train"):
os.mkdir("exp1_train")
# 读取处理后的数据
train_data = pd.read_csv("exp1_1.txt", header=None, sep='\t')
# 对每个关系类别进行分类
for i in range(1, 20):
relation_data = train_data[train_data[4] == i]
relation_data.to_csv(os.path.join("exp1_train", "{}.txt".format(i)), index=False, header=None, sep='\t')
```
阅读全文