帮我用python编写一个新闻文本分类数据集,要使用 error_bad_lines=False
时间: 2023-12-06 12:40:48 浏览: 97
新闻文本分类数据集
好的,我来帮你编写。首先,我们需要准备一些新闻文本数据,可以从网上爬取或者使用已有的数据集。这里我使用了 Kaggle 上的一个新闻文本分类数据集:https://www.kaggle.com/rmisra/news-category-dataset
接下来,我们可以使用 pandas 库来读取数据集并进行预处理。由于数据集中存在一些不规则的行,我们可以使用参数 `error_bad_lines=False` 来跳过这些行。具体代码如下:
```python
import pandas as pd
# 读取数据集
df = pd.read_json('News_Category_Dataset_v2.json', lines=True, error_bad_lines=False)
# 将 category 和 headline 合并作为文本分类的标签
df['label'] = df.apply(lambda x: x['category'] + ' ' + x['headline'], axis=1)
df = df[['label']]
# 将数据集保存为 csv 文件
df.to_csv('news_dataset.csv', index=False)
```
以上代码将数据集中的 `category` 和 `headline` 列合并成一个标签 `label`,并将其保存为 csv 文件。你可以根据自己的需求对代码进行修改。
阅读全文