清除csv文件中,text列里的html标签
时间: 2024-03-04 11:47:53 浏览: 78
可以使用 Python 的 Pandas 库来读取 CSV 文件,并使用正则表达式去掉 text 列中的 HTML 标签,具体步骤如下:
1. 使用 Pandas 的 read_csv() 函数读取 CSV 文件,并将 text 列的数据转换为字符串类型。
2. 定义一个函数,使用正则表达式去掉 HTML 标签,并将该函数应用到 text 列的每个元素上。
3. 将处理后的 DataFrame 写入新的 CSV 文件。
以下是一个示例代码:
```python
import pandas as pd
import re
# 读取 CSV 文件
df = pd.read_csv('file.csv')
# 将 text 列的数据转换为字符串类型
df['text'] = df['text'].astype(str)
# 定义函数,去掉 HTML 标签
def remove_html_tags(text):
clean = re.compile('<.*?>')
return re.sub(clean, '', text)
# 将函数应用到 text 列的每个元素上
df['text'] = df['text'].apply(remove_html_tags)
# 将处理后的 DataFrame 写入新的 CSV 文件
df.to_csv('new_file.csv', index=False)
```
在上述代码中,使用了 `<.*?>` 的正则表达式,该表达式代表匹配尖括号包围的任意字符,使用 re.sub() 函数将其替换为空字符串。最后,使用 to_csv() 函数将处理后的 DataFrame 写入新的 CSV 文件。
阅读全文