假设你有一组用户评论,包含很多标点符号、HTML标签、大小写混合等,要求你编写一个 Python 函数,清理这些评论,并将所有单词转换为小写,去除HTML标签,去除标点符号等。
时间: 2024-10-16 10:13:35 浏览: 21
python 输出所有大小写字母的方法
在Python中,你可以使用`re`模块处理正则表达式,`BeautifulSoup`库来解析和移除HTML标签,以及`string`模块来操作字符串,特别是去除标点符号。下面是一个函数的示例,它会完成你所描述的任务:
```python
import re
from bs4 import BeautifulSoup
import string
def clean_comments(comments):
cleaned_comments = []
for comment in comments:
# 使用BeautifulSoup移除HTML标签
soup = BeautifulSoup(comment, 'html.parser')
text = soup.get_text()
# 转换为小写并移除标点符号
cleaned_text = re.sub(r'[^\w\s]', '', text).lower()
# 将清理后的文本添加到结果列表
cleaned_comments.append(cleaned_text)
return cleaned_comments
# 示例
comments_list = [
"<p>Hello, world!</p>",
"This is a test. It has punctuations! And html tags <b>bold</b>.",
"Another one with mixed case."
]
cleaned_comments = clean_comments(comments_list)
```
阅读全文