任务三:过滤敏感词 为了净化网络环境,基本上各个网站均设置了敏感词替换程序,通过查找文档中的词组与敏感词列表是否匹配,以此判断是否为敏感词,若是,则用*号将其替换,最终显示的为过滤后的文档。 假设敏感词列表由以下词组成:垃圾、辣鸡、死亡、不要脸、赌博。
时间: 2024-09-19 09:03:23 浏览: 76
任务三是关于文本处理中的一种常见应用,即过滤敏感词。这个过程通常用于保护用户的隐私和防止不良内容的传播。在Python中,你可以使用字符串操作或者正则表达式库(如`re`模块)来实现这一功能。以下是一个简单的例子:
```python
# 定义敏感词列表
sensitive_words = ["垃圾", "辣鸡", "死亡", "不要脸", "赌博"]
def filter_sensitive(text):
# 将每个敏感词替换成'*'
filtered_text = text.replace("|".join(sensitive_words), "*" * len(sensitive_words[0]))
return filtered_text
# 测试过滤
test_text = "这是一个包含垃圾和辣鸡的句子"
filtered_result = filter_sensitive(test_text)
print(filtered_result)
```
在这个示例中,我们先将所有敏感词用竖线`|`连接成一个字符串,然后使用`.replace()`方法进行替换。如果文本中有多个相同的敏感词,它们都会被替换成相同数量的星号。
如果你想实现更复杂的搜索,比如模糊匹配或支持正则表达式的敏感词检查,可以考虑使用`re`模块:
```python
import re
def filter_sensitive_regex(text, sensitive_words):
pattern = "|".join(map(re.escape, sensitive_words))
filtered_text = re.sub(pattern, "*", text)
return filtered_text
```
阅读全文
相关推荐


















