你好,我想生成从年报文本中搜索关键词的python代码
时间: 2024-09-30 21:02:03 浏览: 24
【更新-优质】python爬取与文本分析-提取公司年报关键词附代码和help文档
5星 · 资源好评率100%
你好,要从年报文本中搜索关键词,你可以使用Python的自然语言处理库NLTK(Natural Language Toolkit)和正则表达式re。下面是一个简单的示例代码,展示了如何读取文件、分词并查找关键词:
```python
import nltk
from nltk.corpus import stopwords
import re
# 1. 定义要搜索的关键词列表
keywords = ['关键词1', '关键词2', '关键词3']
# 2. 加载停用词,以便过滤掉常见的无意义词汇
stop_words = set(stopwords.words('chinese'))
# 3. 读取年报文本文件
with open('annual_report.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 4. 分词
tokens = nltk.word_tokenize(text)
# 5. 过滤停用词并转换为小写
filtered_tokens = [token.lower() for token in tokens if token.lower() not in stop_words]
# 6. 搜索关键词
matches = [keyword for keyword in keywords if keyword in filtered_tokens]
# 7. 打印找到的关键词
if matches:
print(f"找到的关键词有:{matches}")
else:
print("未找到任何关键词")
阅读全文