用python批量对txt文件进行分词和关键词提取的详细代码,可以直接运行
时间: 2024-03-05 20:52:31 浏览: 108
好的,这是一个基于Python的分词和关键词提取代码示例:
首先,需要安装jieba和gensim这两个库,可以通过以下命令进行安装:
```python
pip install jieba gensim
```
接下来,我们需要读取txt文件中的文本内容,并进行分词和关键词提取。以下是完整的代码:
```python
import os
import jieba
from gensim import corpora, models
def read_file(filename):
"""
读取文件内容
"""
with open(filename, 'r', encoding='utf-8') as f:
content = f.read()
return content
def cut_words(content):
"""
对文本内容进行分词
"""
words = jieba.cut(content)
return ' '.join(words)
def extract_keywords(content):
"""
提取文本关键词
"""
# 构建词向量
texts = [content.split()]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
# 训练tf-idf模型
tfidf = models.TfidfModel(corpus)
# 提取关键词
keywords = tfidf[corpus][0]
return keywords
if __name__ == '__main__':
# 遍历txt文件
file_dir = './txt_files'
for root, dirs, files in os.walk(file_dir):
for file in files:
if file.endswith('.txt'):
filename = os.path.join(root, file)
# 读取文件内容
content = read_file(filename)
# 对文本内容进行分词
words = cut_words(content)
# 提取文本关键词
keywords = extract_keywords(words)
# 打印结果
print('文件名:', file)
print('分词结果:', words)
print('关键词提取结果:', keywords)
```
在以上代码中,我们首先定义了三个函数:
- `read_file`:用于读取txt文件中的文本内容。
- `cut_words`:用于对文本内容进行分词。
- `extract_keywords`:用于提取文本关键词。
然后,我们遍历指定目录下的所有txt文件,并对每个文件进行分词和关键词提取,最后打印结果。
运行以上代码,即可批量对txt文件进行分词和关键词提取。
阅读全文