python实现中心思想提取代码
时间: 2023-09-30 20:07:50 浏览: 73
Python进行特征提取的示例代码
以下是一个简单的 Python 代码示例,用于提取文本中的中心思想:
```python
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
# 读取文本文件
with open('text.txt', 'r') as file:
text = file.read()
# 分句和分词
sentences = sent_tokenize(text)
words = []
for sentence in sentences:
words += word_tokenize(sentence)
# 去除停用词
stop_words = set(stopwords.words('english'))
filtered_words = []
for word in words:
if word.lower() not in stop_words:
filtered_words.append(word)
# 统计词频
freq_dist = FreqDist(filtered_words)
# 打印出现频率最高的前10个词
print(freq_dist.most_common(10))
```
这个例子使用了`nltk`库来进行自然语言处理,它能够对文本进行分句、分词、去除停用词、统计词频等操作。在这个例子中,我们首先读取了一个文本文件,然后将其中的内容分句和分词。接着,我们使用`stopwords`来去除停用词,最后使用`FreqDist`来统计词频并打印出现频率最高的前10个词。这些词可以作为文本的中心思想,因为它们出现的频率最高,反映了文本的重要内容。
阅读全文