python编写一个程序进行文本分析
时间: 2023-08-10 12:05:41 浏览: 92
基于python文本分析
好的,以下是一个简单的Python程序,可以用于文本分析:
```python
import nltk
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
# 读取文本文件
with open('input.txt', 'r') as f:
text = f.read()
# 对文本进行分词
tokens = word_tokenize(text)
# 计算词频
fdist = FreqDist(tokens)
# 打印出现频率最高的前10个词和它们的频率
for word, frequency in fdist.most_common(10):
print(word + ': ' + str(frequency))
```
这个程序的作用是读取一个文本文件(假设文件名为`input.txt`),对其中的文本进行分词,并计算每个词出现的频率。然后,程序会打印出现频率最高的前10个词和它们的频率。
需要注意的是,这个程序使用了NLTK库中的`word_tokenize`函数进行分词,使用了`FreqDist`类进行词频统计。在运行此程序之前,需要确保已经安装了NLTK库,并且已经下载了必要的语料库。如果还没有安装和下载,可以使用以下命令:
```python
import nltk
nltk.download('punkt')
nltk.download('stopwords')
```
其中,`punkt`语料库是用于分词的,`stopwords`语料库是用于去除停用词的(如果需要的话)。
阅读全文