python 创建语料库 计算文本词汇表
时间: 2023-07-31 19:08:33 浏览: 133
好的,我来回答你的问题。
为了创建语料库并计算文本词汇表,你可以使用 Python 中的 NLTK(Natural Language Toolkit)库。
首先,你需要安装 NLTK:
```python
!pip install nltk
```
接下来,你需要下载一些语料库。你可以使用以下命令下载全部语料库:
```python
import nltk
nltk.download('all')
```
或者,你可以只下载你需要的语料库。例如,如果你需要下载英文的语料库,你可以使用以下命令:
```python
nltk.download('punkt')
nltk.download('stopwords')
```
下载完成后,你可以使用以下代码创建语料库并计算文本词汇表:
```python
import nltk
from nltk import FreqDist
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
# 读取文本文件
with open('text.txt', 'r') as file:
text = file.read()
# 分词
tokens = word_tokenize(text)
# 去除停用词
stop_words = set(stopwords.words('english'))
tokens = [token for token in tokens if token.casefold() not in stop_words]
# 计算词频
freq_dist = FreqDist(tokens)
# 输出前 10 个最常见单词及其词频
print(freq_dist.most_common(10))
```
在这个代码中,我们首先读取了一个文本文件,然后使用 NLTK 的 `word_tokenize` 函数将文本分成单词。接着,我们使用 NLTK 的 `stopwords` 函数去除停用词,然后使用 `FreqDist` 函数计算词频。最后,我们输出前 10 个最常见单词及其词频。
希望这个回答对你有帮助!
阅读全文