用python构建语料库,设置本地存放作品集文本的目录,调用fileids函数获取文本。
时间: 2024-03-22 20:41:43 浏览: 103
应用python文本分析
要用Python构建语料库,可以使用NLTK库。以下是一个示例代码,演示如何设置本地存放作品集文本的目录,调用fileids函数获取文本:
```python
import nltk
from nltk.corpus import PlaintextCorpusReader
# 设置本地存放作品集文本的目录路径
corpus_root = "/path/to/corpus"
# 创建PlaintextCorpusReader对象,指定语料库的根目录和文件名模式
corpus = PlaintextCorpusReader(corpus_root, ".*\.txt")
# 获取所有文本的文件名
fileids = corpus.fileids()
# 打印所有文件名
print(fileids)
```
在上面的代码中,我们首先设置了本地存放作品集文本的目录路径,然后创建了一个PlaintextCorpusReader对象,指定语料库的根目录和文件名模式。这里的文件名模式是".*\\.txt",表示匹配所有以".txt"结尾的文本文件。接着,我们调用了corpus.fileids()函数,获取所有文本的文件名。最后,我们打印出所有文件名。
阅读全文