请用python3编写程序,它可以实现对一个大容量英文文献进行分词与分句,并且能够对该文献内容的全文单词位置进行检索。更具体地,对于一个含有以分隔符(逗号“,”、空格“ ”、分号“;”、英文句号“.”等非英文字母)分隔开的若干单词的文本文献(其中单词可能重复),程序要读入和存储整个文本,并根据输入的若干个单词进行查询,返回每个单词出现的所有句子以及是句子中第几个单词。
时间: 2023-06-05 16:47:35 浏览: 339
此问题要求用Python3编写程序,它可以实现对一个大容量英文文本进行分词与分句,并能够对该文本内容的全文单词位置进行检索。更具体地说,对于一个包含以分隔符(逗号“,”、空格“ ”、分号“;”、英文句号“.”等非英文字符)分隔的若干个单词的文本内容(其中单词可重复),程序要读入和存储整个文本,并根据输入的若干个单词进入查询,返回每个单词出现的所有位置以及是句子中第几个单词。
相关问题
请用python3编写程序,它可以实现对一个大容量英文文献进行分词与分句,并且能够对该文献内容的全文单词位置进行检索。更具体地,对于一个含有以分隔符(逗号“,”、空格“ ”、分号“;”、英文句号“.”
这个问题需要用Python3编写程序,它可以实现对一个大容量英文文献进行分词与分句,并且能够对该文献内容的全文单词位置进行搜索。此外,对于一个包含以分隔符(逗号、“ ”、分号、“.”、英文句号)隔开的句子的字符串,它还包含有以分隔符(逗号、“ ”、分号、“.”、英文句号)分隔的单词位置。
python nltk 分词分句
使用nltk库进行分词和分句非常方便。首先需要安装nltk库,然后下载punkt模块,代码如下:
```python
import nltk
nltk.download('punkt')
```
接着就可以使用word_tokenize()函数进行分词,使用sent_tokenize()函数进行分句,示例代码如下:
```python
from nltk.tokenize import word_tokenize, sent_tokenize
text = "Hello world. How are you today?"
tokens = word_tokenize(text)
sentences = sent_tokenize(text)
print(tokens)
print(sentences)
```
输出结果为:
```
['Hello', 'world', '.', 'How', 'are', 'you', 'today', '?']
['Hello world.', 'How are you today?']
```
阅读全文