请用python3编写程序,它可以实现对一个大容量英文文献进行分词与分句,并且能够对该文献内容的全文单词位置进行检索。更具体地,对于一个含有以分隔符(逗号“,”、空格“ ”、分号“;”、英文句号“.”等非英文字母)分隔开的若干单词的文本文献(其中单词可能重复),程序要读入和存储整个文本,并根据输入的若干个单词进行查询,返回每个单词出现的所有句子以及是句子中第几个单词。
时间: 2023-06-05 19:47:35 浏览: 252
此问题要求用Python3编写程序,它可以实现对一个大容量英文文本进行分词与分句,并能够对该文本内容的全文单词位置进行检索。更具体地说,对于一个包含以分隔符(逗号“,”、空格“ ”、分号“;”、英文句号“.”等非英文字符)分隔的若干个单词的文本内容(其中单词可重复),程序要读入和存储整个文本,并根据输入的若干个单词进入查询,返回每个单词出现的所有位置以及是句子中第几个单词。
相关问题
请用python3编写程序,它可以实现对一个大容量英文文献进行分词与分句,并且能够对该文献内容的全文单词位置进行检索。更具体地,对于一个含有以分隔符(逗号“,”、空格“ ”、分号“;”、英文句号“.”
这个问题需要用Python3编写程序,它可以实现对一个大容量英文文献进行分词与分句,并且能够对该文献内容的全文单词位置进行搜索。此外,对于一个包含以分隔符(逗号、“ ”、分号、“.”、英文句号)隔开的句子的字符串,它还包含有以分隔符(逗号、“ ”、分号、“.”、英文句号)分隔的单词位置。
如何对一个没有标点符号的中文文本进行分句,请写出实现它的python代码
可以使用中文分词库jieba来实现中文文本的分句,具体步骤如下:
1. 将文本按照换行符('\n')或句号('。')进行切分,得到一段段文本;
2. 对于每段文本,使用jieba.cut函数进行分词;
3. 遍历分词结果,将每个分词加入一个句子列表中,直到遇到标点符号或者句子长度达到一定值时,将句子列表中的词语拼接成一个完整的句子,并将句子加入到句子列表中;
4. 将每段文本的句子列表合并成一个完整的文本的句子列表。
代码示例:
```python
import jieba
def split_sentences(text, max_len=100):
sentences = []
for line in text.split('\n'):
line = line.strip()
if not line:
continue
for sent in re.split('[。!?;]', line):
sent = sent.strip()
if not sent:
continue
words = jieba.cut(sent)
sentence = []
for word in words:
if word in ['。', '!', '?', ';']:
sentence.append(word)
sentences.append(''.join(sentence))
sentence = []
else:
sentence.append(word)
if len(sentence) >= max_len:
sentences.append(''.join(sentence))
sentence = []
if sentence:
sentences.append(''.join(sentence))
return sentences
```
其中,参数max_len表示句子的最大长度,超过该长度则强制分割成两个句子。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)