RecursiveCharacterTextSplitter
时间: 2024-01-20 11:02:33 浏览: 26
RecursiveCharacterTextSplitter 是一个递归字符文本拆分器,可以将一个长字符串按照指定的长度进行拆分,并且支持递归拆分。这个工具通常用于将长文本拆分成多个短文本,以便于处理或者显示。
RecursiveCharacterTextSplitter 的使用方法如下:
1. 首先,导入 RecursiveCharacterTextSplitter 类:
```
from langchain import RecursiveCharacterTextSplitter
```
2. 创建 RecursiveCharacterTextSplitter 对象,并且传入需要拆分的文本和拆分长度:
```
splitter = RecursiveCharacterTextSplitter(text, max_length)
```
其中,text 是需要拆分的文本,max_length 是每个拆分出来的文本的最大长度。
3. 调用 split 方法进行文本拆分:
```
result = splitter.split()
```
这个方法会返回一个列表,包含了拆分出来的所有文本。如果拆分后的文本长度超过了指定的最大长度,会自动递归进行拆分,直到所有的文本长度都小于等于最大长度为止。
举个例子,如果有一个长文本 "This is a sample text that needs to be split into multiple parts",需要将其拆分成每个长度不超过 10 的短文本,可以这样做:
```
from langchain import RecursiveCharacterTextSplitter
text = "This is a sample text that needs to be split into multiple parts"
max_length = 10
splitter = RecursiveCharacterTextSplitter(text, max_length)
result = splitter.split()
print(result)
```
运行结果如下:
```
['This is a ', 'sample te', 'xt that n', 'eeds to b', 'e split i', 'nto multi', 'ple parts']
```
可以看到,将长文本拆分成了多个长度不超过 10 的短文本。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![jpg](https://img-home.csdnimg.cn/images/20210720090814.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![gz](https://img-home.csdnimg.cn/images/20210720083447.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)