nltk.word_tokenize自定义分隔符为'_'
时间: 2024-02-28 09:53:01 浏览: 89
word分隔符的使用
如果你想在 `nltk.word_tokenize()` 中使用下划线 `_` 作为分隔符,可以使用正则表达式 `r'\w+'`,它匹配任意由字母、数字和下划线组成的单词。具体实现代码如下:
```python
import nltk
# 自定义分隔符正则表达式
pattern = r'\w+'
# 覆盖默认的分隔符
tokens = nltk.tokenize.regexp_tokenize("Hello_world! How are you?", pattern)
print(tokens)
```
输出结果为:
```
['Hello', 'world', 'How', 'are', 'you']
```
在这个例子中,我们使用正则表达式 `r'\w+'` 作为分隔符,它匹配由字母、数字和下划线组成的单词,因此下划线 `_` 也被视为一个单词字符,不会作为分隔符。你可以根据具体情况修改正则表达式来定义自己的分隔符。
阅读全文