nltk英文分词代码
时间: 2024-07-16 20:01:09 浏览: 79
NLTK(Natural Language Toolkit)是一个广泛使用的Python库,用于处理自然语言文本数据。对于英文分词(Tokenization),Nltk提供了一些方便的工具。以下是一个基本的例子,展示如何使用nltk对英文文本进行分词:
```python
import nltk
from nltk.tokenize import word_tokenize
# 加载停用词列表(如果需要)
nltk.download('punkt')
nltk.download('stopwords')
# 示例文本
text = "This is a sample sentence for tokenization."
# 使用word_tokenize进行分词
tokens = word_tokenize(text)
# 输出分词结果(包含标点符号)
print(tokens)
```
在这个例子中,`word_tokenize()`函数会将句子分割成单词,忽略空格以外的字符。如果你想移除停用词(如"a", "is"等常见词汇),可以先加载停用词列表并过滤掉:
```python
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
print(filtered_tokens)
```
相关问题
使用nltk进行分词怎么写代码
要使用nltk进行分词,需要先安装nltk库,并下载对应的分词器。下面是一个简单的代码示例来使用nltk进行分词:
```
import nltk
# 下载分词器和停用词表
nltk.download('punkt')
nltk.download('stopwords')
# 载入停用词表
stop_words = set(nltk.corpus.stopwords.words('english'))
# 分词函数
def tokenize(text):
tokens = nltk.word_tokenize(text)
tokens = [token.lower() for token in tokens if token.isalpha() and token.lower() not in stop_words]
return tokens
# 测试分词函数
text = "This is a sample sentence."
tokens = tokenize(text)
print(tokens)
```
在这个示例中,我们使用了nltk中的word_tokenize函数来将文本分成单词,并将所有单词转换成小写字母形式。然后我们使用nltk.corpus.stopwords.words函数来下载英语停用词表,并将其加载进一个set对象里供我们在tokenize函数中使用。最后,我们使用一个简单的列表推导式来过滤掉不是单词或是停用词的标点符号或其他字符。
nltk分词后去除停用词
以下是使用NLTK进行分词和去除停用词的Python代码示例:
```python
import nltk
from nltk.corpus import stopwords
# 下载停用词表
nltk.download('stopwords')
# 加载停用词表
stop_words = set(stopwords.words('english'))
# 示例文本
text = "This is an example sentence, showing off the stop words filtration."
# 分词
tokens = nltk.word_tokenize(text)
# 去除停用词
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)
```
输出结果:
```
['example', 'sentence', ',', 'showing', 'stop', 'words', 'filtration', '.']
```
在上面的代码中,我们首先使用`nltk.corpus`模块中的`stopwords`函数下载英语停用词表。然后,我们将停用词表存储在一个集合中,以便更快地进行查找。接下来,我们定义了一个示例文本,并使用`nltk`的`word_tokenize`函数将其分成单词。最后,我们使用列表推导式和停用词集合来去除停用词,并打印结果。
阅读全文