python如何用nltk分词
时间: 2023-04-05 10:01:16 浏览: 157
您好,关于您的问题,我可以回答。使用NLTK进行分词,需要先安装NLTK库,然后使用nltk.tokenize模块中的word_tokenize函数进行分词。具体代码如下:
```
import nltk
nltk.download('punkt') # 下载必要的数据
text = "This is a sentence."
tokens = nltk.word_tokenize(text)
print(tokens)
```
输出结果为:['This', 'is', 'a', 'sentence', '.']
希望能够帮到您。
相关问题
python nltk 分词分句
使用nltk库进行分词和分句非常方便。首先需要安装nltk库,然后下载punkt模块,代码如下:
```python
import nltk
nltk.download('punkt')
```
接着就可以使用word_tokenize()函数进行分词,使用sent_tokenize()函数进行分句,示例代码如下:
```python
from nltk.tokenize import word_tokenize, sent_tokenize
text = "Hello world. How are you today?"
tokens = word_tokenize(text)
sentences = sent_tokenize(text)
print(tokens)
print(sentences)
```
输出结果为:
```
['Hello', 'world', '.', 'How', 'are', 'you', 'today', '?']
['Hello world.', 'How are you today?']
```
python使用NLTK实现电影评论情感分类
好的,我可以为您提供关于使用NLTK实现电影评论情感分类的一些指导。
首先,您需要准备好一个电影评论数据集,其中包含正面和负面评论。您可以在网上找到一些公开的数据集,例如IMDB电影评论数据集。
然后,您需要导入NLTK库并下载情感分析所需要的数据包。您可以使用以下代码来下载:
```
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('movie_reviews')
nltk.download('vader_lexicon')
```
接下来,您需要对数据集进行分词、去除停用词、提取特征等预处理步骤。您可以使用NLTK的`word_tokenize()`和`stopwords.words()`函数来实现分词和去除停用词操作。
然后,您可以使用NLTK的NaiveBayes分类器对数据集进行分类。您可以使用以下代码来创建分类器并对数据集进行训练:
```
from nltk.corpus import movie_reviews
from nltk.classify import NaiveBayesClassifier
from nltk.classify.util import accuracy
def extract_features(words):
return dict([(word, True) for word in words])
neg_ids = movie_reviews.fileids('neg')
pos_ids = movie_reviews.fileids('pos')
neg_features = [(extract_features(movie_reviews.words(fileids=[f])), 'neg') for f in neg_ids]
pos_features = [(extract_features(movie_reviews.words(fileids=[f])), 'pos') for f in pos_ids]
train_set = neg_features + pos_features
classifier = NaiveBayesClassifier.train(train_set)
```
最后,您可以使用分类器对新的评论进行情感分类。您可以使用以下代码来对新评论进行分类:
```
def predict_sentiment(review):
words = nltk.word_tokenize(review)
feats = extract_features(words)
return classifier.classify(feats)
review = "This movie is terrible!"
sentiment = predict_sentiment(review)
print(sentiment)
```
希望这些代码能够帮助您实现电影评论情感分类。
阅读全文