用Python脚本,英文分词,如何实现有实义的单词,或几个单词的短语
时间: 2024-05-21 07:16:02 浏览: 113
要实现有实义的单词或短语的英文分词,可以使用自然语言处理库NLTK中的词性标注功能。具体步骤如下:
1. 安装nltk库:在命令行中输入 pip install nltk
2. 导入nltk库:在Python脚本中输入 import nltk
3. 下载nltk数据:在Python脚本中输入 nltk.download('averaged_perceptron_tagger')
4. 使用词性标注功能:在Python脚本中输入 nltk.pos_tag(words),其中words是待分词的文本字符串,函数返回值是一个列表,每个元素是一个元组(word, pos),其中word是单词或短语,pos是它的词性标注,例如('apple', 'NN')表示单词“apple”的词性是名词。
5. 筛选有实义的单词或短语:可以根据词性标注的结果,筛选出名词、动词、形容词、副词等有实义的词汇,或者根据上下文语境,筛选出符合要求的短语。
举例来说,假设有如下文本字符串:
text = "I like to eat apples and bananas, but I don't like oranges."
可以使用如下代码进行分词和词性标注,并筛选出名词和动词:
import nltk
# 下载数据
nltk.download('averaged_perceptron_tagger')
# 待分词的文本字符串
text = "I like to eat apples and bananas, but I don't like oranges."
# 分词和词性标注
words = nltk.word_tokenize(text)
pos_tags = nltk.pos_tag(words)
# 筛选名词和动词
meaningful_words = [word for word, pos in pos_tags if pos.startswith('N') or pos.startswith('V')]
print(meaningful_words)
输出结果为:['like', 'eat', 'apples', 'bananas', 'like', 'oranges'],其中包含了有实义的单词和短语。
阅读全文