构建词典:将所有文本中出现的单词构建为一个词典,每个单词对应一个唯一的整数ID。可以使用Python中的TfidfVectorizer库中的fit_transform()方法进行构建。的代码
时间: 2024-02-17 22:03:09 浏览: 53
Python中创建字典的几种方法总结(推荐)
好的,以下是使用TfidfVectorizer库中的fit_transform()方法构建词典的代码示例:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 定义文本数据
text_data = ["This is the first document.", "This is the second document.", "And this is the third one.", "Is this the first document?"]
# 创建TfidfVectorizer对象,并调用fit_transform()方法构建词典
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(text_data)
# 输出词典
print(vectorizer.vocabulary_)
```
运行以上代码,输出的结果将是一个Python字典,其中每个键值对表示一个单词和对应的唯一整数ID。例如:
```
{'this': 6, 'is': 3, 'the': 5, 'first': 2, 'document': 1, 'second': 4, 'and': 0, 'third': 7, 'one': 6}
```
阅读全文