利用fasttext训练词向量
时间: 2023-09-17 19:06:52 浏览: 167
Object-C-预训练词向量 文本分类.zip
FastText是Facebook开源的一个词向量库,它是在Word2Vec的基础上进行了改进,能够更好地处理不常见的单词和低频词,因此在处理大规模数据时表现更加优异。下面介绍如何利用FastText训练词向量。
首先,需要安装FastText库,可以通过以下命令安装:
```
pip install fasttext
```
然后,可以使用FastText库提供的API来训练词向量,例如:
```
import fasttext
# 训练词向量
model = fasttext.train_unsupervised('corpus.txt', model='skipgram', dim=100)
# 保存模型
model.save_model('model.bin')
# 加载模型
model = fasttext.load_model('model.bin')
# 获取词向量
vector = model['word']
```
其中,corpus.txt为训练语料库的路径,model参数指定训练方法,dim参数指定词向量的维度。训练完成后,可以调用save_model方法保存模型,load_model方法加载模型。可以通过model方法获取单词的词向量。
FastText还可以加载预训练的词向量模型,例如:
```
import fasttext
# 加载预训练模型
model = fasttext.load_model('cc.en.300.bin')
# 获取词向量
vector = model['word']
```
其中,'cc.en.300.bin'为预训练模型的路径。预训练模型可以从FastText官网下载:https://fasttext.cc/docs/en/crawl-vectors.html 。
阅读全文