开源 Embedding 模型
时间: 2024-08-13 15:04:38 浏览: 383
开源 Embedding 模型是指那些可供开发者免费使用的预训练模型,用于将文本、词汇或序列数据映射到低维向量空间(即嵌入空间),以便更好地捕捉语义和上下文信息。这些模型常用于自然语言处理任务,如词嵌入(Word Embeddings)、句子嵌入(Sentence Embeddings)和文档嵌入(Document Embeddings)等。
1. Word2Vec(例如Google的word2vec和GloVe):这是最早的词嵌入模型,如Continuous Bag of Words (CBOW) 和 Skip-gram,它们生成每个词的固定维度向量,表示其语义和语法特征。
2. FastText:由Facebook开发,它不仅考虑了词本身的字符信息,还能捕捉到未登录词(不在训练词汇表中的词)的子词信息。
3. BERT (Bidirectional Encoder Representations from Transformers):这是一种基于Transformer架构的模型,它能够捕捉单词之间的双向上下文关系,是深度学习在预训练模型中的重要里程碑。
4. ELMO (Embeddings from Language Models) 和 GPT系列(包括GPT-2和GPT-3):这些模型使用深度双向LSTM或者Transformer结构,提供了更复杂的语言模型,生成的嵌入包含更多的语境信息。
5. Universal Sentence Encoder (USE):Google开发的模型,为整个句子生成固定长度的向量,用于各种跨语言和跨任务的文本理解应用。
6. DistilBERT、MiniLM等轻量级版本:为了提高效率,对大型模型如BERT进行了压缩,提供更小的模型大小和更快的推理速度。
阅读全文