word2vec中文预训练模型
时间: 2024-04-01 22:29:20 浏览: 83
中文维基语料Word2Vec训练模型
4星 · 用户满意度95%
Word2Vec是一种用于将词语表示为向量的算法,它可以通过学习上下文信息来捕捉词语之间的语义关系。Word2Vec的中文预训练模型是在大规模中文语料上进行训练得到的,可以用于中文文本的向量表示。
目前比较知名的中文预训练模型有两个:中文维基百科预训练模型(Chinese Wikipedia Word2Vec)和中文维基百科预训练模型(Chinese Word Embeddings)。
中文维基百科预训练模型(Chinese Wikipedia Word2Vec)是由搜狗公司基于中文维基百科语料训练得到的,包含了大约800多万个词语的向量表示。这个模型可以用于中文文本的词语相似度计算、文本分类、情感分析等任务。
中文维基百科预训练模型(Chinese Word Embeddings)是由哈工大社会计算与信息检索研究中心基于中文维基百科语料训练得到的,包含了大约200多万个词语的向量表示。这个模型可以用于中文文本的词语相似度计算、命名实体识别、关键词提取等任务。
阅读全文