腾讯中文词向量资源与训练方法详解

版权申诉

5星 · 超过95%的资源 135 浏览量更新于2024-08-09 2 收藏 3KB TXT 举报

“经过处理的腾讯中文词汇/短语向量 tencent-ailab-embedding-zh-d200-v0.2.0-s”是一款由腾讯AI Lab发布的预训练中文词向量模型，包含了800万个中文词汇的200维词向量。这个模型适用于多种自然语言处理（NLP）任务，数据来源于新闻、网页和小说等大量文本，旨在提高中文文本的语义理解和表达能力。该模型的构建过程中，词表是由维基百科、百度百科以及学术论文“Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches”中的方法生成的。论文中探讨了基于分布和模式的方法来挖掘词汇的语义类别，这对于构建具有丰富语义信息的词表至关重要。训练模型时，腾讯AI Lab采用了“Directional Skip-Gram”方法，这是一种改进的Skip-Gram模型，它明确地区分了单词的左侧和右侧上下文，从而提高了词向量的表示质量。详细的训练方法可以参考论文“Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings”。在使用腾讯词向量时，用户可以选择使用任何开源的分词工具进行预处理，例如jieba等，同时可以考虑使用细粒度和粗粒度的分词策略以适应不同场景。值得注意的是，模型并未去除停用词、数字和标点符号，因此在实际应用中，用户需要根据具体需求自行构建词表并过滤掉无关词汇。加载词向量的Python代码示例提供了一个名为`load_cn_wiki_wordvec`的函数，该函数读取txt格式的词向量文件。文件的第一行包含词汇总数和词向量维度，从第二行开始，每一行表示一个词及其对应的词向量，各维度值之间用空格分隔。此外，词向量也提供了pkl格式，可以通过numpy库加载。这款腾讯AI Lab的中文词向量模型为中文NLP任务提供了强大的预训练工具，用户可以将其用于诸如情感分析、文本分类、语义相似度计算等多种任务，通过结合自身的数据和业务需求，进一步优化和应用这些预训练的词向量。

源代码杀手

粉丝: 9w+
资源: 18

腾讯中文词向量资源与训练方法详解

Lab 05 - Microsoft LS 2010 Enterprise Voice Configuration.pdf

tencent-angel

lab-gogoa

tencent-ailab-embedding-zh-d200 加载速度慢

中文word2vec预训练模型下载

bert_config.json在哪下载

http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/ 讲解词向量是怎么定义的

# Step 1 - Extract embeddings embedding_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

中文world2vec模型下载

embedding = HuggingFaceEmbeddings(model_name="GanymedeNil/text2vec-large-chinese", model_kwargs={'device': "cuda"})改用模型本地路径

最新资源