中文预训练模型集合发布：覆盖大中小模型及语义相似度

版权申诉

20 浏览量更新于2024-10-13 收藏 1004KB ZIP 举报

资源摘要信息:"本资源集合包含了一系列预训练的高质量中文模型，涵盖了当前人工智能领域中预训练模型的最新进展和创新。具体来说，该集合中的模型分为三类：大模型、小模型以及专门用于处理语义相似度的模型。以下是对于这些模型的详细知识点梳理： 1. 高质量中文预训练大模型：这类模型在中文处理上取得了与当前最佳模型相当的水平，甚至在某些特定任务上表现更优。这表明它们在理解中文文本、生成和翻译等方面拥有非常高的能力。这些模型通常采用了大量的训练数据和复杂的网络结构来捕捉语言的深层次特征。 2. 最快速的小模型：这类模型在速度上有了显著的提升，其处理速度大约是Bert-base模型的8倍，并且能够与albert_tiny模型保持同等速度，而效果更佳。这意味着该模型能够在保持较高性能的同时，大幅缩短计算时间，更适合资源受限的环境或者需要快速响应的应用场景。 3. 语义相似度专门模型：专门设计用于处理语义相似度或句子对问题的模型。这些模型通常经过特殊训练，能够更准确地把握句子之间的语义关联，从而在比较句子相似性时获得更好的性能。这类模型在自然语言处理的许多领域都有重要应用，如问答系统、文本摘要、机器翻译等。 4. 支持的任务：目前这些模型已经能够支持6个分类和句子对任务，并计划支持CLUE benchmark的所有任务。CLUE benchmark是一套针对中文自然语言处理的基准测试，包含多种不同难度和类型的NLP任务。能够支持全集CLUE benchmark任务表明这些模型具有广泛的应用范围和良好的适应性。在使用这些模型时，开发者和研究人员需要注意模型的适用范围和性能表现，同时也要关注模型的计算资源消耗，以确保能够在不同的应用场景中做出正确的选择。标签为'人工智能中文预训练模型'说明该资源集合专注于服务于中文环境的人工智能应用，预训练模型作为人工智能的一个关键技术，通过大规模数据预训练能够捕捉到丰富的语言特征和模式，极大地推动了自然语言处理任务的发展和应用。文件名称'CLUEPretrainedModels-master'指向的是这些模型的主文件夹或源代码仓库。这个名称表明这些模型可能与CLUE（Chinese Language Understanding Evaluation）基准测试紧密相关，旨在提供一个统一的评估框架，以推动中文自然语言处理技术的发展。" 总结来说，该资源集合为中文人工智能应用开发者提供了一套全面的工具，不仅覆盖了多种模型类型，还针对特定任务提供了优化的模型，极大地便利了中文NLP的研究和应用开发。通过使用这些高质量的预训练模型，开发者可以更高效地构建出功能强大的中文处理应用，从而推动中文人工智能领域的进步。

收起资源包目录

人工智能-项目实践-预训练-高质量中文预训练模型集合：最先进大模型、最快小模型、相似度专门模型.zip （211个子文件）

tokenization_transfo_xl.py 21KB

extract_features.py 14KB

.gitignore 1KB

tokenization.py 13KB

.gitignore 1KB

run_multichoice_mrc.py 16KB

tokenization.py 12KB

run_classifier.py 42KB

.gitignore 1KB

run_c3.py 34KB

modeling_xlm.py 44KB

tokenization.py 12KB

run_pretraining.py 18KB

modeling_utils.py 42KB

modeling_roberta.py 25KB

modeling_ctrl.py 23KB

official_tokenization.py 14KB

LICENSE 11KB

RoBERTa_zh_Large_Learning_Curve.png 191KB

tokenization.py 12KB

modeling_transfo_xl_utilities.py 13KB

predicting_movie_reviews_with_bert_on_tf_hub.ipynb 65KB

conlleval.py 10KB

put_data_here 0B

modeling_albert.py 54KB

create_pretraining_data.py 16KB

modeling_transfo_xl.py 39KB

tokenization_xlnet.py 10KB

DRCD_preprocess.py 14KB

cmrc2018_output.py 19KB

modeling_auto.py 36KB

classifier_utils.py 30KB

run_ner.py 33KB

create_pretraining_data.py 25KB

run_squad.py 45KB

run_classifier.py 41KB

modeling.py 37KB

CONTRIBUTING.md 1KB

classifier_utils.py 30KB

google_albert_pytorch_modeling.py 22KB

run_mrc.py 13KB

multilingual.md 11KB

put_data_here 0B

run_classifier.py 41KB

tokenization_utils.py 54KB

predicting_movie_reviews_with_bert_on_tf_hub.ipynb 65KB

.gitignore 1KB

CHID_preprocess.py 15KB

common.py 12KB

run_ner.py 33KB

run_pretraining.py 18KB

.gitignore 1KB

conlleval.py 10KB

tokenization_bert.py 22KB

run_pretraining.py 19KB

conlleval.py 10KB

clue.py 18KB

.gitignore 1KB

README.md 2KB

DRCD_output.py 19KB

run_ner.py 33KB

cmrc2018_preprocess.py 15KB

.gitignore 1KB

create_pretraining_data.py 16KB

modeling_xlnet.py 71KB

extract_features.py 14KB

.gitignore 1KB

modeling_distilbert.py 34KB

run_classifier_with_tfhub.py 11KB

tokenization_xlm.py 36KB

.gitignore 1KB

LICENSE 11KB

put_data_here 0B

run_squad.py 45KB

configuration_utils.py 11KB

corpus.png 69KB

run_pretraining.py 18KB

modeling_bert.py 58KB

run_classifier.py 31KB

pytorch_modeling.py 57KB

run_classifier_with_tfhub.py 11KB

.gitignore 1KB

modeling_gpt2.py 32KB

.gitignore 1KB

run_classifier.py 35KB

README.md 4KB

modeling_openai.py 30KB

file_utils.py 11KB

modeling.py 37KB

.gitignore 1KB

zh_wiki.py 140KB

multilingual.md 11KB

create_pretraining_data.py 16KB

CONTRIBUTING.md 1KB

put_data_here 0B

共 211 条

博士僧小星

粉丝: 2205
资源: 5983

中文预训练模型集合发布：覆盖大中小模型及语义相似度

高质量中文预训练模型集合：最先进大模型、最快小模型、相似度专门模型.zip

人工智能-项目实践-预训练-Bert预训练模型fine-tune计算文本相似度.zip

bert预训练模型句子相似度tensorflow

word2vec中文预训练模型

现有预训练模型的优缺点

BERT相似度任务实践

word2vec预训练模型下载

自然语言处理基于预训练模型的方法

facenet官方预训练模型

预训练模型微调是什么意思

最新资源