哈工大版本chinese-roberta-wwm-ext预训练模型发布

需积分: 50 104 下载量 162 浏览量 更新于2024-12-23 3 收藏 367.19MB RAR 举报
资源摘要信息:"chinese-roberta-wwm-ext.rar 是一个针对自然语言处理(NLP)任务的预训练模型,基于 PyTorch 框架,由哈尔滨工业大学(哈工大)的研究团队开发。该模型是对广泛使用的 RoBERTa(Robustly optimized BERT approach)模型的扩展和改进,特别针对中文文本进行了预训练,其中 'wwm' 代表 Whole Word Masking,这是一种处理中文等非空格分隔语言的掩码策略。Whole Word Masking 与原始的 RoBERTa 模型中的随机单词掩码策略不同,它能够更好地适应中文语言的特性,因为它倾向于掩码整个词汇而不是单词的一部分,这有助于模型学习到更完整和准确的语言单元表示。 该模型的 'ext' 后缀可能意味着它是一个针对扩展任务预训练的版本,这表明模型可能在更大的数据集上进行了预训练,或者包含了更多的训练步骤,以便更好地理解和处理广泛的中文文本。预训练模型在自然语言处理中扮演着关键角色,因为它们能够提供丰富的文本表示,这些表示可以被迁移学习到各种下游任务中,如文本分类、命名实体识别、情感分析、问答系统等。 哈工大版本的 chinese-roberta-wwm-ext 模型具有以下特点: 1. 基于 RoBERTa 架构:RoBERTa 模型是 BERT(Bidirectional Encoder Representations from Transformers)模型的增强版本,通过去除 Next Sentence Prediction (NSP) 任务、使用更大的批次大小、更长的训练时间以及动态掩码等改进,在多个 NLP 任务上取得了更好的性能。 2. Whole Word Masking:相较于 BERT 的单个字的掩码策略,Whole Word Masking 能够处理中文中的词汇边界问题,使模型在预训练时能够对完整的词汇进行编码和预测,这对于中文等语言来说是非常重要的。 3. PyTorch 框架支持:PyTorch 是一个开源的机器学习库,它在研究社区中非常受欢迎,因其灵活性和动态计算图特性,非常适合自然语言处理研究和开发。 4. 预训练模型的迁移学习优势:预训练模型能够通过迁移学习将学到的语言表示应用到特定的任务中,大幅减少了为每个任务单独训练模型所需的数据量和计算资源。 5. 对中文语料的优化:通过在大规模中文语料上预训练,该模型能够更好地捕捉和理解中文语言的语义和语法特点,这使得它在处理中文文本时具有很高的效率和准确性。 在使用 chinese-roberta-wwm-ext 模型时,用户通常会进行以下步骤: - 下载并解压预训练模型文件。 - 根据特定任务对模型进行微调(fine-tuning),这个过程涉及到在有标签的数据集上继续训练模型。 - 使用微调后的模型进行推理,即在实际任务中应用模型来预测或生成结果。 总的来说,chinese-roberta-wwm-ext 模型是 NLP 领域一个强大的工具,尤其在处理中文文本的任务中,它能够提供高水平的语言理解和生成能力。"
2023-07-01 上传
RoBERTa中文预训练模型 概述 中文预训练RoBERTa模型 RoBERTa是BERT的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了State of The Art的效果;可以用Bert直接加载。 本项目是用TensorFlow实现了在大规模中文上RoBERTa的预训练,也会提供PyTorch的预训练模型和加载方式。 中文预训练RoBERTa模型-下载 6层RoBERTa体验版 RoBERTa-zh-Layer6: Google Drive 或 百度网盘,TensorFlow版本,Bert 直接加载, 大小为200M 推荐 RoBERTa-zh-Large 通过验证 RoBERTa-zh-Large: Google Drive 或 百度网盘 ,TensorFlow版本,Bert 直接加载 RoBERTa-zh-Large: Google Drive 或 百度网盘 ,PyTorch版本,Bert的PyTorch版直接加载 RoBERTa 24/12层版训练数据:30G原始文本,近3亿个句子,100亿个中文字(token),产生了2.5亿个训练数据(instance);覆盖新闻、社区问答、多个百科数据等; 本项目与中文预训练24层XLNet模型 XLNet_zh项目,使用相同的训练数据。 RoBERTa_zh_L12: Google Drive 或 百度网盘 TensorFlow版本,Bert 直接加载 RoBERTa_zh_L12: Google Drive 或百度网盘 PyTorch版本,Bert的PyTorch版直接加载 Roberta_l24_zh_base TensorFlow版本,Bert 直接加载 24层base版训练数据:10G文本,包含新闻、社区问答、多个百科数据等 什么是RoBERTa: 一种强大的用于预训练自然语言处理(NLP)系统的优化方法,改进了Transformers或BERT的双向编码器表示形式,这是Google在2018年发布的自监督方法。 RoBERTa在广泛使用的NLP基准通用语言理解评估(GLUE)上产生最先进的结果。 该模型在MNLI,QNLI,RTE,STS-B和RACE任务上提供了最先进的性能,并在GLUE基准上提供了可观的性能改进。 RoBERTa得分88.5,在GLUE排行榜上排名第一,与之前的XLNet-Large的表现相当。 效果测试与对比 Performance 互联网新闻情感分析:CCF-Sentiment-Analysis 模型 线上F1 BERT 80.3 Bert-wwm-ext 80.5 XLNet 79.6 Roberta-mid 80.5 Roberta-large (max_seq_length=512, split_num=1) 81.25 注:数据来源于guoday的开源项目;数据集和任务介绍见:CCF互联网新闻情感分析 自然语言推断:XNLI 模型 开发集 测试集 BERT 77.8 (77.4) 77.8 (77.5) ERNIE 79.7 (79.4) 78.6 (78.2) BERT-wwm 79.0 (78.4) 78.2 (78.0) BERT-wwm-ext 79.4 (78.6) 78.7 (78.3) XLNet 79.2 78.7 RoBERTa-zh-base 79.8 78.8 RoBERTa-zh-Large 80.2 (80.0) 79.9 (79.5) 注:RoBERTa_l24_zh,只跑了两次,Performance可能还会提升; BERT-wwm-ext来自于这里;XLNet来自于这里; RoBERTa-zh-base,指12层RoBERTa中文模型 问题匹配语任务:LCQMC(Sentence Pair Matching) 模型 开发集(Dev) 测试集(Test) BERT 89.4(88.4) 86.9(86.4) ERNIE 89.8 (89.6) 87.2 (87.0) BERT-wwm 89.4 (89.2) 87.0 (86.8) BERT-wwm-ext - - RoBERTa-zh-base 88.7 87.0 RoBERTa-zh-Large 89.9(89.6) 87.2(86.7) RoBERTa-zh-Large(20w_steps) 89.7 87.0 注:RoBERTa_l24_zh,只跑了两次,Performance可能还会提升。保持训练轮次和论文一致: 阅读理解测试 目前阅读理解类问题bert和roberta最优参数均为epoch2, batch=32, lr=3e-5, warmup=0.1 cmrc20