whaido团队达观杯第四名：BERT预训练与finetuning详解

需积分: 0 153 浏览量更新于2024-08-05 收藏 414KB PDF 举报

达观杯模型介绍文档是由参赛队伍whaido编写的，他们在比赛中获得了第四名的好成绩。这个文档详细阐述了他们使用的竞赛模型和技术策略。比赛的官方地址可以参考<https://biendata.com/competition/datagrand/>。模型的核心是基于BERT（Bidirectional Encoder Representations from Transformers）的预训练和微调方法。具体来说，他们采用了BERT-Base版本，专为中文（简体和繁体）设计，拥有12层、768隐藏层节点、12个注意力头和大约1.1亿参数。模型的相关配置信息存储在bert_base/bert_config.json文件中，词汇表则来自corpus生成的vocab.txt。预训练阶段是整个模型的关键环节。参赛者将原始的corpus.txt数据转换为corpus_bert.txt，通过在每行间添加空行来划分段落，因为BERT在预测上下文时非常重视段落内的句子关系。由于数据已经进行了脱敏处理，他们没有使用BERT的原始预训练模型，而是从头开始。他们使用了一个名为create_pretraining_data.py的脚本，设置了一些参数，如max_seq_length为200（根据corpus.txt中的句子长度分布调整），masked_lm_prob设为0.15，以优化预训练效率。参赛队伍还调整了bert_config.json中的vocab_size，确保其与vocab.txt一致，并使用随机种子12345和dupe_factor为5来增加数据多样性。通过这些步骤，他们成功地预训练了模型，然后将其用于finetuning阶段，使用train.txt数据进行微调，最后对test.txt进行预测。 whaido团队的策略是精心定制的BERT模型，注重预训练过程中的句子关系处理和参数调整，以达到在达观杯竞赛中取得第四名的优秀表现。这份文档提供了深入理解他们技术路径的宝贵资料，对于理解和复制类似的自然语言处理模型具有重要的参考价值。

介绍文档

参赛队伍：whaido

最终排名：第四名

竞赛地址：https://biendata.com/competition/datagrand/

1．运行环境及参数

运行环境及参数详见代码模型包中 requirements.txt

复现结果可直接参考 2.3 节

2. 模型简介

参赛模型主要采用 bert 预训练+fineuning 模式

BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden,

12-heads, 110M parameters

模型相关参数查看 bert_base/bert_config.json

基于谷歌开源的 bert 模型。利用提供的 corpus.txt 进行预训练，再利用 train.txt 进行 fine-

tuning，最终对 test.txt 进行预测。

2.1 预训练

数据：

corpus.txt 转化为 corpus_bert.txt(每行中间加空行，划分段落，bert 预训练中会预测上

下句，段落内的句子关系较重要，段落是按空行划分的)----该步骤对句子关系有重要意义

Bert 基本信息：

bert_base----bert_config.json, vocab.txt(词汇表由 corpus 生成)，不采用 bert 原始预训

练获得的 init_checkpoint, 因 corpus 数据是脱敏的

下载后可阅读完整内容，剩余3页未读，立即下载

明儿去打球

粉丝: 19
资源: 327

whaido团队达观杯第四名：BERT预训练与finetuning详解

DC平台 达观杯智能文本分类 Textcnn模型.zip

2019达观杯实体识别.zip

达观杯_比赛简介-附件资源

达观_苏州_中茵皇冠国际_营销策略报告_150PPT.pptx

2018.08.17达观杯比赛历程（一）LR_V0-附件资源

十强选手方案_“达观杯”文本智能信息抽取挑战赛.pdf

“达观杯”NLP算法挑战赛 竞赛成绩：排名前1%（29_2885）.zip

“达观杯”的比赛代码.zip

2019达观杯 第六名代码.zip

达观杯比赛源码+项目说明.zip

最新资源

DC平台达观杯智能文本分类 Textcnn模型.zip

“达观杯”NLP算法挑战赛竞赛成绩：排名前1%（29_2885）.zip

2019达观杯第六名代码.zip