优化技巧：BERT微调的Epoch、BatchSize与LearningRate调整

192 浏览量更新于2024-08-30 1 收藏 353KB PDF 举报

"这篇文章除了回顾BERT的原理、应用和与其他预训练模型的比较，还重点关注了在实际项目中BERT模型的调参技巧，特别是针对2019BDCI互联网金融新实体发现任务的实践案例。作者提供了相关的GitHub代码链接，以帮助读者深入理解BERT模型的优化过程。文章探讨了三个关键参数：Epoch、BatchSize和LearningRate，并给出了具体的调整建议。" 详细说明: 1. **Epoch** Epoch是指模型在完整数据集上进行的完整训练次数。在训练BERT模型时，合适的Epoch数量取决于模型是否能收敛到一个稳定的损失值。通常，BERT的微调Epoch范围是2到4。观察损失函数的变化是确定最佳Epoch数的关键。 2. **BatchSize** BatchSize决定了每次更新模型参数时所使用的样本数量。在调优过程中，应考虑GPU的利用率。较大的BatchSize可能导致更高的GPU利用率，但过大会影响内存效率。BERT模型由于其复杂性，通常BatchSize不会设置得很大，应尽量使其填满GPU内存，但不超过其容量。有观点认为使用2的幂次可能会提高性能，这可以作为进一步的实验方向。 3. **LearningRate** LearningRate控制模型参数更新的速度。BERT原始论文建议的LearningRate范围是[5e-5, 3e-5, 2e-5]。当添加下接结构，如在NER任务中的BERT+BiLSTM+CRF模型，需要为不同的部分设置不同的LearningRate。BERT的微调LearningRate应保持在推荐范围内，因为其权重已经在预训练阶段得到优化。而BiLSTM和CRF等下接结构由于是从零开始训练，所以可以使用较大的LearningRate，如1e-4，以便更快地探索参数空间。在实际应用中，这些参数的选择并非固定不变，而是需要根据具体任务、数据量和计算资源进行调整。例如，更大的数据集可能需要更多的Epoch，更复杂的模型可能需要更小的BatchSize以避免过拟合，而不同的任务可能对LearningRate有不同的敏感性。因此，调参是一个迭代的过程，通常需要通过交叉验证和网格搜索等方法找到最佳参数组合。

炼丹技巧炼丹技巧 | BERT的下接结构调参的下接结构调参

前情回顾

我们之前介绍了

BERT的原理与应用

BERT与其他预训练模型

BERT四大下游任务

现在我们基于（2019BDCI互联网金融新实体发现 | 思路与代码框架分享（单模第一，综合第二））代码实践来介绍一下BERT如何调参才能更加充分训练，使得到的模型性能更好。

具体代码链接：

https://link.zhihu.com/?target=https%3A//github.com/ChileWang0228/Deep-Learning-With-Python/tree/master/chapter8

1.Epoch

epoch：训练模型的迭代次数。我们主要看损失是否收敛在一个稳定值，若收敛则当前设置的epoch为最佳。一般来说BERT的fine-tune epochs范围为[2, 3, 4]。

2.BatchSize

BatchSize：我们用来更新梯度的批数据大小。一般来说，Batch Size设置的不能太大也不能太小，一般为几十或者几百。笔者的调参经验是看GPU占用率。我们在命令行输入gpustat查看GPU占用率，

如图 4.32所示。Batch Size越大，GPU占用率也就越高，一般占满整个GPU卡训练模型为最佳。业界传闻使用2的幂次可以发挥更佳的性能，笔者并没有尝试过，大家可以去尝试一下。

众所周知，BERT模型比较大，所以我们fine-tune的时候Batch Size肯定不会太大的，所以尽可能占满GPU即可。

图 4.32 GPU占用率

3.Learning Rate

我们在BERT的原理与应用提及BERT原文提示用Learning Rate:[5e-5, 3e-5, 2e-5]效果会最好，这是没错的，因为BERT原文的任务并没有下接结构，直接用BERT本体去fine-tune了。

那么如果我们加上了下接结构呢？比如我们在文章开头提到的代码实践，我们的NER模型是由BERT + BiLSTM + CRF组成，也就是说除了本体BERT之外，我们还有下接结构BiLSTM + CRF，这时候我

们的学习率应该有两个：

BERT的fine-tune学习率：[5e-5, 3e-5, 2e-5]

下接结构BiLSTM + CRF学习率：1e-4

至于这么做的原因也很简单：BERT本体是已经预训练过的，即本身就带有权重，所以用小的学习率很容易fine-tune到最优点，而下接结构是从零开始训练，用小的学习率训练不仅学习慢，而且也很难与

BERT本体训练同步。

为此，我们将下接结构的学习率调大，争取使两者在训练结束的时候同步：当BERT训练充分时，下接结构也训练充分了，最终的模型性能当然是最好的。

BERT + BiLSTM + CRF

对BERT结构与下接结构分别采用不同的学习率进行微调，具体代码如下：

1. with session.as_default():

2. model = Model(config) # 读取模型结构图

3. # 超参数设置

4. global_step = tf.Variable(0, name='step', trainable=False)

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38536397

粉丝: 7
资源: 961

优化技巧：BERT微调的Epoch、BatchSize与LearningRate调整

炼丹技巧 | TensorFlow模型线上私密部署

Python库 | bert_embedding-1.0.0.dev1553007461-py3-none-any.whl

Python库 | bert2tf-0.3.1.tar.gz

Python库 | bert_slm-1.0.0.tar.gz

Python库 | bert4keras-0.9.6.tar.gz

Python库 | bert_tokenizer-0.1.1.tar.gz

PyPI 官网下载 | bert_embedding-0.1.1.tar.gz

Python库 | bert_multitask_learning-0.6.3.tar.gz

PyPI 官网下载 | bert_multitask_learning-0.5.0.tar.gz

Python库 | bert_multitask_learning-0.5.7a0.tar.gz

最新资源