请以插入公式的形式来罗列一下BART预训练模型的主要公式
时间: 2024-05-22 11:12:35 浏览: 181
以下是BART预训练模型的主要公式:
1. 语言建模目标函数:
$$
\mathcal{L}_{LM}=-\sum_{i=1}^{n}\log P(x_i|x_{<i};\theta)
$$
其中,$n$是输入序列的长度,$x_i$是第$i$个词,$x_{<i}$是前$i-1$个词组成的序列,$\theta$是模型参数。
2. 生成式文本摘要目标函数:
$$
\mathcal{L}_{SA}=-\sum_{i=1}^{n}\log P(y_i|y_{<i},x;\theta)
$$
其中,$n$是输出序列的长度,$y_i$是第$i$个生成的词,$y_{<i}$是前$i-1$个生成的词组成的序列,$x$是输入序列,$\theta$是模型参数。
3. 掩码语言模型目标函数:
$$
\mathcal{L}_{MLM}=-\sum_{i=1}^{m}\log P(x_i|\text{mask}_i,x_{\neq i};\theta)
$$
其中,$m$是输入序列的长度,$\text{mask}_i$表示第$i$个位置需要被掩盖,$x_{\neq i}$表示除了第$i$个位置外的其余位置的词,$\theta$是模型参数。
4. 生成式文本填充目标函数:
$$
\mathcal{L}_{SP}=-\sum_{i=1}^{n}\log P(y_i|y_{<i},x;\theta)+\lambda\sum_{i=1}^{n}\mathbb{I}(y_i=\text{[PAD]})
$$
其中,$\mathbb{I}(y_i=\text{[PAD]})$表示当第$i$个生成的词为[PAD]时的惩罚项,$\lambda$是惩罚系数,其他符号含义同上。
阅读全文