Kaggle竞赛：BERT五种Pooling方法详解与实现

需积分: 0 125 浏览量更新于2024-08-03 收藏 98KB PDF 举报

在Kaggle竞赛中，BERT（Bidirectional Encoder Representations from Transformers）是一种强大的预训练语言模型，其应用广泛于自然语言处理任务中。论文“[] - 2023-07-08 Kaggle之BERT的五种Pooling方法.pdf”详细介绍了BERT在模型融合阶段常用的几种Pooling（池化）技术，这些技术对于将BERT的上下文信息有效地整合到最终预测中至关重要。 1. **平均池化（Class Mean Pooling）** - 类似于传统机器学习中的全局平均池化，该方法通过对每个token的输出向量取平均值来获取整个序列的表示。`ClassMeanPooling`类的实现中，首先将注意力掩码`attention_mask`扩展并与last_hidden_state相乘，然后对结果进行求和。为了防止除以零，我们确保sum_mask至少为一个小值（1e-9），最后通过平均值计算得到序列的综合表示。 2. **最大池化（MaxPooling）** - MaxPooling方法选择每个token输出中的最大值作为其贡献。`MaxPooling`类中，先复制last_hidden_state，然后用掩码将所有无效的（mask为0）token设置为一个非常小的负数（-1e4）。接着，通过沿序列维度取最大值操作，找到每个token的最强表示。 3. **最小池化（MinPooling）** - MinPooling与MaxPooling相反，它选择每个token输出中的最小值。在实现中，同样先复制last_hidden_state，然后用掩码标记无效token，最后计算序列中最小值的表示。 4. **加权平均池化（Weighted Mean Pooling）** - 这种方法考虑了每个token的重要性，通常使用attention机制中的权重分配。它会根据每个token的attention分数调整其贡献，计算出一个加权平均值。 5. **加性池化（Additive Pooling）** - 通过将所有token的输出向量相加，再除以总的token数量，这种方法简单直观，强调了所有token信息的一致性。这些Pooling方法的选择取决于具体的应用场景和任务需求。例如，在文本分类任务中，可能希望保留最具代表性的特征；而在情感分析或问答系统中，可能会更关注最强烈的情感表达或关键信息。理解并灵活运用不同的Pooling方法可以显著提高BERT模型在Kaggle竞赛中的表现。

Kaggle之BERT的五种Pooling方法

将每个token对应的输出计算均值，这里需要考虑attention_mask，也就是

需要考虑有效的输入的token。

class MeanPooling(nn.Module):

def __init__(self):

super(MeanPooling, self).__init__()

def forward(self, last_hidden_state, attention_mask):

input_mask_expanded = attention_mask.unsqueeze(-

1).expand(last_hidden_state.size()).float()

sum_embeddings = torch.sum(last_hidden_state * input_mask_expanded,

sum_mask = input_mask_expanded.sum(1)

sum_mask = torch.clamp(sum_mask, min = 1e-9)

mean_embeddings = sum_embeddings/sum_mask

return mean_embeddings

方法2：MaxPooling

将每个token对应的输出计算最大值，这里需要考虑attention_mask，也就

是需要考虑有效的输入的token。

class MaxPooling(nn.Module):

def __init__(self):

super(MaxPooling, self).__init__()

def forward(self, last_hidden_state, attention_mask):

input_mask_expanded = attention_mask.unsqueeze(-

1).expand(last_hidden_state.size()).float()

embeddings = last_hidden_state.clone()

embeddings[input_mask_expanded == 0] = -1e4

下载后可阅读完整内容，剩余3页未读，立即下载

白话机器学习

粉丝: 1w+
资源: 7650

Kaggle竞赛：BERT五种Pooling方法详解与实现

手把手教你如何在Kaggle猫狗大战冲到Top2%----model.h5-------成功获得

[] - 2023-10-23 Kaggle赛题总结：Bengali 语音识别.pdf

[] - 2023-07-21 2023 Kaggle AMP帕金森进展预测金牌方案！.pdf

https:www.kaggle.compablodrocaatp-tennis-matches-20002019

使用python爬取https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection上的可下载的数据集，给出代码...

从https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset爬取Sleep Health and Lifestyle Dataset数据

使用python下载https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection上的 数据集，给出代码

使用python爬取https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection上的数据集

给出用python爬取https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection数据的代码

使用python下载网址为https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection上的数据集并保存，请提供源码

最新资源

使用python下载https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection上的数据集，给出代码