首页视觉Transformer中ReLU替代softmax

视觉Transformer中ReLU替代softmax

时间: 2023-11-14 21:06:24 浏览: 115

在觉Transformer中，ReLU被用来替代softmax。由于在使用softmax时，注意力在序列长度上除以序列长度，这会导致较大的注意力得分在较长的序列上被稀释。而使用ReLU替代softmax可以避免这个问题，使得注意力可以接近或匹敌传统的softmax注意力。这种替代方法在Google DeepMind的研究中被探索，并且在某些情况下可以提供更好的性能。

阅读全文