视觉Transformer中ReLU替代softmax
时间: 2023-11-14 21:06:24 浏览: 115
在觉Transformer中,ReLU被用来替代softmax。由于在使用softmax时,注意力在序列长度上除以序列长度,这会导致较大的注意力得分在较长的序列上被稀释。而使用ReLU替代softmax可以避免这个问题,使得注意力可以接近或匹敌传统的softmax注意力。这种替代方法在Google DeepMind的研究中被探索,并且在某些情况下可以提供更好的性能。
阅读全文