Transformer原理
From Attention to self-Attention
关于Attention基本原理我们在seq2seq
中已经介绍过,简单说attention就是帮助我们找到两个序列之间的相关度,比如输出序列的每个输出分别应该关注输入序列的哪一部分, 也就是找到权重值 wi
。
self-attention与attention的不同点在于,self-attention是帮助我们找到子序列与全局序列之间的关系,即self-attention使用的场景是同一序列内部,而attention是两个序列。
不过self-attention的计算方法与attention类似,同样可以使用上述公式(只不过这里的yi
是同一序列中的某个token)。
wij
的计算方式如下:
为了更好地理解这个公式,下面我给以y2
的计算为例,给出计算过程(图中把exp漏掉了)和图例。