从理论到实现,手把手实现Attention网络( 三 )


而Transformer当中也有attention结构 , 它就是正儿八经地利用向量之间的相似度来计算的 。常理上来说 , 按照向量相似度来计算权重 , 这种做法应该更容易理解一些 。但实际上学习的过程当中的感受却并不一定如此 , 这也是为什么我先来分享DIN而不是直接上transformer self-attention的原因 。




推荐阅读