从理论到实现，手把手实现Attention网络( 三 )

2026-02-14 attention

而Transformer当中也有attention结构，它就是正儿八经地利用向量之间的相似度来计算的。常理上来说，按照向量相似度来计算权重，这种做法应该更容易理解一些。但实际上学习的过程当中的感受却并不一定如此，这也是为什么我先来分享DIN而不是直接上transformer self-attention的原因。

推荐阅读

上一篇：100000行级别数据的 Excel 导入优化之路

下一篇：几个被淘汰的Python库，请不要再用！