而Transformer当中也有attention结构 , 它就是正儿八经地利用向量之间的相似度来计算的 。常理上来说 , 按照向量相似度来计算权重 , 这种做法应该更容易理解一些 。但实际上学习的过程当中的感受却并不一定如此 , 这也是为什么我先来分享DIN而不是直接上transformer self-attention的原因 。
推荐阅读
- AI七十年,从一篇论文到一个世界
- 中签名额价值百万,K-Pop签售会到底有多赚?
- 李凯尔到底什么水平?他能将中国男篮带到怎样的高度?
- 到退休年龄去办理退休,为何查不到档案?没有档案,能办退休吗?
- 《长风渡》停播,让我看到影视圈一股隐藏的“乱象”,在野蛮生长
- 挖呀挖黄老师现身小杨哥直播间,出场费120W,网友直呼听到就想吐
- 张紫妍被潜后自尽,被曝曾接待4个财阀被玩到不能走路
- 我是怎么从小孩儿的保姆专业进的互联网行业?
- 刘嘉玲闺蜜为梁朝伟庆生引争议,又亲又抱,大腿缠到裤裆处
- 夏季钓鱼,避开3种天气2种钓位,“空军”找不到你
