当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 03:00:10
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 你发生过的最尴尬的事是什么?
- 为什么现在知乎有一种j***a运行速度很慢,很吃***的论调?
- 猫那么爱干净,却为什么不喜欢洗澡?
- 公立医生帮联系民营救护车,800 公里收费 2.8 万元,收费合理吗?救护车收费标准是什么?
- 哪里有免费的苹果cms v10模板用用?
- Node.js是谁发明的?
- 鸿蒙电脑应用开发和鸿蒙手机是一样的吗?
- 中国女篮张子宇身高 2 米 26 制霸赛场,身高因素在篮球比赛中能占多大优势?她会是下一个「姚明」吗?
- C罗赠送特朗普球衣:致唐纳德•特朗普总统,为和平而战。如何评价?
- 有没有一个特别好用的Linux系统?
最新资讯文章
- 商城里如何缓存商品信息?
- 为什么有的女生喜欢穿紧身牛仔裤?
- 为什么说男人至死都是少年?
- 伊朗武装部队总参谋长被暗杀,暗杀真的有用吗?
- 蜜雪冰城香港门店被通报「产品大肠菌群超标 70%」,哪些环节可能导致大肠菌群超标?会对身体有哪些危害?
- FFmpeg如何利用GPU进行加速,每次都是GPU看戏CPU100%,或者说该说法有根本性错误?
- 如何评价MiniMax推出的全球首个开源大规模混合架构的推理模型MiniMax-M1,其有何技术优势?
- 如何评价前端框架 Solid?
- Node.js是谁发明的?
- 据说go和c#的开发者都说自己比较节省内存,你们认为呢?
- 韩寒现在为什么不写书了呢?
- 把《武林外传》中的打工人郭芙蓉放在现代,她能干长久吗?
- 普通家庭对孩子最好的托举是什么呢?
- 如何看待亮亮丽君夫妇中的女主又怀孕?
- 为什么linux桌面那么丑?






关注公众微信号
移动端,扫扫更精彩