为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


拿50万大学城投资开个便利店,自己只招人看得过去的,每月休息...
Go往往跟Rust持平甚至超越这个观点是错误的,GO的性能很...
稳定性很差,特斯拉Robotaxi首秀,第一天就翻车了。 ...
我的小腿,真的非常粗,而且近来可能是运动的缘故,好像还加粗了...
1 见过发短***维权的,也见过发短***擦边的。 这是第...
谢邀,人在松山湖HDC开发者大会现场,已全程观看华为发布最新...
2024年7月在武汉因为工作原因接到了一个预约 对方说的是海...
此刻我想做一个预言(时光胶囊):未来三年的crypto增殖方...
OPPO新机发布会上,产品经理莫妮卡这个动作,我觉得很有女人...
我们的一位 USA 客户说,在灯塔国,不识数的现象其实非常普...
