为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


1、等不了了,十一国庆大阅兵是十年一次,下次在2029年,还...
东莞没去过,说个苏州的。 2012年去苏州玩,当时大二,一行...
我就跟你说一个简单的职场现象,你就懂了: 很多公司领导特别害...
一、FWA技术: 从光纤补充到运营商业务拓展核心引擎固定无线...
我某个前女友有次穿裙子跟我出去逛商场,找了个饭店吃饭,她等餐...
老实说,这个问题没法简单一句话回答。 你说哪个多,看使用场景...
2010年上海世博会日本馆发的扇子。 当时只觉得日本小气,...
两年以前,我在这个回答下边写了一千来字草稿,试图论证 cla...
不太可能,顶多就半壁江山! 两个盘的***都很足! 来都来了...
本金1000,日利率1%,当日结清 生活开销,前期紧缩,馒头...
