为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


这是上海戏剧学院2022年出台的「申请-考核制」文件,你可以...
和老公不戴套一年多,一开始小袜子小衣服都买了好几套,各种颜色...
换个思路,我们不妨看看现在各家的顶级台式工作站是怎么做的。 ...
仨娃老母亲。 老大是高需求宝宝,现在12岁。 老二天使宝宝。...
我觉得吧,很多时候,解释是没有用的。 在这方面Go确实要比其...
微信小程序的,就算已经设置了 border:none; ou...
我是一个女演员。 我演了一个反女拳的影音游戏,然后游戏主创...
游戏机禁令2.0。 我看519的时候不是禁止的挺欢的吗?权...
最关键是做不大。 CRT最后的绝唱出现在08年,当时一波看...
我不是 IT,也不负责做企业级别应用,但是我们会做一些小型的...
