为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


排名我不知道,但可以看看他做了什么。 首先,Visual ...
小米插座进来之后,公牛改的那个叫作快啊。 现在公牛插座的设计...
有三个点需要注意: 1 结果: 积流成江 (Streams ...
上次爬华山遇上一对夫妻,女的30出头,男的明显大些,女士穿白...
谢邀~(*˘︶˘*).。.:*♡ 第一老鼠精和万圣公主并列第...
推荐开源项目 Pake Plus,跨平台,支持web,安卓/...
讲个离谱的, 第一阶段,之前买了一个小主机,巴掌大,一直用来...
B2这种大国重器, 和航母一样, 在兔子这边都是单开一页的,...
大多数人回答的都不对路。 很多网上的资料都是错的,导致大家...
最近最近家里用了8年的HIWIFI4有点力不从心了,打算从A...
