为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


这个问题回答八百遍了: 如果你的 App 或者网站想收费,注...
不会,龟龟的感情没有那么丰富,它们不知道孤独是什么,它们只知...
充电宝这个行业,说实话,真不是今天才出问题,而是早就烂透了,...
买了一只白化巴西苗子,商家说都刚从蛋里出来,没下过水,也没开...
不信复合化学洗剂消毒杀菌,不信水流物理冲洗2小时除垢,不信7...
我这里有一个。 后端基于:go,go-kratos,wir...
大家好,我是阿坡,专注于 RPA + AI 自动化工作流实战...
就不想用rust吗?局面打开,j***a写一堆class太臃...
如果你去到一个西餐厅,只有英文菜单,你两眼一抹黑,“服务员,...
五月初从长沙去常德参加同事婚宴,返程的时候和领导一起坐公司的...
