
有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。
据我所知,这首先是 Transformer 背后的主要见解 / 灵感。我第一次真正受到它的震撼是在很久以前我读到 Neural GPU 论文的时候(https://arxiv.org/abs/1511.08228)。
另外,在「从比特到智能」中为什么还要包含 python?删除 python,我认为你可以将其减少约 10 倍,就像 llmc 一样。

点积计算:QK^⊤ 的矩阵乘法,复杂度为 O (n^2d),其中 n 是序列长度,d 是特征维度。 Softmax 归一化:对每个位置的注意力权重进行归一化,复杂度为 O (n^2)。
博客链接:https://supaiku.com/attention-is-logarithmic










树的最大宽度 >> 计算单元(不管是什么内核)。 内存访问模式不连续 / 不可矢量化? 物化变量与内存层次结构不匹配。