
论文标题:MoBA: Mixture of Block Attention for Long-Context LLMs 论文地址:https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf 项目地址:https://github.com/MoonshotAI/MoBA

可训练的块稀疏注意力:将完整上下文分割成若干块,每个查询 token 都会学习关注最相关的 KV 块,从而实现长序列的高效处理。 无参数门控机制:引入了一种新颖的无参数 top-k 门控机制,为每个查询 token 选择最相关的块,确保模型只关注最具信息量的内容。 完全注意力与稀疏注意力的无缝切换:MoBA 被设计为完全注意力机制的灵活替代方案,能够在完全注意力和稀疏注意力模式之间实现平滑过渡。


根据门控网络和因果掩码,确定查询 token 对 KV 块的分配。 根据分配的 KV 块,安排查询 token 的顺序。 计算每个 KV 块的注意力输出和分配给它的查询 token,这一步可以通过不同长度的 FlashAttention 来优化。 将注意力输出重新排列回其原始顺序。 使用在线 Softmax 合并相应的注意力输出,因为一个查询 token 可能会关注其当前块以及多个历史 KV 块。






