逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
- 2025-03-16 00:08:00
- 刘大牛 转自文章
- 485
论文标题:Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
论文地址:https://arxiv.org/pdf/2503.09573
项目主页:https://m-arriola.com/bd3lms/
B 次来计算 logits。不过,他们只需要两次前向传递。第一次传递分别预计算完整序列 x 的键和值 K^1:B、V^1:B,在第二次前向传递中使用
同时计算所有块的去噪预测。
中进行采样。来从条件分布 pθ
过低,重构 x 会变得容易,这不能提供有用的学习信号。如果掩码全部内容,最优的重构就是数据分布中每个标记的边际概率,这很容易学习,同样也没有用处。
下来训练 BD3-LMs。通过降低训练方差,研究者在均匀采样的掩码率评估下改善了似然度。
。
300 个可变长度样本的生成困惑度 (Gen. PPL;↓) 和功能评估次数 (NFE;↓)。所有模型都在 OWT 上进行训练,上下文长度为 L = 1024,并使用核采样。
发表评论
文章分类
联系我们
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |