苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
- 2025-02-14 13:11:00
- 刘大牛 转自文章
- 277
蒸馏模型的性能可以量化估算了。


论文标题:Distillation Scaling Laws 论文链接:https://arxiv.org/pdf/2502.08606






(固定模型,变化数据) 对于一个固定的模型族,变化训练 token 的数量。 (IsoFLOP 配置) 在总计算约束下,同时变化模型大小和训练 token 的数量。




发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |