
论文标题:Predictable Scale: Part Ⅰ — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining 论文链接:https://arxiv.org/abs/2503.04715 工具链接:https://step-law.github.io/ 开源地址:https://github.com/step-law/steplaw 训练过程:https://wandb.ai/billzid/predictable-scale











最优学习率:随模型规模增大而减小,随数据规模增大而增大。 最优批量大小:随数据规模增大而增大,与模型规模弱相关。
在给定模型、训练 Token 数的情况下,(Loss,bs,lr) 这三维空间是否是真正的凸性。 是否有更好的 optimal BS LR 的拟合方法,并且可以兼容 BS、LR 的内在关系。 尽管 Step Law 在不同 Model Shape、不同稀疏的 MoE 模型是鲁棒的,但是次优的区域是在不同配置下是变化的,有无更好的解释方法。 上文中这些基于海量 Grid Search 的数据驱动的结论的理论解释。 不同的超参、不同 Model Size、Model Shape、Model Sparsity 下的 Training Dynamic 研究。
