刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
- 2025-01-16 21:18:00
- 刘大牛 转自文章
- 313
这是阶跃星辰 Step 系列模型家族的首个推理模型。


Scaling 强化学习:从模仿学习到强化学习,从人类偏好到环境反馈,阶跃星辰坚持 Scaling 强化训练,以强化学习为模型迭代的核心训练阶段。 Scaling 数据质量:数据质量是重中之重。在确保数据质量的前提下,阶跃星辰持续扩大数据分布与规模,为强化学习训练提供坚实保障。 Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段,阶跃星辰发现,System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token,进而实现深度思考。 Scaling 模型大小:这是最经典的 Scaling 方式。阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。











发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |