训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
- 2025-02-05 14:32:00
- 刘大牛 转自文章
- 286
跟大模型说:要多想。



论文:《s1: Simple test-time scaling》
论文链接:https://arxiv.org/abs/2501.19393
项目链接:https://github.com/simplescaling/s1
序列扩展,即后续计算依赖于先前的计算结果;
并行扩展,即计算独立运行。

AIME24 包含 30 个问题,这些问题来自 2024 年 1 月 31 日至 2 月 1 日举行的美国 AIME 数学竞赛。AIME 用来测试模型在算术、代数、计数、几何、数论、概率等领域的能力;
MATH500 是一个包含不同难度竞赛数学问题的基准;
GPQA Diamond 包含 198 个来自生物学、化学和物理学的博士级科学问题。





发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |