谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分
- 2025-02-28 13:16:00
- 刘大牛 转自文章
- 265

论文标题:BIG-Bench Extra Hard
论文地址:https://arxiv.org/pdf/2502.19187
数据地址:https://github.com/google-deepmind/bbeh






模型在各个任务上都有很大的进步空间,在 BBEH 整体上也是如此。 通用模型的最佳性能为 9.8% 的调和平均准确率。推理专用模型在该基准上的表现优于通用模型(符合预期),但这些模型在 BBEH 上的最佳性能仍只有 44.8%。 尽管采用了对抗性结构,但参考 Thinking 模型在 BBEH 上的调和平均准确率仍只有 20.2%。 一些模型的准确率甚至低于随机性能。经检查,他们发现原因大多是模型无法在有效输出 token 长度内解决问题并在某个点之后开始退化,因此无法从其解答中提取出最终答案。



发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |