AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
- 2025-02-17 13:28:00
- 刘大牛 转自文章
- 279
Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges 论文地址:https://arxiv.org/pdf/2502.08859 榜单地址:https://scale.com/leaderboard/enigma_eval










发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |