又又又一个超高难度的推理基准测试向 AI 发出了挑战!
大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。
比如前几天,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造了全新基准:Humanitys Last Exam,即「
人类的最后考试」,简称 HLE。这个新基准对主流的推理模型提出了巨大挑战,结果显示 DeepSeek-R1、o1 的准确度都低于 10%。
如今,一个比「人类的最后考试」更苛刻的基准了,它就是同样由 Scale AI、Center for AI Safety 以及 MIT 的研究者联合推出的
ENIGMAEVAL。这是一个针对高难度问题的基准,其格式多种多样,涵盖了从解谜寻宝(puzzle hunts)抽取的文本和图像难题。
Puzzle hunts 是一种团队解谜竞赛,测试了参与者的逻辑推理、创造性思维、团队协作以及跨学科知识运用能力。它们通常包含一系列复杂的谜题,每个谜题的解答可能会涉及文字游戏、数学、密码学、图像分析、程序编写、文化常识等多个领域。
对于 ENIGMAEVAL 基准,研究者使用了原始的多模态问题和高质量的人工转录版本,从而评估大语言模型的端到端能力以及它们的独立推理能力。这种设计选择使得研究者能够区分模型的性能限制源于它们的推理能力,而不是解析复杂文档或处理不同模态的能力。
论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges