反馈。对候选问题进行筛选,必要时通过反复审查和反馈进行改进。 初步评估。为了衡量难度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)对问题进行了初步评估。 审查。在初步评估的基础上,对每个候选问题都进行了全面审查,以确保这些问题可以回答、格式和注释正确、难度足够且简明扼要。审查人员的分配确保了出题者不会审查到自己的试题。许多试题也被修改了,旨在增加难度。此外,为了降低正确答案被猜中的可能性,必要时还对问题进行了修改,以确保答案范围足够广泛。这就排除了二进制、多项选择或答案为小整数(即小于 10)的问题。不符合要求的问题都被过滤掉了,因此第一次就有了 106 个合适的问题。 对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 分。有些问题只有一个相对较弱的模型能正确回答。研究者认为这是一种将问题分布与当前模型能力相联系的有效方法。