DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页
- 2025-02-08 10:53:00
- 刘大牛 转自文章
- 303

论文标题:Humanity’s Last Exam 论文地址:https://arxiv.org/pdf/2501.14249 项目地址:https://lastexam.ai








问题应该准确、明确、可解且不可搜索,确保模型不能依赖记忆或简单的检索方法。 所有提交内容必须是原创的,或者是基于已发表信息的非平凡合成版本,但也会接受未发表的研究。 问题通常需要研究生水平的专业知识或高度特定主题的测试知识(例如,精确的历史细节、琐事、当地习俗),并且有领域专家接受的具体、明确的答案。 当 LLM 能提供正确答案但推理有误时,希望作者能修改问题参数,例如答案选项的数量,以阻止假正例。 要求明晰的英语和精确的技术术语,并在必要时支持 LATEX 标注。 答案要简短,并且对于精确匹配的问题,答案要容易验证,以支持自动评分。 禁止开放式问题、主观解释题和与大规模杀伤性武器有关的内容。 每个问题都应附有详细的解答以验证准确性。





发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |