探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平
- 2025-02-28 18:10:00
- 刘大牛 转自文章
- 266

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com



论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
论文链接:https://arxiv.org/abs/2501.15147
项目主页:https://lotbench.github.io


精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,构建 MLM task,即要求 LLM 每一轮根据图文信息,生成 Rt 补全给定文字空缺;
判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,则开始通过轮数计算创造力分数,否则进入第 3 步;
要求待测 LLM 根据测评时历史交互信息,提出一个一般疑问句 Qt. 测评系统根据 HHCR,返回 Yes 或者 No;
整理当前轮交互的所有信息,和系统提供的提示,称为下一轮的 history prompt,重新进入第 1 步生成创新响应环节。





发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |