
AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文标题:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step 论文地址:https://arxiv.org/pdf/2501.13926 项目地址:https://github.com/ZiyuGuo99/Image-Generation-CoT
离散化 Token 表示:无论是语言还是图像数据,自回归模型都将其量化为离散 Token,并通过逐步预测的方式进行生成。 逐步解码(Step-by-Step Decoding):类似于 CoT 在数学问题上的逐步推理,自回归图像生成也可以逐步生成中间图像,并在生成过程中进行验证与优化。






清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。 潜力性评估(Potential Assessment):分析当前步骤是否有潜力生成高质量的最终图像。 最佳选择(Best-of-N Selection):在高潜力路径中选择最佳的最终图像。





