



选择和迁移操作的具体选择;
一个提示集,可使用 LLM 实现初始化、重组(杂交和突变)以及岛屿重置操作;
一个适应度函数,用于评估给定解的质量并可选择性地反馈检测到的问题。
通过衡量优化目标为解评分(如果有的话);
验证解是否满足给定约束;
提供相应的文本反馈。

根据适应度直接选择排名前 N_top 的候选解;
首先根据适应度选择排名前 N_candidate 的候选解,然后提示 LLM 从这个池中选择 N_top 个彼此有实质性差异的好候选解。消融研究表明,后一种策略的效果更好。
1-Pass,其中使用 LLM 的单次前向传递得到解。
Best-of-N,独立生成最多 800 个候选解,直到找到成功的解(与 Mind Evolution 上限相同)。
Sequential-Revision+,其中独立提出 10 个候选解,然后使用 RCC 过程分别修改 80 轮。注意使用 10 个独立的 80 轮改进线程而不是单个 800 轮改进,因为该团队表示很少能观察到 80 轮后的改进。这个基准方法类似于运行 10 次多轮 Reflexion。









随着隐藏消息 M 的长度增加,难度增加。该团队设定 10 ≤ |M| ≤ 30。
M 中数字的重复性。重复越多,约束越严格。
重复数字彼此之间的「接近程度」。每种写作形式都规定了同一个词的重复和出现接近程度的可接受性。LLM 必须在遵守形式和正确编码消息的需求之间取得平衡。
根据经验,随着 B(密码词之间的平均距离)增加,问题变得更加困难。测试中,3 ≤ B ≤ 7。

