
遵循严格的规则(每行、每列和每框必须包含数字 1-9,且不能重复) 保持一致的网格格式 应用逐步的逻辑推理 理解网格元素之间的空间关系 得出一个正确的解答
Level 1(非常简单):50-81 条线索 Level 2(简单):40-49 条线索 Level 3(中等):30-39 条线索 Level 4(困难):17-29 条线索

在 <think> 标签中逐步思考解决方案 在 <answer> 标签中提供具有适当网格格式的最终答案
Qwen 2.5 7B Instruct:使用了秩为 16 的 LoRA 进行微调 Qwen 2.5 3B Instruct:使用了秩为 32 的 LoRA 进行微调
批量大小:1 梯度累积步骤:8 学习率:3e-4(Karpathy 常数) 最大部署:500 每 10 步评估一次 最大序列长度:3000 token

将推理过程与最终答案分开 使提取与评估模型的解答变得容易



严格强制模型保留原始线索(如果任何线索发生变化,则给予零奖励); 对于模型正确填充的每个空单元格,都按比例给予奖励。

保持了稳定的完成长度,约为 1000 token 能生成格式一致的解答 奖励指标稳步提升 在整个训练过程中保持了策略稳定性
训练期间出现灾难性的不稳定性 出现巨大的策略分歧(KL 飙升至 80!) 未能保持一致的性能 最终崩溃,无法恢复





增加难度:引入更具挑战性的谜题来测试模型的推理能力 扩大计算规模:使用更多计算资源,进行更长时间和更大批次的训练 探索模型架构:测试 7B 模型的 LoRA rank 32,看更高的 rank 是否能提高性能 蒸馏法:从 DeepSeek R1 等大型模型中提炼出冷启动数据集,然后在此基础上应用 GRPO 高级奖励函数:实施我已经设计好但尚未在训练中部署的更细致入微的奖励机制 评估框架:开发更复杂的评估指标,以评估推理质量,而不仅仅是解决方案的准确性

渐进式奖励优于二元反馈:我不会简单地将答案标记为正确或错误,而是为部分解答提供部分奖励。这能创造一个更平滑的学习梯度,有助于模型渐进式改进。 难度感知型扩展:这些增强过的函数会将问题难度作为一个乘数,这能为解决更难的问题提供更高的奖励。这能鼓励模型解决更难的问题,而不仅仅是优化简单的问题。 严格的线索保存:所有奖励函数都执行了一条不可协商的规则,即必须保留原始问题线索。这可以防止模型通过更改问题本身来「作弊」。 额外奖励阈值:这些经过增强的函数包括当模型超过某些性能阈值(75%、85%、95% 正确)时的额外奖励。当模型走上正轨时,这些作为激励里程碑,可以加速学习。 最低奖励底线(我最关注的一点):即使是部分正确的解答也会获得较小的最低奖励(0.05),确保模型即使进展很小,也能获得一些反馈。
遵从结构化流程 逐步应用逻辑推理 保持格式一致性 根据已知规则验证自己的成果 理解空间关系
编程:教模型编写遵循严格语法和逻辑约束的代码 数学问题求解:实现复杂数学问题的分步解答 科学推理:帮助模型理解和应用科学方法和原理 形式验证:训练模型根据既定规则检查自己的成果