用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐 - ai人工智能 - 透明七彩巨人-tmqcjr.com

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年，人工智能站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

团队介绍：北京交通大学 ADaM 团队此前发布了相关的 o1 复现项目 o1-Coder（https://github.com/ADaM-BJTU/O1-CODER）和首个强化微调开源技术方案 OpenRFT（https://github.com/ADaM-BJTU/OpenRFT）。

OpenAI 在 “双十二” 发布会的最后一天公开了 o 系列背后的对齐方法 - deliberative alignment，展示了通过系统 2 的慢思考能力提升模型安全性的可行性。在此之前，ADaM 团队提出了类似的 “系统 2 对齐” 概念，探索了通过提示工程、监督微调、DPO、RL (结果奖励) 和 RL (过程奖励) 实现系统 2 对齐的技术路径。研究发现：系统 2 对齐可以同时有效提升传统的系统 1 模型的安全性。

系统 2 对齐：通过引导或监督的方式使模型对齐。这种方式鼓励有意的、分析性的推理，以确保模型能够全面评估输入内容，考虑潜在的风险和错误，并解决其中的偏差或缺陷。

用培养孩子来类比的话，系统 1 对齐是直接命令孩子遵守规则（Command），系统 2 对齐则通过引导来培养孩子自主批思考和做出合理决策的能力（Cultivate）。

技术报告：Dont Command, Cultivate: An Exploratory Study of System-2 Alignment
报告地址：https://arxiv.org/abs/2411.17075
项目地址：https://github.com/ADaM-BJTU/System-2-alignment

1.o1 应对复杂越狱攻击的能力分析

团队首先在对抗越狱攻击 WildJailbreak（https://huggingface.co/datasets/allenai/wildjailbreak）和数学编码越狱攻击 MathPrompt（https://arxiv.org/pdf/2411.17075）两个场景分析了 o1 的安全对齐能力。

有如下发现：

（1）o1 模型在处理用户请求时，考虑安全指南有助于提升安全性（见图 1）。但推理过程中，o1 模型偶尔逻辑混乱，安全机制可被绕过（见图 2）。若出现针对推理链的攻击，将带来新安全挑战，故确保推理的安全与稳健至关重要。

^{图 1：o1 模型复杂越狱攻击的样例}

^{图 2：o1 模型被对抗有害样本攻击成功实例}

（2） o1 模型并非对所有请求启动安全推理模式，如图 3 所示，其错误拒绝了良性请求。若增加推理，模型或许能给出安全且有用回应。

^{图 3：o1 模型过度拒绝对抗良性样本实例}

2. 系统 2 对齐

团队通过提示工程、监督微调、DPO、RL 等方法对系统 2 对齐方法进行探索。实验数据来源于 WildJailbreak。该数据集的测试集中包含了对抗有害和对抗良性两种数据类型，其定义如下：对抗有害：指通过更复杂和隐秘的方式传递有害请求。对抗良性：指看似是绕过技术但实际上不含有害意图的对抗性请求。

研究通过评估 “not_unsafe” 和 “not_overrefuse” 两个指标分析模型在应对以上两种样本的表现。

方法 1：提示工程：

通过在推理过程中使用提示工程来实现系统 2 对齐，涉及零样本（zero-shot）和少样本（few-shot）的思维链（Chain-of-Thought, CoT）提示方法。对于零样本 CoT，评估了朴素设置（naive）以及增强的安全警示设置（safe）。对于少样本 CoT 提示，从训练集中随机选择了一个对抗性良性示例和一个对抗性有害示例。使用 GPT-4o 生成了正确答案及详细的推理过程，作为上下文中的示例来引导模型的响应。

实验结果揭示了在测试的模型中，提高模型安全性通常以增加过度拒绝率为代价。在试图平衡这两个指标时，Mistral-7B 和 Qwen-7B 模型在少样本 CoT 提示方法下表现最佳。另一方面，当未应用 System-2 对齐提示时，Llama3-8B 模型表现出最强的整体性能。这些结果表明，不同的模型可能需要量身定制的提示工程方法，包括对提示措辞或上下文示例的仔细调整。这种差异性为用户带来了额外的复杂性，可能增加有效部署这些模型的难度。

^{表 1：基于提示工程的系统 2 对齐实验结果}

方法 2：监督微调（SFT）

基于监督微调的系统 2 对齐的关键是获取带有思考过程的监督微调数据。思路是利用人类书写的安全规范作为指导从 GPT-4o 蒸馏出带有思考过程的回复。首先，依据现有工作对安全类别的分类和定义，使用 GPT-4o 标注 WildJailbreak 提供的训练集的安全类别。接着，选定六类数据人工书写安全规范。这些规范主要包括安全定义、用户请求分类和响应风格指南。最后，基于这些安全规范，从 GPT-4o 中蒸馏了带有推理步骤的响应，并要求 GPT-4o 在分析的最后一步对用户请求进行分类，例如表 2 中用红色标注的部分。这不仅提高了数据质量，还有助于筛选出生成的数据。最后，筛选符合以下条件的数据：

普通良性请求（vanilla benign）对应 “允许”（Allowed），
对抗良性请求（adversarial benign）对应 “安全完成”（Safe Completion），
所有有害数据（harmful data）对应 “不允许”（Disallowed）。

^{表 2：GPT-4o 蒸馏带有思维链的数据样例}

^{表 3：基于监督微调的系统 2 对齐实验结果}

表 3 展示了监督微调的实验结果，说明通过引入安全相关的慢思考可以提高模型的安全性。特别是 Llama3-8B，在两个指标上都表现出平衡且卓越的性能。

方法 3：直接偏好优化（DPO）

DPO 算法可以直接利用偏好数据而无需依赖奖励模型，那么第一步是基于 SFT 模型合成带有思维构建偏好数据。具体而言，使用 Llama3-8B-SFT 模型进行实验，并从 SFT 数据中采样提示 n 次（在实验中，n=16）。接下来，需要从采样的响应中构建偏好对。为简单起见，对于良性提示，认为属于 “允许” 或 “安全完成” 类型的模型响应是正样本，而 “不允许” 类型的响应被视为负样本。相反，对于有害提示，认为 “不允许” 类型的响应是正样本，而其他类型的响应认为是负样本。对于每个提示，仅保留一对偏好数据。最后，平衡良性和有害数据的数量，共生成了 738 个训练样本。需要注意的是，通过 16 次采样，仍有相当一部分提示无法生成正负样本对，因此这些提示未被使用。

^{表 4：基于直接偏好优化的系统 2 对齐实验结果}

实验结果如表 4 所示。可以看到，DPO 在整体性能上略有提升，主要体现在安全性指标上有了显著的提高，但这导致模型对一些良性用户请求表现出过度拒绝的行为，尽管训练数据中有害和良性的数据分布是平衡的。

方法 4：基于结果监督的强化学习

（1）训练结果奖励模型：奖励模型的输入由提示（prompt）和响应中最终答案字段（final answer）的内容组成，而不包括完整的推理过程。基于模型的自采样方法收集偏好数据（与 DPO 中提到的方法类似），不同在于，对于每个提示会采样多对样本。总共收集了 4,182 对偏好数据样本，并将数据集按照 9:1 的比例进行划分。奖励模型在 Llama3-8B 模型上训练，最终在测试集上的表现达到 0.978。（2）在强化学习阶段，使用 PPO（近端策略优化）方法对策略模型进行优化，数据集与 DPO 实验中使用的数据集相同。

^{表 5：基于结果监督强化学习的系统 2 对齐实验结果}

从表 5 可以看出，经过强化学习（RL）训练后的模型表现最佳。尽管在 “not_unsafe” 指标上不如 DPO，但总体表现更加平衡。图 4 中展示了一个例子用以说明 RL 方法如何处理对抗性的有害样本。在这个例子中，基于 RL 的方法成功拒绝了有害请求，而基于 SFT 的方法则被请求诱导生成了不安全的响应。

^{图 4：SFT-CoT 与 SFT-CoT + RL 处理对抗有害样本对比实例}

方法 5：基于过程监督的强化学习

训练过程奖励模型：过程监督的关键在于自动收集过程奖励数据来训练过程奖励模型。例如 Math-shepherd 等开创性工作为数学问题的过程奖励标注提供了解决思路。安全性相关问题的决策通常涉及不确定性，不像数学问题通常有明确的解。一个朴素的标注方案是：首先使用基于上文中提到的类型匹配的方法获得的结果奖励，然后基于结果奖励反推过程奖励。如果想要提升过程奖励的标注效果，则需要进入更强的安全评估模型。

通过过程奖励模型增强模型安全对齐：区别于传统强化学习的结果奖励，过程奖励模型在推理每一步提供反馈，帮助模型实时调整思路，实现更可控、更深思熟虑的决策，提高响应准确性并增强风险评估能力，从而确保输出符合安全协议。

强化学习与自对弈迭代（Self-Play）优化安全推理能力，可引入自对弈机制。模型生成推理步骤，过程奖励模型评估并反馈，指导优化推理策略。强化学习基于反馈调整策略，优先安全准确推理，更新后的策略用于生成新数据，形成循环迭代。自对弈持续改进模型推理和安全对齐能力。

3. 结论和展望

在 OpenAI 的 Deliberative Alignment 基础上，系统 2 对齐可以用于提升传统系统 1 模型的安全性。通过 Prompting、SFT、DPO、RL 等多种方式来实现，系统 2 对齐通过多步推理的慢思考培养模型的批判性评估能力，来增强模型安全性。

随着模型能力的提升，对模型对齐和安全性需要新的思考：从系统 1 式的被动防护转向促进模型系统 2 式的内在推理和批判性思考。此外，类比从系统 1 对齐到系统 2 对齐的过程，传统受限于数据和模型能力基于系统 1 建模的任务，也有希望通过引入系统 2 慢思考的方式进行重构。

^{参考文献：}

^{[1] Jaech, Aaron, et al. "OpenAI o1 System Card." arXiv preprint arXiv:2412.16720 (2024).}

^{[2] Guan, Melody Y., et al. "Deliberative alignment: Reasoning enables safer language models." arXiv preprint arXiv:2412.16339 (2024).}

^{[3] Zhang, Yuxiang, et al. "o1-coder: an o1 replication for coding." arXiv preprint arXiv:2412.00154 (2024).}

^{[4] Luo, Liangchen, et al. "Improve Mathematical Reasoning in Language Models by Automated Process Supervision." arXiv preprint arXiv:2406.06592 (2024).}

^{[5] Wang, Peiyi, et al. "Math-shepherd: Verify and reinforce llms step-by-step without human annotations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.}

^{[6] Zhang, Yuxiang, et al. "OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning." arXiv preprint arXiv:2412.16849 (2024).}

^{[7] Vidgen, Bertie, et al. "Introducing v0. 5 of the ai safety benchmark from mlcommons." arXiv preprint arXiv:2404.12241 (2024).}

工程 Deliberative Alignment OpenAI

联系人：	透明七彩巨人
Email：	weok168@gmail.com