在当今迅速发展的人工智能时代,大语言模型(LLMs)在各种应用中发挥着至关重要的作用。然而,随着其应用的广泛化,模型的安全性问题也引起了广泛关注。探讨如何评估和提升这些模型在复杂的法律、政策和伦理领域的安全性,成为了学术界和工业界亟待解决的重要议题。
首先,大语言模型的安全性与其对安全知识的理解密切相关。这要求模型对理解知识具有高准确性、全面性和清晰度,尤其是在法律、政策和伦理等敏感领域中。模型的回复不仅需要符合基本的安全标准,还需要在复杂的情境中表现出清晰的逻辑和正确的判断。这种深刻的理解能力将直接关系到模型在现实应用场景中的安全性和可靠性。
其次,传统的安全评测方法,往往依赖于特定场景的问题设置,生成带有风险性的问题并评估模型回复的安全性,这种方式虽然能够一定程度上保证模型的输出不违背基本的安全原则,但却存在显著的局限性。造成模型不安全的因素可能有多种,例如,缺乏安全领域知识,安全对齐不充分等。而依赖于传统的评测方法,模型可以通过安全对齐训练的方式,形成一种 “虚假对齐” 的状态,即使模型本身缺乏足够的专业安全知识,也可能在某些特定情景中给出 “正确” 的安全回复。然而,这种 “知其然而不知其所以然” 的安全能力是不稳定的,在遇到不同领域的风险问题时,会缺乏泛化性。除此之外,由于知识缺乏而产生的幻觉,不准确等问题本身也会产生一定的安全风险。因此,评估模型对安全相关知识的掌握程度显得尤为重要,需要构建更精确的评测框架。
最后,不同国家地区在大模型安全领域研究的侧重点是不同的。国际上,对安全方向研究的侧重点主要在于有害意图,越狱攻击以及违反国际 ESG 规定的内容,绝大多数的研究工作和开源数据也集中于这一方面。而在中国,模型是否能够理解和遵循中国法律,政策,道德,主流价值观的要求是决定大模型的能否安全落地最为重要的因素,开发一种全面的基础安全知识评测方法显得尤为重要。一个全面且无偏的评测框架能够帮助研究人员和开发者更好地理解模型在全球范围内的表现差异,并针对不同的地区需求调整和优化模型,从而确保其合规性和有效性。
在此背景下,为了更好地评估 LLMs 在回复简短的事实性安全问题上的能力,中国信息通信研究院联合淘天集团算法技术 - 未来生活实验室推出了
Chinese SafetyQA,这是全球第一个针对中文安全领域的系统性评估模型安全事实性知识的高质量评测集,主要包含以下 7 个特征:
1. 中文:使用中文并且聚焦于中国相关的安全知识,特别是中国法律框架、道德标准和文化环境相关的安全问题。
2. 高质量:我们评测了 OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao 等国内外 38 个开源和闭源大模型。从评测结果看,只有三个模型达到及格线(60 分)以上,最高得分也仅为 73 分。
3. 全面性:我们的数据集包含 7 个一级类目、27 个二级类目和 103 个子类目。涵盖了包括中国违法违规,伦理道德,偏见歧视,辱骂仇恨,身心健康,谣言错误,网络安全理论知识等方面的安全知识。这在国际上第一个全面的覆盖中国内容安全类目的知识类评测数据集。
4. 易评估:和 OpenAI 的 SimpleQA 以及阿里巴巴的 Chinese SimpleQA 相比,我们除了聚集安全以外,还同时提供了 QA 和 MCQ 两种问题形式。问题和回答都保证简短、清晰,降低了评测的难度。
5. 定期迭代:中国信通院 & 阿里巴巴团队会定期对该数据集进行周期性的迭代,以保证其对于最新法律法规的适应性。
6. 稳定:在现有版本数据中,所有问题的知识都是截止于 23 年底且答案不随时间变化而改变的。
7. 无害化:虽然该数据集都是安全相关的评测问题,但是所有问题都是合法合规的无害化内容。
注:调用 Doubao-pro-32k* API 评测时有 3 个系统预置的离线 RAG 库。
Chinese SafetyQA 的推出,为业界提供了一个客观公正的评测工具,帮助更好地理解和提升 LLMs 在安全领域的应用能力。详细的评测结果在我们的 leaderboard 测评结果表中。而且,为保障数据集的长期有效性,不会被大模型采集以用于针对性训练提高虚假性安全性,数据集分为开源和闭源两部分。开源部分用于行业内共享使用,闭源部分用于持续监测大模型安全水平提升情况。
- 论文链接:https://arxiv.org/abs/2412.15265
- 项目主页:https://openstellarteam.github.io/ChineseSafetyQA
- 数据集下载:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SafetyQA
- 代码仓库:https://github.com/OpenStellarTeam/ChineseSafetyQA
数据集的生成与质检流程采用了人类专家与大语言模型(LLMs)相结合的双重验证机制,有效保障了数据的准确性与高水准。具体流程概述如下:
1.
种子文档收集:Chinese SafetyQA 的数据源主要包括:
- 从搜索引擎(如 Google、百度)和权威网站(如维基百科、人民网、新华网)获取的数据。
- 人类专家编写的安全相关数据,通常以描述性概念或解释形式呈现。
2.
数据增强与问答对生成:在收集初始数据后,利用 GPT 模型对数据进行增强,并生成问答示例和多选题。同时,为提升数据集的全面性与精确度,采用检索增强生成(RAG)工具(如 Google、百度)获取补充信息。
3.
多模型验证:随后,通过多模型合议机制来评估 Chinese SafetyQA 数据集的质量。例如,确保答案唯一且稳定,问题具有挑战性并在安全领域内具备相关性。
4.
RAG 验证:使用在线 RAG 工具进一步验证数据集中标准答案的准确性,确保全部信息都符合预期标准。
5.
安全规则验证:为了确保数据集不涉及敏感或不被允许的内容,我们制定了一系列与中文语境相关的安全指南,包括意识形态、法律合规与身心健康等规则。这些规则作为 GPT 的系统提示,确保生成的数据都是无害且合规的。
6.
难度过滤:质量检测流程中也包含难度验证,旨在提高数据集的挑战性。我们利用四种开源模型对数据进行推断,凡是所有模型均能准确回答的问题被定义为简单问题并从数据集中移除,以此增加整体难度。
7.
人类专家双重验证:最终,所有数据均由人类专家进行双重标注和验证,确保数据在答案准确性、质量与安全性等各个方面均达到高标准。
通过以上系统化的流程,Chinese SafetyQA 数据集仅保留了 2000 个 QA 对。我们希望该数据集能助力优化在中文场景下改进训练策略以及增强模型在安全关键领域的应用能力。
该数据集包含 2000 个 QA 对和 2000 个问题相同且有 4 个迷惑性选项的选择题,其中违法违规、偏见歧视和安全理论知识的问题占比最多。基于 GPT4o 的编码器,QA 的问题平均长度仅为 21 个 token。
评测方式和指标直接遵循 OpenAI 的方式,主要有以下四个指标:
CO, NA, IN 和 CGA 分别表示 "正确"、“未尝试”、“错误” 和 “尝试正确”。
对于子主题,RM, IRC, PMH, IH, PD, EM 和 STK 分别是我们的子主题的缩写:
- “Rumor & Misinformation”(谣言与错误信息)
- “Illegal & Reg. Compliance”(违法违规)
- “Physical & Mental Health”(身心健康)
- “Prejudice & Discrimination”(偏见与歧视)
- “Safety Theoretical Knowledge”(安全理论知识)
从以上汇总结果可以分析出一些值得关注的信息。首先,研究结果表明,模型的参数规模与其在安全知识领域的表现呈现显著的正相关性。这一发现支持了大规模语言模型在知识编码和信息保留方面的优势假说。特别是,开源模型中参数量更大的变体展现出更优异的性能,而闭源模型中标记为 "mini" 或 "flash" 的轻量级版本则表现相对逊色。
其次,在控制参数规模的条件下,我们观察到中国大模型公司开发的模型相较于海外公司(如 LLaMA/Mistral)在中文上具有显著优势。这一现象凸显了中国企业在高质量中文语料库构建和利用方面的独特优势,为探讨文化和语言特异性在大语言模型开发中的重要性提供了实证支持。
此外,几乎所有模型在中文安全问答任务中均表现出较高的回答倾向,这与 SimpleQA 和中文 SimpleQA 基准中观察到的结果形成鲜明对比。模型的低未回答率可能反映了安全关键知识在预训练阶段被优先考虑,以及相关数据的广泛收集。然而,值得注意的是,部分模型在此任务中仍然表现出较高的错误率(IN),这可能源于知识冲突、信息错误以及模型在理解和记忆能力方面的局限性。
我们还对模型的认知一致性、“舌尖现象”、self-reflection、主被动 RAG 等方向做了进一步的探究。发现了一些有趣的结论:
我们通过分析大语言模型在中文安全知识评测中的置信度,揭示了当前模型在认知一致性方面的显著局限性。我们引导受测模型为其响应分配一个精确的置信度评估(区间为 0-100,粒度为 5),旨在量化模型对自身认知边界的自我感知能力。
实验结果指出:尽管模型在技术复杂性上不断进步,其认知校准机制仍存在显著偏差。受测模型倾向于对其回复赋予高置信度,这种过度自信模式在多数模型中保持一致。即便某些模型(如 Qwen72b)偶尔展现出置信度分配的微观差异,但整体上仍未能实现置信度与准确性的有效对应。值得注意的是,高置信度区间(>50)的数据点持续低于理想校准标准线。这不仅反映了模型置信度评估的内在不确定性,更暗示了预训练语料中潜在的知识表征缺陷。
2. 爱你在心口难开,大模型也存在 “舌尖现象”(Tip of the tongue)
我们发现主流模型在多项选择题(Multiple Choice Questions, MCQ)任务中,呈现出显著高于问答(Question and Answer, QA)任务的准确率。在 QA 任务中答不对的问题,给与一定的提示时(MCQ 的选项)模型即可答对。这和人类话到嘴边说不出,但是给于一定的提示即可答对的 “舌尖现象” 类似。为了排除是选项缩小了搜索空间导致的准确性提升,我们通过置信度做了进一步地确认,发现模型在给出答案时置信度非常高,这证明模型给出了非常确定的答案。
除此之外,通过对主流模型的不同类目评测发现各家模型在不同的类目上各有优势。在国际环境、社会和治理(ESG)议题中,所有 GPT 系列模型在身体和心理健康(Physical and Mental Health, PHM)维度均表现出相对优异的能力,这可能反映了这些模型在相关领域接受了更为精细的训练。与此同时,在非法和法规合规(Illegal and Regulatory Compliance, IRC)领域,我们观察到了更为复杂的模型间差异:非中国模型(o1 除外)在该维度显示出明显的能力局限,而中国本土模型(如 Qwen 系列和 Doubao)则展现出更为突出的本土法律知识理解能力,这可能得益于针对性的本地化训练策略。
3.self-reflection 对知识性的缺失几乎没有帮助
自我反思机制被广泛视为提升模型输出质量的有效策略。然而,我们对多个先进语言模型进行的实验发现在知识缺失场景下的局限性。
实验发现在所有受测语言模型中,自我反思机制带来的性能提升微乎其微,平均改进幅度不超过 5%,且在 o1 系列模型中更呈现出负面影响。
这一现象可能源于大语言模型固有的认知局限。模型高度依赖训练语料中的统计模式,这使其在自我反思过程中更倾向于将原本正确的答案转变为错误响应。特别是在知识型问题中,模型的性能更多地取决于内在知识理解能力,而非后续推理过程。值得注意的是,训练语料中潜在的事实性错误会显著干扰模型的自我校正机制,导致推理链路的可靠性进一步降低。
4.RAG 能补齐大模型的知识缺失,但最好不要让它来决定做不做:
知识检索增强生成(Retrieval-Augmented Generation, RAG)技术已成为提升模型事实性和准确性的关键方法。我们探讨了两种 RAG 触发范式:主动 RAG 和被动 RAG,其对模型准确性的影响。被动 RAG 对所有输入问题进行语料检索,而主动 RAG 则由模型自主判断是否需要额外检索并由模型给出检索关键词。
首先,RAG 增强机制显著提升了大语言模型的事实安全性,有效缩小了不同规模模型间的性能差距。较小参数规模的模型从 RAG 技术中获得的性能提升更为显著。
其次,主动 RAG 的性能普遍低于被动 RAG。这一现象是源于大语言模型的过度自信特性,它们不倾向于主动请求检索工具,所以这种 RAG 方式带来的准确性增益通常不够大。
最后,欢迎广大研究者使用我们的评测集进行实验和研究,我们非常感谢您对我们工作的信任,并非常重视并期待收到您的宝贵意见。当前,我们正全力完善排行榜功能,力求尽快为广大研究者提供更加便捷、高效的使用体验。
如果您有任何疑问、建议,或希望将您的模型结果纳入排行榜展示,欢迎随时通过电子邮件与我们联系。请将您的具体需求发送至:tanyingshui.tys@taobao.com,我们将及时回复。
我们将持续更新和维护数据集及评测榜单,为中文社区的发展贡献力量。如需进一步咨询或帮助,也可随时与我们沟通。再次感谢您的理解与支持!
核心作者包括谭映水,郑博仁,郑柏会,曹珂瑞,景慧昀。
作者团队来自中国信息通信研究院和淘天集团算法技术 - 未来生活实验室团队。信息通信研究院始终秉持 “国家高端专业智库产业创新发展平台” 的发展定位和 “厚德实学 兴业致远” 的核心文化价值理念,在行业发展的重大战略、规划、政策、标准和测试认证等方面发挥了有力支撑作用,为我国通信业跨越式发展和信息技术产业创新壮大起到了重要推动作用。淘天集团未来生活实验室致力于建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。