

Github 地址:https://github.com/SUFE-AIFLM-Lab/Fin-R1
技术报告:https://arxiv.org/abs/2503.16252
模型地址:https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1









将 temperature 设定为 0.6;
针对数学类型数据,采用 "请用 \boxed {{}} 格式包裹最终答案" 作为标准化提示词;
防止跳出思维模式,强制在每个输出的开头增加 "",再开始生成数据。
第一轮:用规则匹配和 Qwen2.5-72B-Instruct 对答案准确性进行打分,确保数据 “零错误”;
第二轮:深度校验推理逻辑的一致性和术语合规性,让 AI 的 “思维链条” 严丝合缝。
第三轮:引入金融专家团队对关键数据进行人工复核,保障训练数据高质量。

表 1 Fin-R1 数据量表
智能考官把关:引入 Qwen2.5-Max 作为验证器用于检查答案对错,比传统正则表达式方式准确度更高。
双轨打分制:采用 “基于规则的格式奖励 “和” 基于模型验证的准确性奖励 “两种奖励训练模型,实现金融文本生成 “形神兼备”。

