上财开源首个金融领域R1类推理大模型,7B模型媲美DeepSeek-R1 671B满血版性能

图片
该项目由上海财经大学统计与数据科学学院张立文教授与上海财经大学统计与数据科学学院博士生郭鑫、硕士生刘赵伟和课题组核心成员蔡维格、牛晋怡、曾凌峰、娄方齐、王子璇、胥佳杰、赵学前、杨子纬,以及财跃星辰白祚博士和团队成员陈德智、许晟、李超共同完成。


近日,上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布 首款 DeepSeek-R1 类推理型人工智能金融大模型:Fin-R1,以仅 7B 的轻量化参数规模展现出卓越性能,全面超越参评的同规模模型并以 75 的平均得分位居第二,与参数量为 671B 的行业标杆 DeepSeek-R1 平均分差距仅为 3.0%。


Fin-R1 基于 Qwen2.5-7B-Instruct 模型开发,通过构建高质量金融推理数据集与两阶段混合框架训练,实现了金融推理的逻辑闭环,其技术创新表明高校在垂直领域大模型研发中实现了从技术突破到产业落地的闭环,标志着高校在金融科技领域的自主创新迈入新高度。
图片
  • Github 地址:https://github.com/SUFE-AIFLM-Lab/Fin-R1

  • 技术报告:https://arxiv.org/abs/2503.16252

  • 模型地址:https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1

1、简介


当前推理型大语言模型在众多领域正迅速发展,然而当通用推理模型落地金融领域时,仍面临垂直场景适配性不足的挑战。金融推理任务常涉及法律条款、经济指标、数理建模等知识,不仅需要跨学科知识融合,更要求可验证的、分步骤的决策逻辑。在实际的金融业务场景中,模型应用普遍面临知识整合困难、决策过程不透明、业务泛化能力不足等问题。


为此,我们从多个权威数据源蒸馏并筛选出约 60k 条面向金融专业场景的高质量 COT 数据集 Fin-R1-Data,该数据集涵盖中英文金融垂直领域的多维度专业知识并根据具体任务内容将其分为金融代码、金融专业知识、金融非推理类业务知识和金融推理类业务知识四大模块,可有效支撑银行、证券以及信托等多个金融核心业务场景。在 Fin-R1-Data 数据的基础上我们以 Qwen2.5-7B-Instruct 为基座进行指令微调 (SFT) 预热和强化学习 (RL) 训练得到金融推理大模型 Fin-R1。我们通过构建金融高质量 CoT 数据集与结合指令微调(SFT)和强化学习(RL)进行训练的两阶段工作框架为模型在金融领域的应用提供了坚实的理论支撑、决策逻辑以及技术实现能力,同时能有效提升模型的金融复杂推理能力和泛化能力,使模型在金融推理任务中展现出卓越性能。
图片
                              图 1 Fin-R1 应用场景示例


Fin-R1 的总体工作流程如下:我们首先通过构建 60k 规模的金融推理数据集 Fin-R1-Data,帮助模型重构知识体系,然后采用 "两步骤训练框架" 塑造模型认知和推理能力,最后在多个金融基准测试上验证模型的性能突破,实现了从 “数据构建 - 模型训练 - 性能验证 - 模型部署 - 场景应用” 的完整技术闭环。
图片
                               图 2 Fin-R1 总体工作流程


2、场景应用 —— 强大的多场景适配能力


金融代码是指在金融领域中用于实现各种金融模型、算法和分析任务的计算机编程代码,涵盖了从简单的财务计算到复杂的金融衍生品定价、风险评估和投资组合优化等多个方面,以方便金融专业人士进行数据处理、统计分析、数值计算和可视化等工作。 图片
金融计算是对金融领域的各种问题进行定量分析和计算的过程,其核心在于通过建立数学模型和运用数值方法来解决实际金融问题,可为金融决策提供科学依据,帮助金融机构和投资者更好地管理风险、优化资源配置和提高投资回报率。 
图片
英语金融计算强调在跨语言环境下使用英语进行金融模型的构建和计算,并能够以英语撰写金融分析报告和与国际同行进行沟通交流。
图片
金融安全合规聚焦于防范金融犯罪与遵守监管要求,帮助企业建立健全的合规管理体系,定期进行合规检查和审计,确保业务操作符合相关法规要求。
图片
智能风控利用 AI 与大数据技术识别和管理金融风险,与传统风控手段相比,智能风控具有更高的效率、准确性和实时性,它通过对海量金融数据的深度挖掘和分析,能够发现潜在的风险模式和异常交易行为,从而及时预警和采取相应的风险控制措施。
ESG 分析通过评估企业在环境(Environmental)、社会(Social)、治理(Governance)的表现,衡量其可持续发展能力,确保投资活动不仅能够获得财务回报,还能促进可持续发展和社会责任的履行。金融机构和企业也通过提升自身的 ESG 绩效,来满足投资者和社会对企业更高的期望和要求。
3、数据构建 —— 破解知识碎片难题


传统的金融数据分散、标注成本高,而且缺乏对复杂推理逻辑的针对性设计,导致模型难以适配金融业务场景,为将 DeepSeek-R1 的推理能力迁移至金融场景并解决高质量金融推理数据问题,我们用 Deepseek - R1(满血版)针对涵盖行业语料(FinCorpus、Ant_Finance),专业认知(FinPEE),业务知识(FinCUGE、FinanceIQ、Finance-Instruct-500K),表格解析(FinQA),市场洞察(TFNS),多轮交互(ConvFinQA)以及量化投资(FinanceQT)的多个数据集进行领域知识蒸馏筛选,构建了约 60k 条面向专业金融推理场景的高质量 COT 数据集 Fin-R1-Data 。
图片
                            图 3 Fin-R1 数据生成流程


3.1 数据蒸馏


在蒸馏过程中,我们构建了基于 Deepseek - R1 的数据蒸馏框架。在蒸馏过程中,严格遵循 DeepSeek - R1 官方规范配置参数,具体参数配置如下:
  • 将 temperature 设定为 0.6;

  • 针对数学类型数据,采用 "请用 \boxed {{}} 格式包裹最终答案" 作为标准化提示词;

  • 防止跳出思维模式,强制在每个输出的开头增加 "",再开始生成数据。

3.2 数据筛选


为了保证数据质量,项目组首创 “答案 + 推理逻辑” 双轮打分机制,双轮质检,严把数据关。
  • 第一轮:用规则匹配和 Qwen2.5-72B-Instruct 对答案准确性进行打分,确保数据 “零错误”;

  • 第二轮:深度校验推理逻辑的一致性和术语合规性,让 AI 的 “思维链条” 严丝合缝。

  • 第三轮:引入金融专家团队对关键数据进行人工复核,保障训练数据高质量。

图片

                                                                                  图 4 Fin-R1 数据分布
图片

                                表 1 Fin-R1 数据量表

4、模型训练 ——“划重点 - 考试 - 打分” 


4.1 特训成果:金融界的 "最强大脑"


针对金融领域复杂推理任务,我们利用 Qwen2.5-7B-Instruct 进行两步骤微调训练得到金融推理大语言模型 Fin-R1 。首先通过高质量金融推理数据的 SFT (Supervised Fine-Tuning) 帮助模型重构知识体系,然后在 GRPO(Group Relative Policy Optimization) 算法的基础上结合格式奖励和准确度奖励进行强化学习,以此提升金融推理任务的准确性和泛化能力。Fin-R1 能够完整地呈现思考过程,为金融决策提供深入且有价值的洞察,更为金融投资、风险管理、智能投顾以及量化交易等金融业务领域提供了可靠的技术底座。未来,这样的 "金融特训营" 模式有望在更多专业领域复制推广。


4.2 微调训练(SFT 指令微调)


针对非推理类模型在 RL 训练过程中存在训练不稳定等问题,研究团队对 AI 进行专项知识补课,像教学生一样训练模型,让非推理类模型掌握金融推理的基本功。使用金融推理数据集对模型进行定向训练(SFT),使模型初步具备长思维链思考模式,降低模型训练难度,保证训练稳定性。


4.3 实战优化(RL 强化学习)


通过考试和专家打分(RL 强化学习),不断纠正 AI 在复杂场景中的判断失误,确保每个决策都经得起推敲。在模型掌握基础知识后,通过 "考试 + 专家打分" 机制(RL)持续提升专业性:


  • 智能考官把关:引入 Qwen2.5-Max 作为验证器用于检查答案对错,比传统正则表达式方式准确度更高。

  • 双轨打分制:采用 “基于规则的格式奖励 “和” 基于模型验证的准确性奖励 “两种奖励训练模型,实现金融文本生成 “形神兼备”。

图片
                               图 5 Fin-R1 模型训练流程


5、性能验证 —— 专业场景性能超越,验证技术闭环价值


在覆盖多项金融业务场景的权威评测中,我们考虑模型的推理能力与资源消耗,将 Fin-R1 与涵盖轻量级和高性能的不同模型进行了全面评估。最终 Fin-R1 以仅 7B 的轻量化参数规模展现出显著的性能优势,以 75.2 的平均得分位居第二,全面超越同规模参评模型,同时与行业标杆 DeepSeek-R1 平均分差距仅 3.0, 且超越 DeepSeek-R1-Distill-Llama-70B(69.2)6.0 分。此外,Fin-R1 在聚焦真实金融表格数值推理任务的 FinQA 以及多轮交互场景的 ConvFinQA 两大关键任务测试上分别以 76.0 和 85.0 的得分在参评模型中登顶第一,展现出了模型在金融推理场景及金融多轮交互场景中的强大处理能力。


Fin-R1 的评测表现不仅反映出模型在投顾服务、投资者会议等多轮交互场景中具有长对话跟踪能力,能避免传统模型常见的上下文遗忘或逻辑跳跃问题并生成逻辑连贯的渐进式建议,同时展现出模型在处理财务报表重组、财务比率交叉验证时的强大数值推理能力。精准覆盖金融行业对可解释性、合规性、数值严谨性的核心诉求。具体评测结果如下:  
图片
                               表 2 Fin-R1 及其他模型在各数据集上的评测表现


6、模型部署


Github 现已提供 "开箱即用" 的本地化部署方案,只需运行一个安装脚本,就能在单张 4090 显卡上轻松部署 Fin-R1 模型。无论是银行风控还是量化交易,用户都能快速上手,解决各类金融场景问题,真正实现 "一键部署,金融 AI 触手可及"!


7、总结


Fin-R1 从训练框架到模型权重均开源,计算资源需求量小,个人电脑即可部署,更加适用于金融场景,并且通过两阶段训练框架,解决了金融数据碎片化和推理逻辑不可控等问题,在各大金融基准测试中表现卓越,展现出强大的推理能力和业务泛化能力,为金融智能化发展提供了有力支持。
产业 金融大模型 Fin-R1