最懂医疗的国产推理大模型,果然来自百川智能
- 2025-01-24 15:33:00
- 刘大牛 转自文章
- 309
年关将近,全球 AI 大模型却突然卷了起来。
就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。种种迹象表明,进入推理增强赛道的各位玩家正试图在最近一两个月卷出个高下。
1 月 24 日上午,百川智能重磅发布了 国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。
Baichuan-M1-preview 同时具备语言推理、视觉推理和搜索推理三个维度的全面推理能力,各项能力在多个领域的主流开源、闭源评测集上表现出众。
在 AIME 和 Math 等数学基准测试以及 LiveCodeBench 代码任务上,Baichuan-M1-preview 的成绩超越了 o1-preview 等模型。
在视觉推理能力方面的 MMMU-val、MathVista 等权威评测中,Baichuan-M1-preview 超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。
目前,百川已经将 Baichuan-M1-preview 在百小应 App 中上线。一夜之间,百小应就具备了深度思考模式。
百川也展示了新模型在大量任务上的实际应用效果。在学术研究、软件开发、医疗健康方面,Baichuan-M1-preview 的思考能力都展现出独特优势:
在数学推理和跨学科知识处理方面表现卓越,能够解决复杂理论问题。
深入理解代码结构,提供精准的优化建议和调试方案,显著提升开发效率。
此外,医疗能力是 Baichuan-M1-preview 另一大亮点,它能像资深医疗专家一样进行深度思考,构建严谨的医学推理过程,搜索到医疗信息之后会对不同权威等级的证据进行专业分析与整合,并保证信息的准确性。
通过严谨的病程推理,协助医生进行诊断决策,为患者提供全面的分析和个性化建议。
深度思考大模型
卷到了医疗领域
从落地效果看,百川智能的 M1 大模型可以说既有通用能力,又拥有专精的长板。
它解锁了「医疗循证模式」。也就是说,当用户使用 Baichuan-M1-preview 回答复杂医学问题时,模型能像「循证医学」(Evidence-based medicine)一样,用专业可靠的医疗知识作为推理依据,通过「摆事实、讲道理」的循证方式提供言之有物、有理有据的解答。





通识能力提升。进行基础语言模型建模,提升模型的基础语言能力、常识等能力; 医疗基础知识提升。不断提升模型高阶能力、如推理,数学等,并显著提升医疗数据的比例; 医疗进阶知识提升。进一步提升数据质量和难度,对更高阶的医疗能力、如推理、逻辑、疑难杂症等进行进一步优化。
首先是用 ELO(Exploratory Log-likelihood Optimization)进行思维链探索。与传统强化学习方法不同,ELO 摒弃了对奖励模型的依赖,直接优化生成路径逻辑,避免了可能引入偏差的问题。ELO 在增强生成逻辑性和保持内容多样性的同时,确保了思维链生成过程的稳定性与高效性,为后续训练阶段提供了优质的初始化模型。 随后基于偏序对数据使用 TDPO(Token-level Direct Preference Optimization)方法对模型进行优化。理论分析表明,在 DPO 的优化框架中,KL 散度项用于约束生成模型与参考模型(Reference Model)之间的分布差异。然而,由于 KL 散度的约束效应随着句子长度变化不均衡,其对短句的约束较强,而对长句的约束则显著减弱。这种不均衡可能导致生成模型在长句生成过程中偏离参考模型,影响生成结果的逻辑性与质量。TDPO 可以做到计算效率与性能兼备,在 ELO 训练的基础上,模型进行了一轮的 TDPO 训练,能够确保精准贴合用户偏好,同时兼顾长短句子的生成质量。 在最终阶段,百川 M1 采用了 PPO(Proximal Policy Optimization)方法进一步优化模型的生成策略。PPO 充分利用了 ELO 和 TDPO 阶段的优化成果,将模型的生成策略从局部的 Token 级别优化扩展至全局的策略调整,确保模型能够在多种任务中生成符合用户需求的高质量文本。
Github: https://github.com/baichuan-inc/Baichuan-M1-14B
Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct
NPU版本支持BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base

联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |