微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B - ai人工智能 - 透明七彩巨人-tmqcjr.com

动辄百亿、千亿参数的大模型正在一路狂奔，但「小而美」的模型也在闪闪发光。

2024 年底，微软正式发布了 Phi-4—— 在同类产品中表现卓越的小型语言模型（SLM）。仅用了 40% 合成数据，140 亿参数的 Phi-4 就在数学性能上击败了 GPT-4o。

刚刚，微软又隆重介绍了 Phi-4 模型家族的两位新成员：Phi-4-multimodal （多模态模型）和 Phi-4-mini（语言模型）。Phi-4-multimodal 改进了语音识别、翻译、摘要、音频理解和图像分析，而 Phi-4-mini 专为速度和效率而设计，两者都可供智能手机、PC 和汽车上的开发人员使用。

项目地址：https://huggingface.co/microsoft/phi-4

在技术报告中，微软对这两个模型进行了更加详细的介绍。

Phi-4-Multimodal 是一个多模态模型，它将文本、视觉和语音 / 音频输入模态整合到一个模型中。它采用新颖的模态扩展方法，利用 LoRA 适配器和特定模态路由器，实现了多种推理模式的无干扰结合。例如，尽管语音 / 音频模态的 LoRA 组件只有 46 亿参数，但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及（视觉 + 语言）、（视觉 + 语音）和（语音 / 音频）输入的场景，在各种任务中的表现均优于此前的大型视觉 - 语言模型和语音 - 语言模型。
Phi-4-Mini 是一个拥有 38 亿参数的语言模型，在高质量的网络和合成数据上进行了训练，其性能明显优于近期类似规模的开源模型，并在需要复杂推理的数学和编码任务上与两倍于其规模的模型不相上下。这一成就得益于精心设计的合成数据配方，该配方强调高质量的数学和编码数据集。与上一代产品 Phi-3.5-Mini 相比，Phi-4-Mini 的词汇量扩大到了 20 万个，从而能更好地支持多语言应用，同时还采用了分组查询功能，从而能更高效地生成长序列。

Phi-4-Multimodal 是这家公司的首个多模态语言模型，微软表示：「Phi-4-multimodal 标志着我们人工智能发展的一个新里程碑。

此外，微软还进一步训练了 Phi-4-Mini 以增强其推理能力。结果显示，它与 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等规模更大的先进推理系统相媲美。

接下来，让我们看看技术细节。

模型架构

两个模型都使用 tokenizer o200k base tiktoken ，词汇量为 200,064 个，旨在更高效地支持多语言和多模态输入和输出。所有模型都基于仅解码器的 Transformer，并支持基于 LongRoPE 的 128K 上下文长度。

语言模型架构

Phi-4-mini 由 32 层 Transformer 组成，专为速度和效率而设计，Phi-4-Mini 还有一些特殊的「省内存」技巧：

首先是分组查询注意力机制（GQA），模型在处理长序列时能够快速地聚焦于关键信息片段。这优化了长上下文生成时的 KV 缓存。具体来说，模型使用 24 个查询头和 8 个 K/V 头，将 KV 缓存消耗减少到标准大小的三分之一。

其次是输入 / 输出嵌入绑定技术，实现了资源的优化利用，同时与 Phi-3.5 相比提供了更广泛的 20 万词汇覆盖。

此外，在 RoPE 配置中，使用了分数 RoPE 维度，确保 25% 的注意力头维度与位置无关。这种设计能让模型更平滑地处理较长的上下文。

Phi-4-Mini 峰值学习率的计算公式为：

LR*(D) = BD^(-0.32)，

其中 B 是超参数，D 是训练 token 的总数，通过调整 D = 12.5B、25B、37.5B 和 50B 来拟合 B 值。

多模态模型架构

Phi-4-Multimodal 采用了「Mixture of LoRA」技术，通过整合特定模态的 LoRAs 来实现多模态功能，同时完全冻结基础语言模型。该技术优于现有方法，并在多模态基准上实现了与完全微调模型相当的性能。此外，Phi-4-Multimodal 的设计具有高度可扩展性，允许无缝集成新的 LoRA，以支持更多模态，而不会影响现有模态。

该模型的训练过程由多个阶段组成，包括语言训练（包括预训练和后训练），然后将语言骨干扩展到视觉和语音 / 音频模态。

对于语言模型，研究者使用高质量、推理丰富的文本数据来训练 Phi-4-Mini。值得注意的是，他们加入了精心策划的高质量代码数据集，以提高编码任务的性能。

语言模型训练完成后，研究者冻结了语言模型，并实施「Mixture of LoRA」技术，继续多模态训练阶段。

具体来说，在训练特定模态编码器和投影器的同时，还训练了两个额外的 LoRA 模块，以实现与视觉相关的任务（如视觉 - 语言和视觉 - 语音）和与语音 / 音频相关的任务（如语音 - 语言）。它们都包含预训练和后训练阶段，分别用于模态对齐和指令微调。

^{Phi-4-Multimodal 模型架构。}

性能评估

Phi-4-multimodal

虽然 Phi-4-multimodal 只有 5.6B 参数，但它将语音、视觉和文本处理无缝集成到一个统一的架构中，所有这些模态都在同一个表征空间内同时处理。

Phi-4 多模态能够同时处理视觉和音频。下表显示了在图表 / 表格理解和文档推理任务中，当视觉内容的输入查询为合成语音时的模型质量。与其他可以将音频和视觉信号作为输入的现有最先进的全方位模型相比，Phi-4 多模态模型在多个基准测试中取得了更强的性能。

^{图 1：所列基准包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。进行对比的模型有：Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。}

Phi-4-multimodal 在语音相关任务中表现出了卓越的能力。它在自动语音识别 (ASR) 和语音翻译 (ST) 方面都优于 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。该模型以令人印象深刻的 6.14% 的单词错误率在 Huggingface OpenASR 排行榜上名列前茅，超过了 2025 年 2 月之前的最佳表现 6.5%。此外，它是少数几个成功实现语音摘要并达到与 GPT-4o 模型相当的性能水平的开放模型之一。该模型在语音问答 (QA) 任务上与 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距，因为模型尺寸较小导致保留事实 QA 知识的能力较弱。

^{图 2：Phi-4 多模态语音基准。}

在下方视频中，Phi-4-multimodal 分析了语音输入并帮助规划西雅图之旅：

Phi-4-multimodal 同样在各种基准测试中都表现出了卓越的视觉能力，最显著的是在数学和科学推理方面取得了优异的表现。尽管规模较小，但该模型在通用多模态能力（如文档和图表理解、光学字符识别 (OCR) 和视觉科学推理）方面仍保持着极具竞争性的表现，与 Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet 等相当或超过它们。

Phi-4-multimodal 展示了强大的推理和逻辑能力，适合分析任务。参数量更小也使得微调或定制更容易且更实惠。下表中展示了 Phi-4-multimodal 的微调场景示例。

下方视频展示了 Phi-4-multimodal 的推理能力：

Phi-4-mini：3.8B，小身材大能量

Phi-4-Mini 和 Phi-4-Multimodal 共享同一个语言模型骨干网络。Phi-4-mini 虽然体积小巧，但它承袭了 Phi 系列前作的传统，在推理、数学、编程、指令遵循和函数调用等任务上超越了更大的模型。

^{Phi-4-mini 在各种测试集中和较小模型的成绩对比}

更重要的是，开发者们可以基于 Phi-4-mini 构建出一个可扩展的智能体系统，它可以借函数调用、指令跟随、长上下文处理以及推理能力来访问外部知识，从而弥补自身参数量有限的不足。

通过标准化协议，Phi-4-mini 的函数调用可以与结构化的编程接口无缝集成。当用户提出请求时，Phi-4-mini 能够对查询进行分析，识别并调用相关的函数以及合适的参数，接收函数输出的结果，并将这些结果整合到最终的回应之中。

在设置合适的数据源、API 和流程之后，Phi-4-mini 可以部署在你家，当你的智能家居助手，帮你查看监控有没有异常。

^{基于 Phi-4-mini 的家居智能体}

通过标准化协议，函数调用使得模型可以与结构化的编程接口无缝集成。当用户提出请求时，Phi-4-mini 可以对查询进行分析，识别并调用相关的函数以及合适的参数，接收函数输出的结果，并将这些结果整合到最终的回应之中。这样一来，就构建了一个可扩展的基于智能体的系统，借助定义良好的函数接口，模型能够连接到外部工具、应用程序接口（API）以及数据源，进而增强自身的能力。下面的例子就模拟了 Phi-4-mini 控制智能家居的场景。

因为体积较小，Phi-4-mini 和 Phi-4-multimodal 模型可以在计算资源有限的环境中使用，尤其是在用 ONNX Runtime 优化后。

训练数据

Phi-4-mini 性能明显优于近期类似规模的开源模型，有一个重要原因就是高质量的训练数据。

相比上一代 Phi-3.5-Mini，研究人员选择了更严格的数据过滤策略，加入了针对性的数学和编程训练数据、特殊清洗过的 Phi-4 合成数据，还通过消融实验重新调整了数据混合比例，增加推理数据的比例为模型带来了显著提升。

具体来说，研究人员从推理模型生成了大量合成的思维链（CoT）数据，同时采用基于规则和基于模型的两种筛选方法来剔除错误的生成结果，将正确的采样答案标记为首选生成，将错误的标记为非首选，并创建 DPO 数据。

不过，这些数据仅用于实验性推理模型，所以正式发布的 Phi-4-Mini 版本检查点中没有这些 CoT 数据。

在后训练阶段，与 Phi-3.5-Mini 相比，Phi-4-Mini 使用了更大规模和更多样化的函数调用和摘要数据。研究人员合成了大量的指令跟随数据来增强模型的指令跟随能力。

在编程方面，研究人员加入了大量的代码补全数据，比如要求模型在现有代码片段中间生成缺失代码的任务。这挑战了模型对需求和现有上下文的理解能力，带来了显著的性能提升。

Phi-4-Multimodal 模型的预训练阶段涉及丰富多样的数据集，视觉 - 语言训练数据包含 0.5T 图像 - 文本文档、OCR 数据、图表理解等；语音相关的训练数据涵盖真实和合成数据，使用内部 ASR 模型转录音频并计算原始文本与转录之间的词错率（WER）来衡量合成语音的质量。

更多详情，请访问原项目地址。

^{参考链接：}

^{https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/}

^{https://huggingface.co/microsoft/Phi-4-multimodal-instruct}

产业 Phi-4-mini Phi-4-multimodal 微软