
Phi-4-Multimodal 是一个多模态模型,它将文本、视觉和语音 / 音频输入模态整合到一个模型中。它采用新颖的模态扩展方法,利用 LoRA 适配器和特定模态路由器,实现了多种推理模式的无干扰结合。例如,尽管语音 / 音频模态的 LoRA 组件只有 46 亿参数,但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及(视觉 + 语言)、(视觉 + 语音)和(语音 / 音频)输入的场景,在各种任务中的表现均优于此前的大型视觉 - 语言模型和语音 - 语言模型。 Phi-4-Mini 是一个拥有 38 亿参数的语言模型,在高质量的网络和合成数据上进行了训练,其性能明显优于近期类似规模的开源模型,并在需要复杂推理的数学和编码任务上与两倍于其规模的模型不相上下。这一成就得益于精心设计的合成数据配方,该配方强调高质量的数学和编码数据集。与上一代产品 Phi-3.5-Mini 相比,Phi-4-Mini 的词汇量扩大到了 20 万个,从而能更好地支持多语言应用,同时还采用了分组查询功能,从而能更高效地生成长序列。









