超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％ - ai人工智能 - 透明七彩巨人-tmqcjr.com

在 2024 年底，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了最新的混合专家（MoE）语言模型 DeepSeek-V3-Base。不过，目前没有放出详细的模型卡。

HuggingFace 下载地址：https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具体来讲，DeepSeek-V3-Base 采用了 685B 参数的 MoE 架构，包含 256 个专家，使用了 sigmoid 路由方式，每次选取前 8 个专家（topk=8）。

^{图源：X@arankomatsuzaki}

该模型利用了大量专家，但对于任何给定的输入，只有一小部分专家是活跃的，模型具有很高的稀疏性。

^{图源：X@Rohan Paul}

从一些网友的反馈来看，API 显示已经是 DeepSeek-V3 模型。

^{图源：X@ruben_kostard}

同样地，聊天（chat）界面也变成了 DeepSeek-v3。

^{图源：X@Micadep}

那么，DeepSeek-V3-Base 性能怎么样呢？Aider 多语言编程测评结果给了我们答案。

先来了解一下 Aider 多语言基准，它要求大语言模型（LLM）编辑源文件来完成 225 道出自 Exercism 的编程题，覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 等诸多编程语言。这 225 道精心挑选的最难的编程题给 LLM 带来了很大的编程能力挑战。

该基准衡量了 LLM 在流行编程语言中的编码能力，以及是否有能力编写可以集成到现有代码的全新代码。

从下表各模型比较结果来看，DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high)，一举超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等竞品模型以及前代 DeepSeek Chat V2.5。

其中与 V2.5（17.8％）相比，V3 编程性能暴增到了 48.4％，整整提升了近 31％。