DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
- 2025-02-28 10:53:00
- 刘大牛 转自文章
- 261
在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量; 在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量; 每个客户端节点在 KVCache 查找时可达到 40+ GiB/s 的峰值吞吐量; 采用分离式架构,具有强一致性语义。


开源链接:https://github.com/deepseek-ai/3FS Smallpool(3FS 上的数据处理框架):https://github.com/deepseek-ai/smallpond


分离式架构。结合了数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置限制的方式访问存储资源。
强一致性。实现了带有分配查询的链式复制(CRAQ)以保证强一致性,使应用程序代码简单且易于理解。
文件接口。开发了由事务性键值存储(如 FoundationDB)支持的无状态元数据服务。文件接口广为人知且随处可用。无需学习新的存储 API。
数据准备。将数据分析管道的输出组织成层次化的目录结构,并高效管理大量中间输出。
数据加载器。通过支持跨计算节点对训练样本的随机访问,消除了预取或打乱数据集的需求。
检查点保存。支持大规模训练的高吞吐量并行检查点保存。
用于推理的 KVCache。为基于 DRAM 的缓存提供了一种成本效益高的替代方案,提供高吞吐量和显著更大的容量。








发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |