DeepSeek 开源狂欢周(五)正式收官|3FS并行文件系统榨干SSD

发布于:2025-03-04 ⋅ 阅读:(18) ⋅ 点赞:(0)

千呼万唤始出来!在 DeepSeek 开源周 的第五天,今日正式收官!在大模型训练中,每个epoch都在与存储系统进行光速竞赛——数据加载延迟会扭曲计算时空,KVCache访问瓶颈将引发推理坍缩。DeepSeek开源的 3FS文件系统(Fire-Flyer文件系统第三个F代表File),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统;正用「存储相对论」重构AI基础设施的时空连续性。Smallpond,基于3FS和DuckDB构建的轻量级数据处理框架。

图片

3FS并行文件系统

技术革命:3FS的四大维度突破

1. 存算分离架构的终极形态
  • 光子引擎:基于RDMA网络实现零拷贝数据直通,单边操作占比超92%

  • 时空折叠:三维数据分层(热/温/冷数据)动态调度,NVMe SSD吞吐利用率达98%

  • 强一致性保障:CRAQ协议实现微秒级跨节点一致性,比传统Raft快15倍

2. 性能暴力美学
  • 180节点集群:6.6 TiB/s聚合读取带宽,相当于每秒传输3部4K《阿凡达》

  • 推理加速:单节点KVCache峰值40 GiB/s,可支撑百万QPS的向量检索

  • GraySort基准:25节点3.66 TiB/min排序吞吐,比Hadoop快17倍

全场景性能实测

1. 峰值吞吐量

180节点集群压测 实现 6.6 TiB/s聚合读取吞吐:

  • 存储节点:180个,每节点配备2×200Gbps InfiniBand网卡及16块14TiB NVMe SSD。

  • 客户端节点:500+个,每节点配置1×200Gbps InfiniBand网卡。

  • 场景:大块数据读取测试,伴随训练任务产生的背景流量。

图片

2. GraySort基准
  • 集群配置:

    • 25个存储节点(每节点2个NUMA域,2×400Gbps网卡)。

    • 50个计算节点(192物理核心,2.2 TiB内存,1×200Gbps网卡)。

  • 结果:在 30分14秒 内完成 110.5 TiB数据排序(8192个分区),平均吞吐达 3.66 TiB/分钟。

    图片

    图片

3. KVCache性能
  • 读取吞吐:单客户端峰值达 40 GiB/s。

  • 垃圾回收(GC)效率:在推理过程中展示高IOPS的GC操作性能。

图片

图片

快速开始

从 GitHub 克隆 3FS 仓库:

git clone https://github.com/deepseek-ai/3fs

当 deepseek-ai/3fs 克隆到本地文件系统后,运行以下命令来检出子模块:

cd 3fsgit submodule update --init --recursive./patches/apply.sh

根据Ubuntu版本安装所需的依赖项:

# for Ubuntu 20.04.apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev ccache libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev
# for Ubuntu 22.04.apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \
 libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev ccache gcc-12 g++-12 libboost-all-dev

确保安装了libfuse 3.16.1或更新版本,FoundationDB 7.1或更新版本,以及Rust工具链。

在构建目录中构建3FS:

cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32

Smallpond轻量级数据处理框架

Smallpond 是基于 3FS 并行文件系统 和 DuckDB 构建的轻量级数据处理框架,专为 AI 数据流水线设计,致力于简化海量数据的处理与分析流程。其核心目标是提供 声明式编程接口 和 极致性能优化,覆盖从数据预处理到模型推理的全场景需求。

性能亮点

  • 1TB 数据排序:37 秒完成(比 Apache Spark 快 83 倍)

  • ANN 向量检索:单节点 9.8 亿向量/秒

  • 流水线延迟:亚毫秒级动态反向压力控制

应用场景

  • 训练数据预处理:TB 级数据清洗/特征工程加速

  • 推理结果后处理:实时向量检索与聚合分析

  • 模型监控:流式日志分析与异常检测

快速开始​​​​​​​

# Download example datawget https://duckdb.org/data/prices.parquetimport smallpond# Initialize sessionsp = smallpond.init()# Load datadf = sp.read_parquet("prices.parquet")# Process datadf = df.repartition(3, hash_by="ticker")df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)# Save resultsdf.write_parquet("output/")# Show resultsprint(df.to_pandas())

OpenCSG 社区开源加速计划

作为OpenCSG社区的一部分,我们一直致力于为开发者提供优质的开源资源。此次DeepSeek的3FS和Smallpond项目已同步到OpenCSG社区,欢迎大家访问并使用该项目。

3FS项目原始GitHub地址:

https://github.com/deepseek-ai/3FS

Smallpond项目原始GitHub地址:

https://github.com/deepseek-ai/smallpond

OpenCSG社区同步的3FS项目地址:

https://opencsg.com/codes/deepseek-ai/deepseek-3FS

OpenCSG社区同步的 Smallpond项目地址:

https://opencsg.com/codes/deepseek-ai/smallpond

如果您遇到网络问题无法快速访问GitHub,可以通过我们的服务轻松同步该项目,确保不受网络限制影响。

OpenCSG为您提供了DeepSeek R1和V3系列模型的万兆网络高速下载服务,帮助您快速获取所需模型,避免因文件过大造成下载困难。

DeepSeek R1下载:

https://opencsg.com/models/DeepseekAI/DeepSeek-R1 

DeepSeek V3下载:

https://opencsg.com/models/deepseek-ai/DeepSeek-V3

同时,我们还提供了各种蒸馏版、量化版,您可以访问我们的awesome DeepSeek合集来找到最适合的模型版本。

awesome-deepseek-r1-collection:

https://opencsg.com/collections/85/ 

awesome-deepseek-v3-collection:

https://opencsg.com/collections/86/ 

awesome-deepseek-Janus-collection:

https://opencsg.com/collections/87/

开源狂欢 继续期待

OpenAI 社区与您同行 🤝

OpenAI 社区 将继续关注并为您带来 DeepSeek 的最新开源成果,让我们共同期待更多激动人心的技术创新!

DeepSeek开源周汇总​​​​​​​

DeepSeek开源周,连更5天,终于收官。

  • Day 1: FlashMLA 🔥 自研 MLA 架构,H800 算力榨干!

  • Day 2: DeepEP 🚀 首个 MoE 训练/推理 EP 通信库,All-to-All 加速!

  • Day 3: DeepGEMM 💡 通用矩阵乘法库,300 行代码解锁 V3/R1 性能秘籍!

  • Day 4: 连开三源! 🌊 双向流水线并行 DualPipe、MoE 负载均衡 EPLB,性能分析数据一网打尽!

  • Day 5: 3FS & Smallpond 🏞️ 高效分布式文件系统 + 数据处理框架,数据处理更轻松!

DeepSeek 这波操作,够 Open!