千呼万唤始出来!在 DeepSeek 开源周 的第五天,今日正式收官!在大模型训练中,每个epoch都在与存储系统进行光速竞赛——数据加载延迟会扭曲计算时空,KVCache访问瓶颈将引发推理坍缩。DeepSeek开源的 3FS文件系统(Fire-Flyer文件系统第三个F代表File),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统;正用「存储相对论」重构AI基础设施的时空连续性。Smallpond,基于3FS和DuckDB构建的轻量级数据处理框架。
3FS并行文件系统
技术革命:3FS的四大维度突破
1. 存算分离架构的终极形态
光子引擎:基于RDMA网络实现零拷贝数据直通,单边操作占比超92%
时空折叠:三维数据分层(热/温/冷数据)动态调度,NVMe SSD吞吐利用率达98%
强一致性保障:CRAQ协议实现微秒级跨节点一致性,比传统Raft快15倍
2. 性能暴力美学
180节点集群:6.6 TiB/s聚合读取带宽,相当于每秒传输3部4K《阿凡达》
推理加速:单节点KVCache峰值40 GiB/s,可支撑百万QPS的向量检索
GraySort基准:25节点3.66 TiB/min排序吞吐,比Hadoop快17倍
全场景性能实测
1. 峰值吞吐量
180节点集群压测 实现 6.6 TiB/s聚合读取吞吐:
存储节点:180个,每节点配备2×200Gbps InfiniBand网卡及16块14TiB NVMe SSD。
客户端节点:500+个,每节点配置1×200Gbps InfiniBand网卡。
场景:大块数据读取测试,伴随训练任务产生的背景流量。
2. GraySort基准
集群配置:
25个存储节点(每节点2个NUMA域,2×400Gbps网卡)。
50个计算节点(192物理核心,2.2 TiB内存,1×200Gbps网卡)。
结果:在 30分14秒 内完成 110.5 TiB数据排序(8192个分区),平均吞吐达 3.66 TiB/分钟。
3. KVCache性能
读取吞吐:单客户端峰值达 40 GiB/s。
垃圾回收(GC)效率:在推理过程中展示高IOPS的GC操作性能。
快速开始
从 GitHub 克隆 3FS 仓库:
git clone https://github.com/deepseek-ai/3fs
当 deepseek-ai/3fs 克隆到本地文件系统后,运行以下命令来检出子模块:
cd 3fs
git submodule update --init --recursive
./patches/apply.sh
根据Ubuntu版本安装所需的依赖项:
# for Ubuntu 20.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \ libgoogle-perftools-dev google-perftools libssl-dev ccache libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev
# for Ubuntu 22.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \ libgoogle-perftools-dev google-perftools libssl-dev ccache gcc-12 g++-12 libboost-all-dev
确保安装了libfuse 3.16.1或更新版本,FoundationDB 7.1或更新版本,以及Rust工具链。
在构建目录中构建3FS:
cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32
Smallpond轻量级数据处理框架
Smallpond 是基于 3FS 并行文件系统 和 DuckDB 构建的轻量级数据处理框架,专为 AI 数据流水线设计,致力于简化海量数据的处理与分析流程。其核心目标是提供 声明式编程接口 和 极致性能优化,覆盖从数据预处理到模型推理的全场景需求。
性能亮点
1TB 数据排序:37 秒完成(比 Apache Spark 快 83 倍)
ANN 向量检索:单节点 9.8 亿向量/秒
流水线延迟:亚毫秒级动态反向压力控制
应用场景
训练数据预处理:TB 级数据清洗/特征工程加速
推理结果后处理:实时向量检索与聚合分析
模型监控:流式日志分析与异常检测
快速开始
# Download example data
wget https://duckdb.org/data/prices.parquetimport smallpond
# Initialize session
sp = smallpond.init()
# Load data
df = sp.read_parquet("prices.parquet")
# Process data
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)
# Save results
df.write_parquet("output/")
# Show results
print(df.to_pandas())
OpenCSG 社区开源加速计划
作为OpenCSG社区的一部分,我们一直致力于为开发者提供优质的开源资源。此次DeepSeek的3FS和Smallpond项目已同步到OpenCSG社区,欢迎大家访问并使用该项目。
3FS项目原始GitHub地址:
https://github.com/deepseek-ai/3FS
Smallpond项目原始GitHub地址:
https://github.com/deepseek-ai/smallpond
OpenCSG社区同步的3FS项目地址:
https://opencsg.com/codes/deepseek-ai/deepseek-3FS
OpenCSG社区同步的 Smallpond项目地址:
https://opencsg.com/codes/deepseek-ai/smallpond
如果您遇到网络问题无法快速访问GitHub,可以通过我们的服务轻松同步该项目,确保不受网络限制影响。
OpenCSG为您提供了DeepSeek R1和V3系列模型的万兆网络高速下载服务,帮助您快速获取所需模型,避免因文件过大造成下载困难。
DeepSeek R1下载:
https://opencsg.com/models/DeepseekAI/DeepSeek-R1
DeepSeek V3下载:
https://opencsg.com/models/deepseek-ai/DeepSeek-V3
同时,我们还提供了各种蒸馏版、量化版,您可以访问我们的awesome DeepSeek合集来找到最适合的模型版本。
awesome-deepseek-r1-collection:
https://opencsg.com/collections/85/
awesome-deepseek-v3-collection:
https://opencsg.com/collections/86/
awesome-deepseek-Janus-collection:
https://opencsg.com/collections/87/
开源狂欢 继续期待
OpenAI 社区与您同行 🤝
OpenAI 社区 将继续关注并为您带来 DeepSeek 的最新开源成果,让我们共同期待更多激动人心的技术创新!
DeepSeek开源周汇总
DeepSeek开源周,连更5天,终于收官。
Day 1: FlashMLA 🔥 自研 MLA 架构,H800 算力榨干!
Day 2: DeepEP 🚀 首个 MoE 训练/推理 EP 通信库,All-to-All 加速!
Day 3: DeepGEMM 💡 通用矩阵乘法库,300 行代码解锁 V3/R1 性能秘籍!
Day 4: 连开三源! 🌊 双向流水线并行 DualPipe、MoE 负载均衡 EPLB,性能分析数据一网打尽!
Day 5: 3FS & Smallpond 🏞️ 高效分布式文件系统 + 数据处理框架,数据处理更轻松!
DeepSeek 这波操作,够 Open!