Dee:p?Seek开源周收官, 连续(五天到底)到底都发布了什么?
界面新闻记者|宋佳楠
2月28日,国内AI明星公司DeepSeek为期五天的“开源周”告一段落。其于2月24日正式启动,计划开源5个代码库,旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展。
回顾这五日,其最先开源的是FlashMLA,这是专为英伟达HopperGPU优化的高效MLA解码内核,专为处理可变长度序列设计。
在自然语言处理等任务里,数据序列长度不一,传统处理方式会造成算力浪费。而FlashMLA如同智能交通调度员,能依据序列长度动态调配计算资源。例如在同时处理长文本和短文本时,它可以精准地为不同长度的文本分配恰当的算力,避免“大马拉小车”或资源不足的情况。发布6小时内,GitHub上收藏量突破5000次,被认为对国产GPU性能提升意义重大。
第二日开源的是DeepEP。DeepEP是首个用于MoE(混合专家模型)训练和推理的开源EP通信库。MoE模型训练和推理中,不同专家模型需高效协作,这对通信效率要求极高。DeepEP支持优化的全对全通信模式,就像构建了一条顺畅的高速公路,让数据在各个节点间高效传输。
它还原生支持FP8低精度运算调度,降低计算资源消耗,并且在节点内和节点间都支持NVLink和RDMA,拥有用于训练和推理预填充的高吞吐量内核以及用于推理解码的低延迟内核。简单来说,它让MoE模型各部分间沟通更快、消耗更少,提升了整体运行效率。
第三日是DeepGEMM,矩阵乘法加速库,为V3/R1的训练和推理提供支持。通用矩阵乘法是众多高性能计算任务的核心,其性能优化是大模型降本增效的关键。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术,仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。
它支持普通GEMM以及专家混合(MoE)分组GEMM,在HopperGPU上最高可达到1350+FP8TFLOPS(每秒万亿次浮点运算)的计算性能,在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优,且安装时无需编译,通过轻量级JIT模块在运行时编译所有内核。
第四日开源优化并行策略(DualPipe和EPLB)。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法。以往的管道并行存在“气泡”问题,即计算和通信阶段存在等待时间,造成资源浪费。DualPipe通过实现“向前”与“向后”计算通信阶段的双向重叠,将硬件资源利用率提升超30%。
EPLB则是一种针对V3/R1的专家并行负载均衡器。基于混合专家(MoE)架构,它通过冗余专家策略复制高负载专家,并结合启发式分配算法优化GPU间的负载分布,减少GPU闲置现象。
在第五日,DeepSeep开源了面向全数据访问的推进器3FS,也就是Fire-Flyer文件系统。它是一个专门为了充分利用现代SSD和RDMA网络带宽而设计的并行文件系统,能实现高速数据访问,提升AI模型训练和推理的效率。
此外,DeepSeek还开源了基于3FS的数据处理框架Smallpond,它可以进一步优化3FS的数据管理能力,让数据处理更加方便、快捷。
全球开发者可基于上述开源项目进行二次开发与改进,有望推动AI技术在更多领域的应用。
(内容来源:财经杂志)
作者: 编辑:何梓豪
越牛新闻客户端
越牛新闻微信
绍兴发布微信
越牛新闻微博
绍兴发布微博
新闻热线
0575-88880000
投稿信箱
zjsxnet@163.com