五天五连炸！回顾DeepSeek“开源周”技术全家桶：用软件“重新定义”算力！

发布时间：2025-02-28 已有：位网友关注

　　本周，“开源周”活动如火如荼地展开，DeepSeek每天不定时上新“黑科技”，让全球程序员直呼：这波简直在大气层！

　　从计算到通信再到存储，DeepSeek“五连炸”几乎覆盖了AI开发的全链条，在完全没有升级现有硬件的情况下最大程度地“榨干”算力，进而实现训练效率的飞跃，堪称“最强辅助”，十分强大，无比慷慨。

　　我们梳理了DeepSeek这些天来释出的技术组件，惊喜地发现，它们似乎恰巧构建成了一套精密协同的系统。

　　如果用“中央厨房”来比喻这套系统，那么每当大模型这名厨师要开始“做饭”时，每个环节能展开精密协作，经由“拿菜-订单处理-传菜-烹饪”的流程后“高效出大餐”。

　　FlashMLA是DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化，旨在优化GPU解码，处理变长序列，提高计算效率。

　　简单来说，FlashMLA的最大优势在于，面对长短不一的文本序列能动态调配算力资源。

　　就像厨房里能根据订单动态分配食材的智能机器人，面对不同规格的订单，FlashMLA能自动调节切菜速度，“短订单”秒速完成，长订单则启动高压锅模式，节省处理时间。

　　根据基准测试，FlashMLA能在H800显卡上飙出580万亿次/秒的算力，相当于1秒写完全集，还把显存占用砍到了传统方案的1/5。

　　DeepEP是全球首个专为混合专家模型和专家并行定制的开源高性能通信库，旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

　　在AI中央厨房中，DeepEP如同新型的传输调度台，相较于传统对讲机容易导致指令混乱的弊端，在面对复杂任务时，DeepEP能通过FP8压缩技术，简化传达任务需求，还能实时更新菜单。

　　当需要跨厨房传递食材时，RDMA技术更像是一条“传送带”，将食材直送灶台。

　　性能数据也很给力：基于H800的GPU，DeepEP可以通过NVLink技术实现单节点内GPU间极速通信，带宽高达约150GB/s，相当于1秒传完30部高清电影。

　　DeepGEMM是一款专注于FP8高效通用矩阵乘法的库，主要满足普通矩阵计算以及混合专家分组场景下的计算需求。

　　还是拿中央厨房举例，DeepGEMM可以看成是一个万能灶台，一能做到动态火候控制，煎牛排用猛火，煲汤转文火；二能通过JIT技术，让1平米灶台同时处理10道菜。

　　不同于CUDA库这个传统灶台，做佛跳墙要3小时，通过精度动态切换等一系列骚操作，DeepGEMM只需1小时就能搞定，还省一半燃气。

　　值得注意的是，DeepGEMM采用了轻量级即时编译模块，支持运行时动态编译内核，无需提前完成编译和安装。

　　也就是说，DeepGEMM仅凭300行CUDA代码，运算速度就能干翻传统千万行工程库。有观点戏称：这DeepSeek简直比英伟达都懂GPU。

　　DualPipe和EPLB是面向大规模AI模型训练的两项核心技术，分别聚焦于分布式训练效率优化和专家并行负载均衡，均为V3/R1而设计。

　　实际上，训练大模型最怕遇到“流水线摸鱼”，计算单元等数据时的发呆时间一般被称作“气泡”，而DualPipe和EPLB就是专为减少“气泡”而设计的。

　　在中央厨房中，DualPipe是一条“双向传送带”，一边让洗碗工“反向传播”，一边让配菜员“前向计算”在两条平行传送带上工作，相当于“一边做饭一边洗碗”，解决了“等盘子洗好才能上菜”的尴尬。

　　EPLB则充当“智能排班表”的角色，可以克隆大厨到空闲灶台，确保法餐主厨不会累晕在情人节套餐高峰期。

　　Day5：3FS文件系统——中央冷库+闪电配送

　　最后压轴的Fire-Flyer文件系统，是专为高性能计算打造的高性能分布式文件系统，旨在应对AI训练和推理工作负载中的挑战，解决“高吞吐写入”与“低延迟读取”难兼顾的痛点。

　　对中央厨房而言，3FS更多起到后台储藏的作用，主要的技术优势在于两点。

　　一是光速存取：6.6TB/s的吞吐量，相当于每分钟搬空300个冰柜的食材。

　　二是保鲜黑科技：通过SSD+RDMA技术的结合，确保北京分店和上海分店看到的牛排永远是同一块，也就是所谓的“数据强一致性”。

　　打响AI“开源盛世”第一枪，继续推翻象牙塔

　　不管是传输调度台，还是配菜机器人，DeepSeek此次开源的技术组件，设计初衷都在于进一步降低算力成本、优化训练效率。

　　有分析认为，这波开源最硬核的意义在于：通过软件栈的系统性优化，可在现有硬件基础上实现倍数级效率飞跃。

　　这意味着，AI性能提升不再单纯依赖芯片制程的突破。而不堆硬件、优化软件、“猛榨”算力，也正是DeepSeek能实现超低成本“超车”一众海外顶尖大模型的秘诀所在。

　　有网友表示，OpenAI应该把它们的域名“献给”DeepSeek，因为后者才真正做到了开源。

　　还有网友表示，开源AI不稀奇，稀奇的是DeepSeek这种“车库精神和AGI野心的结合”：

　　还有人奉上梗图，以表尊重：

　　针对此次的“开源周”活动，我们也让DeepSeek也评论了一下，这是它的回答：

　　“这个领域没有高高在上的象牙塔，只有纯粹的车库创业精神与社区共筑的创新力量。”“毫无保留地分享我们微小但真诚的进展。”

　　而一个更大胆的猜想也正随之浮现：随着DeepSeek不断用技术优化突破硬件瓶颈，会不会重新定义算力之于AI的意义？

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

推荐