
新智元报谈开云kaiyun官方网站 裁剪:KingHZ 好困 【新智元导读】DeepSeek公开推理系统架构,资本利润率可达545%!未来还有更大惊喜吗? 就在刚刚,当 群众觉得开源周照旧收尾的期间,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘! 迷糊量和蔓延优化: 跨节点高效并行(EP)驱动的批处理推广 估量与通讯并行处理 智能负载平衡 在线处事性能数据: 每个H800节点每秒处理73,700/14,800输入/输出token 资本利润


新智元报谈开云kaiyun官方网站
裁剪:KingHZ 好困
【新智元导读】DeepSeek公开推理系统架构,资本利润率可达545%!未来还有更大惊喜吗?
就在刚刚,当 群众觉得开源周照旧收尾的期间,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘!
迷糊量和蔓延优化:
跨节点高效并行(EP)驱动的批处理推广
估量与通讯并行处理
智能负载平衡
在线处事性能数据:
每个H800节点每秒处理73,700/14,800输入/输出token
资本利润率高达545%
DeepSeek暗意,但愿本周分享的时候视力能为开源社区带来价值,共同鞭策通用东谈主工智能的发展想法。

看到这里,网友皆惊了!
是以,基本免费的DeepSeek资本利润率高达545%,而号称全国最贵的OpenAI却在赔本?

系统缱绻原则
浅薄来说,DeepSeek-V3/R1推理处事的优化想法是:提高迷糊量和镌汰蔓延。
为了罢了这两个想法,团队采纳了跨节点行家并行(Expert Parallelism,EP)时候。
领先,EP显贵扩大了批处理边界,提高了GPU矩阵估量成果,从而晋升迷糊量。
其次,EP将行家模块散布在不同GPU上,每个GPU仅处理极少行家模块(减少内存看望需求),从而镌汰蔓延。
关联词,EP也加多了系统复杂度,主要体当今两个方面:
EP引入了跨节点通讯。为了优化迷糊量,需要缱绻合理的估量责任流,使通讯经过与估量经过大约并行进行。
EP波及多个节点,因此势必需要数据并行(Data Parallelism,DP),并条目在不同DP实例之间进行负载平衡。
为此,DeepSeek通过以下方式粗鲁这些挑战:
诈欺EP时候推广批处理边界
将通讯蔓延与估量经过交流处理
罢了存效的负载平衡
大边界跨节点行家并行(EP)
DeepSeek-V3/R1中包含精深行家模块:每层256个行家中仅激活8个,是以模子的高寥落性特色条目采纳极大的举座批处理边界。
这么才调确保每个行家模块取得满盈的批处理量,从而罢了更高的迷糊量和更低的蔓延。因此,大边界跨节点EP时候成为必弗成少的选拔。
DeepSeek采纳了预填充-解码解耦架构(prefill-decode disaggregation architecture),在预填充息争码阶段分辩采纳不同进程的并行计策:
预填充阶段「路由行家EP32,MLA/分享行家DP32」:每个部署单位特出4个节点,建立32个冗余路由行家,每个GPU细腻处理9个路由行家和1个分享行家。
解码阶段「路由行家EP144,MLA/分享行家DP144」:每个部署单位特出18个节点,建立32个冗余路由行家,每个GPU惩办2个路由行家和1个分享行家。
估量-通讯交流处理
大边界跨节点EP时候引入了显贵的通讯支出。
为了缓解这一问题,采纳dual-batch交流计策,将归拢批肯求分割为两个microbatch,以荫藏通讯资本并提高举座迷糊量。
在预填充阶段,两个microbatch轮流试验,一个microbatch的通讯支出被另一个microbatch的估量经过所心事。

在解码阶段,各试验阶段的时长存在造反衡气象。
为此,需要将驻防力层细分为两个措施,并采纳五阶段活水线(5-stage pipeline)时候,罢了估量与通讯的无缝交流。

罢了最优负载平衡
大边界并行(包括数据并行DP和行家并行EP)带来了一个要津挑战:淌若单个GPU在估量或通讯方面过载,它将成为通盘这个词系统的性能瓶颈,导致系统速率下落,同期酿成其他GPU资源闲置。
为了最大戒指地提高资源诈欺率,DeepSeek的想法是在通盘GPU上罢了估量和通讯负载的平衡。
1. 预填充阶段负载平衡器
要津问题:不同数据并行实例之间的肯求数目和序列长度相反导致中枢驻防力估量和分发发送负载造反衡。
优化想法:
平衡各GPU之间的中枢驻防力估量(中枢驻防力估量负载平衡);
平衡每个GPU处理的输入token数目(分发发送负载平衡),幸免特定GPU出现处理蔓延。
2. 解码阶段负载平衡器
要津问题:数据并行实例之间肯求数目和序列长度不均导致中枢驻防力估量(与KV缓存使用关连)和分发发送负载的相反。
优化想法:
平衡各GPU之间的KV缓存(KVCache)使用(中枢驻防力估量负载平衡);
平衡每个GPU的肯求处理数目(分发发送负载平衡)。
3. 行家并行负载平衡器
要津问题:在搀杂行家模子(Mixture of Experts,MoE)中,存在自然的高负载行家,导致不同GPU上的行家估量责任负载造反衡。
优化想法:
平衡每个GPU上的行家估量责任量(即最小化通盘GPU中的最大分发领受负载)。
DeepSeek在线推理系统图示

DeepSeek在线处事统计数据
通盘DeepSeek-V3/R1推理处事均在H800 GPU上脱手,精度与检修保合手一致。
具体而言,矩阵乘法和分发传输采纳与检修一致的FP8款式,而中枢MLA估量和组合传输使用BF16款式,确保最好的处事性能。
此外,由于白昼处事负载高而夜间负载低,团队采纳了一种改进的机制:
在白昼岑岭时段,通盘节点皆部署推理处事; 在夜间低负载时段,减少推理节点并将资源分派给运筹帷幄和检修。
在以前24小时内(02月27日中午12:00至02月28日中午12:00),V3和R1推理处事的整个峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。
假定租出一个H800 GPU的资本为每小时2好意思元,逐日总资本为87,072好意思元。

在24小时统计期内,V3和R1:
总输入token:6080亿,其中3420亿token(56.3%)射中磁盘上的KV缓存。
总输出token:1680亿。平均输出速率为每秒20-22个token,每个输出token的平均KV缓存长度为4,989个token。
每个H800节点在预填充阶段提供平均约7.37万token/秒的输入迷糊量(包括缓存射中),或在解码阶段提供约1.48万token/秒的输出迷糊量。
上述统计数据包括来自网页、APP和API的通盘效户肯求。
淌若通盘token皆按照下列DeepSeek-R1的订价计费,逐日总收入将达到562,027好意思元,利润率为545%。
R1订价:输入token(缓存射中)每百万0.14好意思元,输入token(缓存未射中)每百万0.55好意思元,输出token每百万2.19好意思元。
关联词,骨子收入大幅低于此数字,原因如下:
DeepSeek-V3的订价显贵低于R1
唯有部分服求罢了了贸易化(网页和APP看望仍然免费)
在非岑岭时段自动应用夜间扣头

参考尊府:
https://x.com/deepseek_ai/status/1895688300574462431