DeepSeek算力到底需要多少CPU?这个问题看起来就不简单,答案涉及到训练规模、硬件选型和中美技术博弈等多种因素。根据DeepSeek公开资料显示,早在DeepSeekR1模型阶段就配置了一万块老款NVIDIA A100 GPU,而在后续V3版本的预训练过程中,又调用了大量H800加速卡,总计投入了近280万GPU小时。DeepSeek-R1在发布时就自称“手握一万块A100”,这些A100大多是早期批量采购的老一代产品,利用其成熟稳定的计算能力进行大规模推理服务部署。这些真实数字远高于多数业内同辈这也体现了DeepSeek在算力层面的激进投入。
接着进入V3阶段,DeepSeek官方在技术报告中披露,V3预训练阶段消耗了大约2.66百万GPU小时的计算量,使用的主要是NVIDIA H800系列加速卡。上下文扩展(context extension)环节又额外使用了11.9万GPU小时,最终的监督微调与强化学习又用了5千GPU小时,使得总投入约为2.79百万GPU小时。如果按照每小时2美元的典型租赁价格估算,仅算这些硬件租用成本就接近560万美元,远低于同等规模训练花费数千万美元的传统大厂做法。
这种“高投入但低成本”的组合一方面归功于DeepSeek在国内渠道批量采购老款A100及H800显卡,规避了美国对最新高端GPU的出口限制;另一方面则是其在模型架构与训练流程上的优化,如大规模蒸馏与量化技术,将模型体积与算力需求大幅压缩。据Erich Izdepski的测评,DeepSeek-R1经过蒸馏量化后,核心模型参数从6710亿8位降到仅14亿4位,使得部署成本和推理算力需求都大幅下降。
然而并非所有业内人士都认同DeepSeek的公开说法。Scale AI的CEO曾在黑客新闻(Hacker News)上质疑,声称DeepSeek背后真正使用的GPU远超一万块,甚至可能达到五万甚至更多,只是在论文中为了规避出口管制而故意低报。这种猜测也反映了在高性能AI竞赛中,厂商往往需要在合规与营销之间做出平衡。
从行业角度来看,DeepSeek所用GPU数量无论是1万还是5万,都处于大规模训练的前列。相比之下,OpenAI在训练其旗舰GPT-4时,据外界估计也需要1万多块A100,并花费数千万美元;Meta的LLaMA训练则据传使用了1.6万块A100。DeepSeek选择同时采购A100与H800等中高端卡型,一方面分散了供应链风险,另一方面也更灵活地调度算力。
在推理和部署层面,DeepSeek又广泛利用GeForce RTX 50系列台式机进行本地化推理加速,这些新品GPU在每秒AI算力(TOPS)上可达到3352TOPS,能让家用级机器也能流畅运行DeepSeek模型。这种“云+端”混合策略,一方面降低了中央云端的推理费用,另一方面也分担了算力压力,提高了系统整体可用性。
总之,DeepSeek在R1阶段宣称使用约10,000块老款A100,在V3预训练阶段投入约2.66百万GPU小时的H800加速卡,并在推理阶段进一步利用GeForce RTX 50系列PC端GPU。总算力投入已经是天文级别,但是利用批量采购、海外调度、架构优化等方式可以总成本控制在预算范围内,实现高投入高优化并行策略,不管其他就单单这一规模级的计算资源投入,已经足以让DeepSeek在2025年的全球AI竞赛中占据一席之地。