跟上DeepSeek,国内算力要加油

【来源:虎嗅网】

DeepSeek针对英伟达GPU在CUDA平台上所施加的庖丁解牛式的优化,正在倒逼国内AI Infra企业,跟上AI开源的加速度。

全国都在抢着接入DeepSeek,跑步进入AI时代。不过,部署DeepSeek并提供服务的AI Infra公司,都在亏钱,且“月亏四亿”。这个惊人的结论,来自潞晨科技CEO尤洋的估算,引起了其他AI Infra公司的质疑。硅基流动CEO袁进辉认为这种计算方法不对,其基于的是错误的架构。该公司联合华为,最早行动起来,第一个推出满血版DeepSeek的第三方服务,并将API价格打至与官网同价。

DeepSeek用了整整一个开源周,一连五天,手把手教大家,如何从计算到通信到存储,优化基础设施。第六天自然就是前五天学习的结果,DeepSeek故意用了一个不大常用的“成本利润率”(利润/成本)指标:不考虑折扣等因素,理论利润率高达545%,相当于85%的毛利率(利润/收入)。

它代表了DeepSeek压榨算力效率的极限,也是国内一众AI Infra企业需要对齐的目标。投资者会将前者的数据视为后者估值的锚点,以判断在开源周之前,团队技术是否足够领先,在开源周之后,团队跟随与执行是否足够迅速。

在DeepSeek开源成本与利润率后,尤洋坚持此前“不赚钱”的立场,并与袁进辉再次打起嘴仗,最后从技术争论与商业争论,发展成为牵扯陈年旧案的情绪化输出。目前,潞晨科技宣布将在一周后停供DeepSeek API。硅基流动则宣布继续积极扩展资源,让用户敞开用。

但这只是DeepSeek开源所开启的芯片-云-应用的国内闭环生态的小插曲。方向已经挑明,生态上下游的抱团进化仍是主旋律。尽管反对“月亏4亿说”,但袁进辉也承认,“现在很多供应商还做不到这个水平”,“幸好这周DeepSeek五连发”。

DeepSeek是大模型研发的顶尖团队,也是基础设施优化的顶尖团队,甚至被戏称比英伟达还懂英伟达。早在搭建“萤火二号”的时候,DeepSeek就在英伟达GTC上演示,如何榨干A100的算力。在美国逐步收紧先进AI芯片后,DeepSeek又针对H800与H20的特点,对大模型与基础设施做了底层优化,最大程度地提升训练与推理效率,将成本降至硅谷同行无法想象的地步。

目前,数据中心的存量的算力设施,还暂时无法充分释放DeepSeek的精妙之处。它们需要抓紧领会消化DeepSeek公布的整套代码。此外,目前正在涌现大量DeepSeek模型一体机,这是能够迅速落地的增量解决方案。硅基流动就推出了同类产品,除了离线部署等卖点外,“从硬件层到模型层的全栈调优”也是关键宣传点。

DeepSeek目前的优化,几乎都是针对英伟达的Hopper架构的,甚至可以做到比英伟达还强。当然,为了卖出更多的卡,在缺乏竞争的情况下,英伟达也不会主动大幅优化,这将降低下一代芯片的销量。

影响DeepSeek毛利率的关键,就是H800的吞吐效率。按照DeepSeek第六天公开的数据,它的推理集群的平均吞吐,输入吞吐是73.7kt/s,输出吞吐是14.8kt/s。而英伟达自己匆忙上线的R1模型,用H200只能输出5.9kt/s的峰值吞吐,仅为DeepSeek调优后的阉割版的H800的1/3,只有它最先进的B200才能勉强赶上。

对于国内芯片厂商来说,提升空间就更大了,需要整个生态的协同创新。袁进辉回忆称,在DeepSeek爆火前一个月,梁文锋曾建议硅基流动部署DeepSeek-V3,至少准备20台H800,80台最好。但他错过了。最终找到了华为,整个春节期间,硅基流动团队没有休息过一天,在昇腾芯片上,完成适配工作,承接住了第一波流量。

不过,尤洋的估算也并非完全没有道理。他提到,DeepSeek自身的API算不上MaaS(模型即服务),因为MaaS服务需要足够稳定,而DeepSeek官方服务,除了短暂的几个小时闲置,始终处于饱和状态。这意味着DeepSeek目前提供的“理论利润率”,并没有考虑冗余的成本。

但即使如此,相比同行,在相似的算力成本的统计口径下,DeepSeek“理论利润率”仍然占据优势。据TD Cowen对Anthropic的财务数据的分拆,后者最近一年的利润率或为61%;按照the information对OpenAI的财务数据的分拆,后者最近一年的利润率或为50%。

据国内分析人士对负载率与折扣率等多种情况的推演,DeepSeek完全可以做到60%的真实毛利率。Semianalysis分析DeepSeek V2时就指出,它的毛利可以达到70%。事实上,梁文锋此前接受采访时也称,“我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

更低的推理成本,有利于应用的繁荣,进一步提振整个生态的活力。按H800约2美元/小时的市场化租赁价格计算,当前,DeepSeek模型的单日算力总成本约为8.7万美元。有机构算了一笔账:如果日活用户3000万,那么单个用户每日算力成本约为0.003美元,折合每年1.1美元。如果付费率为3%,那么付费用户平均年费约为35美元,即可回收算力成本。这远低于目前OpenAI的ChatGPT Plus月费20美元,Pro月费200美元的定价。

DeepSeek开源了模型与技术,忙坏了国内AI生态企业在技术上对齐,如今开源了财务数据,那就看国内AI企业自己能不能赚到钱了。

本站部分内容来源于网络,如果你是该内容的作者,并且不希望本站发布你的内容,请与我们联系,我们将尽快处理!

年终盘点|2024长沙内五区十大热销盘总计销售200亿元

国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》