最近几周发了两篇对于Deepseek推理资本的著述,得回了很大的眷注以及争议。第一篇是2月16号马来西亚#文爱,其实业内淳厚都知说念,这篇著述是全网最早、亦然最准确的推理隐晦量揣测,2000t/s那时间表了国内一线云厂家大致优化已毕的水平。
第二篇著述是在3月1日deepseek官方公布现实资本后,对deepseek公开的数据作念了一个快速解读。这个效果不光是触动了投资界、致使扫数这个词AI业界,时刻实在是太超前了。
关联词昨天和今天却出现不少反驳的声息,认为其中许多deepseek的数据是哗众取宠,莫得现实道理。是以我认为有必要再写一篇:从买卖的角度,全面地拆解deepseek的真实利润率,省流版:至少能作念到60%。临了我会再测算一下咱们到底需要若干算力卡,这里先卖个关子。
目次:
(一)分析框架
(二)隐晦决定成败
(三)那里来了怎么多输入?
(四)负载率若干是合理的?
(五)真实毛利的揣测
(六)临了聊一聊算力卡的需求
(一)分析框架淳厚们指出的问题琳琅满目,追思起来即是有一些现实要素莫得讨论,一方面了分析框架需要粗莽明了,同期又包括枢纽要素。因此我提议了如下的分析框架中:
其中:
其他资本占比:其他筹办性资本(比如运维、带宽、东说念主工等)/算计资本,这里作念了一个比较粗俗的假定,认为这些资本莫得领域效应,跟着算计领域等比例加多的
满载算计收入=输入隐晦*输入算力占比*输入订价+输出隐晦*输出算力占比*输出订价,这个是揣度一个平均节点产生收入的才气
这么咱们不错领先讨论在满载情况下,比较联想的利润率应该是怎么样的。同期也不错独赶快盘问负载率、扣头率、其他资本等要素的影响。
为了盘问通俗,算计资本的单元咱们颐养用单卡的时租价钱好意思金/小时/卡,隐晦单元颐养为token/秒/节点(1节点=8卡),算力单元为节点*小时,订价单元为好意思元/百万token。这些都是业界常用的单元,有助于读者有更直不雅的买卖交融,繁琐的单元换算过程我会在算计过程中加入。
Deepseek昨天的著述也曾告诉咱们险些满载下的表面毛利率=1-算计资本/满载算计收入=85%。底下咱们将盘问几个病笃的参数,并合理揣测真实的利润率。
(二)隐晦决定成败人人都知说念V3/R1是prefill、decode分离的(PD分离),也即是说prefill用一个集群,decode用另一个集群。官方详备地先容了两个集群的具体配置。对于大模子时刻不熟谙的一又友,咱们不错把prefill不错纰漏交融为输入算计,不错纰漏交融decode为输出算计。
字据官方公布的PD分离的平均隐晦,prefill是73.7kt/s,decoding是14.8kt/s。我的上一篇著述对于隐晦的算计是有装假的, 分子只消输出的总量,分母确乎全量算力(还包含输入),额外于严重低估了现实隐晦。
那么咱们不错径直算计出输入、输出分辩的算计收入:1)输入部分需要讨论缓存射中率的相反马来西亚#文爱,输入算计节点每小时收入=(0.14*56.3%+0.55*43.7%)* 73.7*3600/1000=84.7$/h;2)输出则是=2.19*14.8*3600/1000=116.7$/h。
这两个数字相配接近!这即是我昨天提到的。deepseek对API订价讨论相配科学,险些是严格按照算计性能来订价,其效果即是输入、输出算计的节点挣钱才气是差未几的。
然后咱们还不错倒算用于输出的算力有若干,168B/14.8k/3600=3153(节点*小时)。那么5442-3153=2289(节点*小时)是用于输入的算力,查验一下是否正确,2289*73.7*3600=608B,无缺对上。
输入的算计果然占用了42%的算力,输出用了58%的算力。那咱们带入公式就不错知说念一个节点的满载算计收入=103好意思元/小时。要知说念一个H800节点的时租资本也即是2*8=16好意思元/小时。1-16/103=84.5%毛利,这即是表面满载上限值。
熟谙财务分析的一又友一眼就看清楚了,决定毛利最根底要素即是隐晦量。Deepseek大致已毕极高利润率的根底原因即是隐晦量相配相配高。
手脚一个对比,Nvdia官方有两个不错参考的数据。1)1月30日,在官方blog中显现,在H200节点上不错已毕3,872t/s的峰值输出隐晦,这里我揣测应该是FP8精度;2)2月25在x上公布FP4精度优化性能,H200节点峰值输出隐晦优化到5,899t/s,B200节点峰值输出隐晦则高达21,088t/s。
要知说念Deepseek是FP8原生精度,Deepseek用阉割版的H800已毕了14.8kt/s的输出隐晦(比拟于H200约莫砍了20-25%的性能),是Nvdia H200 FP8性能的整整3.8x!我揣测老黄作念梦也想不到有东说念主比他们更懂GPU。
这就很好交融为什么尤某的潞晨科技为什么会关停deepseek办事,因为他确实在亏钱。我在两周前的著述中就给人人推算过了,他只可已毕185t/s的隐晦,地说念即是因为我方菜。
(三)那里来了怎么多输入?老例的大模子测试中常用的输出和输出假定为1:1或者1:3,若是是R1这种推理大模子可能会用1:5的假定。然则deepseek的真实运营数据告诉咱们,日输入token:输出token是608B:168B,输入:输出比高达3.6比1。
这就太罕见想了!大推理模子跟咱们设想中完全不一样。现实情况完全倒置过来了,输入比输出还多!
这即是为什么有东说念主认为ds这个数据严重不成靠,似乎是客户给了多半输入,但办事器忙不外来,输出严重不及。这实在是有点滑之大稽了。从时刻上讲,若是ds的办事器暂时无法办事,根底就不会产生第一个token,扫数这个词prefill算计都不会发生。
假定DAU 2400万(这是2月9日的数据,我只消这个参考数据,若是有一又友近期最新的DAU请留言讲述),咱们不错算计出来,日均DAU的输入/输出长度为25k/7k token!
我认为是基于两个原因:
1)搜索等RAG哄骗:因为搜索需要把检索到十几个都皆备给deepseek阅读一遍。这诠释多半C端用户是使用了“联网搜索功能”。若是调用API的客户亦然用于个东说念主学问库、企业学问库等场景,RAG相通会给模子输入多半的贵府。
这个就险些能严格对上了,一个搜索苦求平均会调用2万个token,而日均DAU的输入总长度即是25k,额外于东说念主均1.25个搜索苦求。
2)多轮对话导致陡立文积聚:不知说念你们是如何使用的,我反恰是每次使用一个对话用到底,很少会单独新开对话。若是说第一次输入1k,第一次输出5k,那么第二次输入即是6k了,第二次输出照旧5k,第三次输入则会加多到17k(1+5+6+5)。导致前边许多轮苦求的内容都会手脚输入扔给模子,导致陡立文越来越长。
(四)负载率若干是合理的?因为春节期间deepseek确乎爆单了,许多东说念主会有固有印象认为Deepseek的API办事根底不成用,现实情况需要至少5-10倍冗余。
让咱们来望望一个相配打脸的数据,字据Grafana监测的Deepseek R1 API可用性野心,在官方考中的时辰段内(2月27日12点到28日12点),API险些是100%可用!
也即是险些不存在办事不成用的情况,仅仅办事的速率是否令东说念主适意!
咱们不错不雅察到,deepseek官方最大的问题是输入问题后的恭候时辰很长。咱们叫TTFT(Time to First Token),认真这一部分的即是prefill。一朝运转回答问题后,推理的速率其实并不慢(20-22t/s阁下的速率并不会让东说念主认为很卡),咱们叫TPOT(Time per Output Token)。
现实跟许多东说念主设想的完全不同。Deepseek办事器委果的瓶颈不是输出推理,而是输入!大多数用户都是在列队恭候输入。
要保证TTFT并辞谢易、因为输入苦求取决于用户enter的时辰点,未必性更高,更难将办事器负载填满。
而要保证输出则纰漏许多:平均输出长度5k token,按照21t/s的输出速率,输出需要整整4分钟!在4分钟的窗口内,就有很大的空间来分拨不同用户的任务,保证负载平衡。
有多半联系接洽职责,一般认为负载率70%-90%时,不错比较好地平衡TTFT和隐晦。感酷好的淳厚不错去阅读无问芯穹的座谈大模子推理优化时刻系列著述。
许多淳厚认为需要2-3x的冗余才能办事好B端客户。Deepseek的办事集群只消276个节点,现阶段又不怎么收钱,需求峰值的时候确定不会去扩容的,人人只可老淳强壮等着。但现实MaaS API办事中完全不错在需求峰值的时候作念弹性扩容,这么保证单元算力经济性不变的情况得志峰值的波动。
(五)真实毛利的揣测手脚一个假定性的推演,咱们不妨作念一些敏锐性算计:
1)假定负载率为80%,扣头率不妨取为80%(讨论到大客户扣头,offpeak扣头),其他资本占20%。真实毛利率=1-14.5%*120%/80%/80%=73%
2)负载率为70%,扣头率70%,其他资本占30%。真实毛利率=62%
色拍拍欧美视频在线看3)负载率为60%,扣头率60%,其他资本占40%。真实毛利率=44%
个东说念主认为60%的真实毛利率是完全不错达到的。事实上泰西CSP的PaaS毛利率也都在50-60%水平,MaaS至少应该和PaaS办事捏平。
(六)临了聊一聊算力卡的需求昨天对人人冲击最大的事实是,Deepseek只用了1814张卡就办事了2400万的DAU,那办事全中国14亿东说念主岂不是只需要14/0.24*1814=~10万张卡?再加上30%冗余也即是10/70%=14万卡。
这是事实没错了。但改日最大的变量是单用户的使用强度。
Deepseek著述也显现了KVcache的长度即是4989,其实这即是平均输出的长度。前边咱们算过东说念主均DAU的输出总长度是7k,额外于每个DAU只消1.4个对话,属实是有点少了。
就现在我个东说念主的使用强度,每天至少问30多个问题吧,元宝也曾成为我大开强度最高的app和网页了。诚然咱们学问职责者的使用强度确定是偏高的。
改日假定东说念主均每天14次苦求并不外分吧,那么这就需要140万张卡了。
跟着企业里面经过,各式AI哄骗的落地,东说念主均日均苦求致使不错达到几十致使几百。弥远算力的需求照旧难以揣测。
著述开端:老罗的黯淡不雅察马来西亚#文爱,原文标题:《回复争议:Deepseek真实利润率是若干?到底需要若干算力?》
风险教导及免责条目 市集有风险,投资需严慎。本文不组成个东说念主投资建议,也未讨论到个别用户特殊的投资标的、财务情状或需要。用户应试虑本文中的任何认识、不雅点或论断是否适当其特定情状。据此投资,包袱自诩。