不要高估短期的变化,也不要低估长期的影响
从R1暴跌到V4大涨:散户的二极管思维
还记不记得DeepSeek R1发布的时候,英伟达应声暴跌17%,创下了历史单日最大跌幅记录。而这次DeepSeek V4更新的时候,英伟达却单日大涨4%。
周末散户最关心的、也是市场讨论热度最高的,就是DeepSeek的V4大模型了。毕竟全网已经预热了两三个月,预期和胃口被吊得老高,人人都知道DeepSeek对应的就是华为昇腾的逻辑。但其实在机构这边,我们与专家召开了多场电话会议之后,得出的结论和反馈,其实并没有大家那样亢奋。
散户总是容易带着一种二极管思维评价一个事物:要么是夯爆了,要么是拉完了。但是我希望用今天这条视频,给出大家一个客观理性而又有深度的专业分析,其中包括着很多的市场预期差与信息差,也有大家最想得到的答案。不光要给大家把事件本身讲清楚,还要给大家把预期的博弈讲清楚。毕竟这种基本明牌、而且全网关注的事件,还要涉及到传播学的研究。而散户关注度最高的事情,往往高估了短期的爆发,又低估了中长期的影响。
V4预览版:第一梯队水准与大幅降本
首先,DeepSeek V4周五盘中的发布,只是一个预览版,后半年还会有一个正式版再更新出来。也就是说,大家周末看到的各种评测、各种声音,都是对这个第一代版本的预览版进行的定量或者定性分析。那么关于定量的问题,因为涉及到很多对于散户而言枯燥难懂的技术问题,那么我的视频里面主要给大家讲人话,以定性的观点为主。
首先,V4的大模型达到了国内与国际的第一梯队水准。DeepSeek保留了自研的稀疏注意力机制,并且实现了对token的压缩,带来了一个非常大的效率提升,在推理的时候使用的GPU和显存大幅下降,所以实现了所谓的降本,整体消耗为原来的1/3。这个降本的幅度是一个非常大的提升。
V4的Pro价格为ChatGPT 4.5的1/6,为Claude最先进模型的1/7,而且V4的Flash价格又是V4 Pro的1/10左右,所以相当于海外模型1/60到1/70的价格。所以虽然V4 Pro的大模型在与海外的评分对比中,与顶尖的模型存在一些差距,主要体现在领域知识支持不足、细节遗漏,但是它的百万上下文的价格却远低于海外顶尖大模型,差距超过了50倍。而且在极限上限、平均分数稳定性方面,还全面领先了国内的模型,在国内排名约第五、第六名,但百万上下文的价格却只是同类模型的1/6到1/10。
而且官网最新的介绍里还用小字标明了:将来昇腾950 Pro上线的时候,价格还会大幅压缩。那么专家预计,当下半年接近四季度、950的超节点批量上市之后,V4 Pro的价格预计还可能大幅下调60%,甚至到80%。
这里有一点郑重声明:上一期我们刚拍完了液冷的价格战,也有很多人一看到这个降幅,以为大模型也要开始打价格战了。并不是。这是DeepSeek结合自身技术优势和生态匹配带来的商业战略。因为将来随着持续的降本,将来V4的Pro可以降到十元以下的百万token,Flash可以降到一元以下的百万token,那么全球对DeepSeek模型的调用量将极大地拉升。再配合Agent的智能体,要比纯模型的智能能力再高30%以上,而且随着接下来电脑端、手机端的智能体应用还要进一步爆发,那么会大幅地推动DeepSeek的全球普及,和专属于国产算力的市场生态。
所以在等待接下来的国产算力放量之前,DeepSeek V4的大模型还是要不断地打磨、提升自己。大家也看到了,发布模型的后一天,就开始进行了大幅的价格补贴优惠,官方开启了2.5折的活动,优惠十天。那么这背后的意义,就是需要快速收集数据进行后训练,来支持后期的进一步模型能力迭代升级,这样到时候更强的正式版可能会更惊艳。
降本是否利空算力?硬件越省越说明稀缺
那么这一部分我们讲到的最大的预期差,是周五的V4版本只是一个预览版,但是预览版里面带来的大幅降本的能力,已经是板上钉钉。那么肯定有同学会担心:既然GPU和存储整体消耗为原来的1/3,那是否对这些算力硬件、算力租赁是一种利空消息呢?
其实这是一种悖论,也是我们之前在DeepSeek R1的时候,被后来的市场证伪的一种担忧。那么搞清楚这个问题之前,大家要对中美大模型的擅长之处有一个清晰的定义。老美那边的大模型,给大家总结四个字:力大砖飞,大力出奇迹。因为人家最顶级的算力、存力、CPU全部管饱,优先供给,所以人家训练一个顶尖的大模型跟玩儿一样。但是回到国内的大模型,我们没有办法通过合规渠道引进海外的最高端算力,而且国产算力要在下半年才会迎来先进制程的放量,才会实现更大规模的出货。那么在这个青黄不接的窗口上,国内的大模型追求的是四个字:以巧破力,我们更是要用到一个字:省。
那么讲到大家担心的模型迭代影响需求,反而机构这边更认为:以后听谁跟你讲,AI要在软件层面去压缩什么来提升什么效率、来节省什么成本,那反而说明硬件的稀缺。表面上是不需要了,其实背后本质的逻辑是太需要了,才会推动你在短期内无法快速释放供给的背景下去提倡勤俭节约。因为没人会闲着去优化什么无关紧要的东西,没办法,现在硬件跟不上,所以只能在软件效率层面去下功夫。
DeepSeek V4提升了内存和算力的效率,这是没问题的。但是因为现在HBM的容量和带宽是远小于卡的算力的,所以它实际上是在解放HBM,对一些重复任务的处理,相当于变相增大了内存的带宽和容量,来释放GPU真实的算力。但你如果真减配的话,那么软件优化就相当于白做,所以只能采取这种挤牙膏式的方法来提升系统效率。这就相当于没人会嫌弃自己的电脑性能强,或者是手机电池容量大一样。
所以有的时候散户分析技术上的问题,不用去当个专家,而是要有常识。我们需要的是模糊的正确,而不是精确的错误。只要大方向的逻辑搞懂,小方向做一些模糊理解,也是OK的。
国产算力的真相:训练仍依赖英伟达,适配还需时间
那么接下来的预期差,就在于国产算力这一块。DeepSeek V4发布之前,很多非专业的自媒体博主在向市场传播着一种错误信息,好像把DeepSeek V4模型和国产算力完全画作了等号。这种民族情结我是非常赞同的,但是容易误导散户的投资。在这里,我们在周末电话会议里向专家进行确认之后,要给大家把这里面的一些概念问题解释清楚,免得散户以为夯爆了,英伟达、中国大模型也能活了,然后一听个不好的观点,又是拉完了,还是得完全依赖英伟达。
首先,V4大模型完整的预训练,还是建立在海外英伟达的高端算力上面,所以我们现在仍然没有完全摆脱对英伟达的依赖。毕竟英伟达B200以上的显卡,才支持FP4精度的量化。但是我们在训练端也对国产算力进行了验证,不过只是在Flash版本里进行了国产芯片的小规模验证,涉及到了里面的核心算法效率、训练收敛速度,以及与英伟达高端算力芯片去做对比,但是并非是全量部署。至于Pro版本,最早也是有规划去做尝试的,但赶不上发布的节奏。
那么推理端的适配,其实是从24年年底就开始了,大概花了一年半的时间去完成大部分高难度的算法适配。训练端的适配难度是要更高的,因为所需要覆盖的算子规模和种类是推理端的两倍以上。而目前国产大模型的训练端适配只进行了半年多,所以接下来预计完成适配还需要一年时间。所以这也是为什么算力租赁行业仍然维持着高景气和机构高关注度的原因,因为只有英伟达的最高端算力,才能支撑这些大模型目前的预训练。
而且即使对国产算力在训练阶段有部分的验证,但是国产算力目前的放量周期和节奏,仍然要等到下半年去逐季度地释放。所以国产算力昇腾芯片要适配、要规模出货,和海外算力的算力租赁当前高景气,接下来仍然离不开,并不冲突。
那么讲完了训练侧,在推理侧,目前V4已经支持华为的910B、910C、昇腾950芯片,并且称后半年950释放之后,将放大V4的推理能力,而且寒武纪的部分卡也已完成适配。而且官方也在最新的文章里讲到,后面超节点起来之后,它能将推理成本进行一个大幅的降低。等于说这个技术在论文里提出来了,但是实际上还没有真实地部署到昇腾的节点里面去供大家享用。但是后面有超节点了,这个技术可以马上搬过去,因为已经经过验证了。
那么再等到下一代更强的950芯片和超节点的时候,有了更充裕、更强大的算力,接下来的续训练,也就是后训练,也可能会在昇腾上进行。但由于昇腾950还没有大规模量产和出货,所以预计用昇腾跑完完整的预训练要等到明年。而且因为是和950 Pro芯片去做了磨合与适配,所以也延后了V4大模型的发布。
所以虽然能理解大家期待得比较多,但是确实需要一步一步来,不要总想着一口吃成个胖子,一把打完明年的预期。很多人天天都在催我讲,但其实不是产业的基本面天天都在跟随你看到的K线图而变化,要尊重客观的规律,而不是总想着提前透支预期。
DeepSeek的真正生态位:扛起大模型民族化的大旗
所以以上讲完了软件和硬件这两个层面最大的预期差之后,大家还是要对我们中国模型对比美国模型仍存在半年到一年的差距,有一个清醒的认知。你才能客观地看待这些评测中,好像DeepSeek V4大模型表现并不惊艳,杜绝了膨胀的自信,才不会抱有过高的预期,而是踏实地跟踪观察国产大模型的发展脚步。
毕竟周末几场机构的会议,都不约而同地讲到了一个市场的痛点,那就是资本市场目前对DeepSeek的生态位存在一些误解。其实从上一代的V3.1、3.2开始,DeepSeek的目标就不再是挑战闭源模型的性能,而是作为开源大模型的龙头,承担起一些更长远意义的任务,从追求模型能力迈向技术普惠和生态适配。它从训练端开始导入国产芯片,把大家对国产芯片存在的这些问题做了一个率先的解决,而且把大部分技术都做了开源,那么这会降低大家过去用国产芯片的一个恐惧心理,这会加速将来国产算力的全链条生态适配和发展,也对将来的国产算力创造了更多的需求。这虽然在短期周末的讨论中可能还并不明显,但是会在接下来半年和半年后的行业生态中,潜移默化地发生巨大的变化。
所以说DeepSeek V4,现在不仅仅是大家看到的一个开源大模型,甚至是一些人还只停留在一个量化机器、收割股民的概念里,但其实DeepSeek这会是要扛起大模型的民族化这个大旗。假如说将来存在更剧烈的脱钩行为,或者说管制更加激烈、出口更加严格的时候,那么DeepSeek、华为这样的企业,是要扛起国产化的大旗,继续让中国AI大模型的硬件和软件往前走的。
所以说虽然性能并不是那么突出,性价比可能不是每个人的选择,大家不光要看到短期的利好兑现,也要看到核心的意义是对国产生态的底层支持、重塑对海外扩大生产的依赖,毕竟这是有和没有的问题。更何况V4的这一预览版,不光对标海外大模型的评价,而且还在保持着相对顶级性能的同时,把价格打到了闭源模型的零头,不光加速了国产算力的应用,还证明了国产算力将来也是能扛起顶级生产力的。
也许散户看到下周可能调整的行情,就觉得V4大模型拉完了。但是如果看不懂我上述表述的中长期意义,我可以再帮你摘录一段美国发布的”赢得AI竞赛”行动政策文件中的一句话,帮你补补课:要确保美国在全球AI领域的绝对主导地位,谁拥有最大的人工智能生态系统,谁就能够指定全球的人工智能标准,并获得广泛的经济和军事利益。所以说,没准资本市场这会儿关注的是性能,但更上一个层面,人家关注的是背后的生态。性能的问题还可以用时间去解决,但生态的竞争已经是刻不容缓。
昇腾链:炒的是全年出货量上调的预期
那么讲完了软件、硬件,和加起来以后等于的那个生态,最后再给大家讲讲,促成这个生态的性能问题该如何解决,其实也就是大家最关心的昇腾链。
先讲一个结论:大家要搞清楚,这一波昇腾链的新高,炒的是全年出货量上调的预期,而不是短期内业绩的释放。稍微有常识的人就知道,昇腾的产能从无到有,从有到爬坡,它是要一个过程的。那么昇腾链相关的企业,从验证通过到接单中标,再到订单交付,再到最后的确认收入,体现在业绩也是需要一个周期的。
那么昇腾4月底才进入量产,5月底预计完成爬坡,6月份预计出货量能达到6万颗以上,这是950 Pro芯片。更强一版本的950 DT芯片,预计会在7月份进行测试,11月的中旬才会正式开始出货。我们用的是小芯片大连接的模式,也就是将来要放量的超节点,用空间来换性能,这样做的优点是能媲美海外的高端算力,缺点是功耗大,但好在我们不缺电,而且这样的技术已经通过了大厂的验证。那么采用了950 Pro芯片的整机超节点,预计在9月份才会规模出货。
那么这整体就是供给层面950芯片的出货节奏。所以大家可以看到,下半年三季度、四季度逐步地才会去体现950芯片的出货量和需求的超预期,但不是4月底要公布的一季报。所以一季报仍然反映的是,之前相比于现在的950,在集群性能上和生态系统上、性价比还不太有优势的910芯片的业绩,所以有可能会低于大家的预期。
去年、前年的不及预期,有生态导致的需求问题,也有良率导致的供给问题。但机构更关注的是下半年的转变。那么从下半年开始,国产先进制程会明显开始放量。2025年昇腾芯片出货量大概是60万片,今年机构预期是120万片,翻一倍;明年预期是240万片,再往上翻一遍。那么随着DeepSeek V4大模型用华为的CANN生态去动摇英伟达的CUDA生态,以及国产先进制程的设备材料全面地导入与放量,来解决这些历史遗留问题之后,昇腾链得到了一个正式的反转,并且不断地在950上面加单,甚至是出现了催单。
所以现在国产的大模型仍然存在算力的瓶颈。那么为了保障未来的GPU供应,根据之前的报道,我们国内预备了5年、50万片每月产能的先进制程扩产。同时伴随着昇腾950放量的,还有商业模式的改变:以前的昇腾芯片是不对外卖的,这些互联网的大厂只能找昇腾购买整机,但是随着下半年昇腾芯片放量、产能充裕之后,昇腾会酝酿共享生态,也就是引入分销商进行销售。
所以随着950芯片全年的需求量和出货量不断地上调预期之后,整个昇腾链的供应商体系也迎来了一些变化。原有的厂商不是它不够优秀,而是它的产能的扩充需要一个周期,所以近期昇腾链又在背板连接器、模组和液冷方面引入了一些新的供应。当然由于950芯片还没有开始规模出货,所以这些供应商也没有一个明确的份额,但是他们初期讲的是从0到1的故事。
那么接下来我们还会给大家出专题,来梳理昇腾链的这些公司背后的逻辑,以及支撑着背后5年50万片每月的先进制程扩产计划背后的半导体设备与材料的最新进展。
补充:长征十号发射时间调整
还有有的同学关心的、原定于4月28日发射的长征十号乙一网系回收火箭,那么根据机构了解的信息,为了全力保障发射任务圆满成功,对标上级重大任务部署,要求达到既定任务验收标准,在关键时期形成必要的战略警示与外部制衡,将长征十号乙发射时间调整至5月中下旬。所以要注意更新预期,小心埋伏了一个已经发生变化了的计划。