国产ai:崛起与重估 计算机策略报告 华西计算机团队 刘泽晶 sac no s1120520020002 赵宇阳 sac no s1120523070006 孟令儒奇 sac no s1120524060001 2025年03月08日 请仔细阅读在本报告尾部的重要法律声明证券研究报告 核心观点 deepseek激活国产ai产业链 一、deepseek拉通模型开源之路 二、低成本高效果、刺激下游应用需求爆发 中国科技股估值进入重估时刻 一、打破国外闭源模型垄断,ai格局有望重新洗牌二、国内巨头竞赛aicapex,景气度拉爆 ai应用全面普及 一、aiagent有望全面崛起 二、ai终端25年将迎来井喷式增长 受益标的: aiagent应用:金山办公、用友网络、金桥信息、润达医疗、合合信息、开普云、新致软件、润和软件、微盟集团、彩讯股份、汉得信息、拓尔思、同花顺、鼎捷数智、亚信安全、万兴科技、宇信科技、京北方、高伟达等; ai终端:乐鑫科技、恒玄科技、润欣科技、中科蓝讯、翱捷科技、云天励飞 国产算力:中芯国际、海光信息、寒武纪、中科曙光、长光华芯,弘信电子、神州数码 算力云一体机:首都在线、优刻得、深信服、云从科技、深桑达、云赛智联、太极股份、亚信科技、网宿科技 机器人产业链:祥鑫科技、秦安股份、奥比中光、麦迪科技、能科科技、虹软科技、上海机电 风险提示:市场竞争加剧;产品研发不及预期 目录 01deepseek激活国产ai全产业链 02中国科技股估值进入重估时刻 03ai应用全面崛起 04投资建议与风险提示 01deepseek激活国产ai全产业链 11各大平台接入满血deepseek 各大平台接入deepseekr1:随着deepseekr1模型的强大推理能力和开源特性,众多国内外平台纷纷接入deepseekr1671b满血版。不仅仅各个大厂都宣布接入了deepseek满血版本,社交国民软件微信也在搜一搜里植入了deepseek大模型。deepseek生态加速进行时! 资料来源:萝卜ai笔记公众号,华西证券研究所 deepseek接入应用 4 12从规模效应到性价比,deepseek打开天花板 deepseekr1:首个开源、媲美openaio1的推理大模型。deepseekr1展现出了与openaio1相当甚至在某些方面更优的性能。在math基准测试上,r1达到了775的准确率,与o1的773相近;在更具挑战性的aime2024上,r1的准确率达到713,超过了o1的710。在代码领域,r1在codeforces评测中达到了2441分的水平,高于963的人类参与者。 从规模效应到性价比,deepseek打开天花板:r1模型在技术上实现了重要突破用纯深度学习的方法让ai自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩美国开放人工智能研究中心(openai)的o1模型正式版,该模型同时延续了该公司高性价比的优势。据中国青年报,深度求索公司r1模型训练成本仅为560万美元,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。根据新智元援引外媒报道,他们在短短两个月时间,在2048个h800gpu集群上,训出6710亿参数的moe语言模型,比顶尖ai效率高出10倍。 主流大模型能力比拼ai集群卡耗电量示意图 5 资料来源:csdn,海外独角兽公众号,华西证券研究所 deepseekr1官方回应成本:如果所有tokens全部按照deepseekr1的定价计算,理论上一天的总收入为 562027,成本利润率545。但实际上没有这么多收入,因为v3的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。另外,每个h800节点实现了737k148k个每秒输入输出token;(理论)成本利润率高达545。 deepseek采用了跨节点专家并行(ep,expertparallelism)策略:ep的系统复杂性体现在:ep引入了跨节点通信。为了优化吞吐量,必须设计适当的计算工作流,shi通信与计算重叠。ep涉及多个节点,因此本质上需要数据并行dp,并且需要在不同的dp实例之间进行负载平衡。 deepseekv3r1推理服务均在h800gpu上运行:具体而言,矩阵乘法和分发传输采用与训练一致的fp8格式,而核心mla计算和组合传输使用bf16格式,确保最佳服务性能。v3和r1推理业务的合并峰值节点占用达到278,平均占用22675个节点(每个节点包含8个h800gpu)。假设租赁一个h800gpu的成本为每小时2美元,每日总成本为87072美元(约合人民币634万)。 deepseek在线推理系统h800推理服务节点数量 6 资料来源:机器之心,华西证券研究所 13国产算力异军突起,充分受益国产模型deepseek崛起 据华为云2月1日消息,deepseekr1开源后引发全球用户和开发者关注。经过硅基流动和华为云团队连日攻坚,现在,双方联合首发并上线基于华为云昇腾云服务的deepseekr1v3推理服务。据华为云消息,该服务具备以下特点:1)得益于自研推理加速引擎加持,硅基流动和华为云昇腾云尊龙凯时网址的服务支持部署的deepseek模型可获得持平全球高端gpu部署模型的效果。2)提供稳定的、生产级服务能力,让模型能够在大规模生产环境中稳定运行,并满足业务商用部署需求。华为云昇腾云服务可以提供澎湃、弹性、充足的算力。 国产算力厂商纷纷拥抱deepseek:根据光合组织消息,近日,海光信息技术团队成功完成deepseekv3和r1模型与海光dcu(深度计算单元)的国产化适配,并正式上线。根据彭博消息,据苏州发布,苏州数智科技集团近日在苏州市 公共算力服务平台上架了基于英伟达算力部署的deepseekr1模型和基于华为昇腾算力部署的deepseekv3模型。同时,提供基于deepseek模型的一体机,针对有本地化部署需求的用户提供开箱即用的软硬件一体服务。无锡太湖亿芯智算中心正式投入运营,目前已上线基于燧原科技算力的deepseek全系列开源模型推理服务。2月9日,由无锡数据集团建设运营的无锡“算力超市”(无锡算力公共服务平台)也正式上线deepseek大模型,实现了本地化部署和调用。 硅基流动和华为云首发并上线基于华为云昇腾云服务的deepseekr1v3推理服务海光信息完成deepseek的适配 7 资料来源:腾讯网,智东西,华西证券研究所 我们判断昇腾910c在国产化推理时代更具性价比根据快科技,华为昇腾910c在ai推理中的表现出乎意料地好,已经达到nvidiah100芯片的60左右。更进一步地,通过手写cunn内核和优化,昇腾910c的性能还可以进一步提升。据称,deepseek从第一天起就支持华为昇腾芯片,并且自主维护pytorch仓库,只需一行代码就能将cuda转换为cunn,性能优化的潜力也相当巨大,通过定制优化可达到更高性能。 华为已经发布atlas全新集群支持超万亿参数大模型训练:在华为全联接大会2023上,华为推出全新架构的昇腾ai计算集群atlas900supercluster。新集群采用了全新的华为星河ai智算交换机cloudenginexh16800,借助其高密的800ge端口能力,两层交换网络即可实现2250节点(等效于18万张卡)超大规模无收敛集群组网。其优势显著,新集群同时使用了创新的超节点架构,大大提升了大模型训练能力实现算力的资源统一调度,采用液冷设计。 华为atlas900supercluster示意图华为云原生20示意图 8 资料来源:搜狐,csdn华西证券研究所 14推理时代来临,互联网厂商有望上调capex deepseek主打极致性价比,推理商业模式形成闭环deepseekv3api服务的45天优惠价格体验期已结束,从2月9日开 始将调整为新的价格:每百万输入tokens05元(缓存命中)2元(缓存未命中),每百万输出tokens8元。此前deepseek在优惠期内api价格为每百万输入tokens01元(缓存命中)1元(缓存未命中),每百万输出tokens2元。我们判断deepseek价格较低,其性价比较高,推理商业模式形成闭环。 互联网厂商全面拥抱deepseek:2月11日,火山引擎智能算法负责人吴迪、火山方舟产品经理安靖等,将围绕多元模型部署调用、火山方舟上api调用deepseekr1、火山引擎部署deepseek方案、deepseek平台上开发ai应用等开展研讨会。火山引擎边缘大模型网关也全面支持deepseek系列模型,可通过两种方式进行模型使用:一是通过平台预置模型,二是通过自有三方模型,以实现通过边缘大模型网关签发的网关访问密钥进行对应模型的访问与调用。目前,我们判断在字节跳动布局ai终端,玩具、耳机、眼镜、手机打开全新市场的背景下,deepseek的出现如虎添翼,推理时代已经到来,其资本开支有望上升。 推理价格对比推理价格对比 9 资料来源:人工智能ab面,华西证券研究所 百度部署deepseek:2月3日晚间,百度智能云宣布,百度智能云千帆平台已正式上架deepseekr1和deepseekv3模型,推出了超低价格方案,还可享受限时免费服务,登录百度智能云千帆modelbuilder即可快速体验。此次接入的模型已全面融合千帆推理链路,集成百度独家内容安全算子,实现模型安全增强与企业级高可用保障,助力用户安全、稳定地构建智能应用。 阿里宣布云上部署deepseek,同时宣布与苹果合作:同样在2月3日,阿里云也宣布,阿里云paimodelgallery支持云上一键部署deepseekv3、deepseekr1。在该平台上,用户可以零代码实现从训练到部署再到推理的全过程体验。此外,阿里巴巴联合创始人、董事局主席蔡崇信回应阿里与苹果合作,苹果与阿里达成ai合作。 腾讯云部署deepseek,微信“搜一搜”测试接入deepseek:2月2日,腾讯云宣布,deepseekr1大模型一键部署至腾讯云hai上,开发者仅需3分钟就能接入调用。此外,根据观察者网,2月15日晚间,微信搜一搜在测试接入deepseekr1。腾讯相关人士回应称,微信搜一搜在调用混元大模型丰富ai搜索的同时,近日正式灰度测试接入deepseek。 百度部署deepseek 10 资料来源:济宁新闻,华西证券研究所 15deepseek崛起,国产生态持续繁荣 deepseek通过大量细粒度优化以及使用英伟达的类汇编级别的ptx(并行线程执行)编程。在训练v3模型时,deepseek对英伟达h800gpu进行了重新配置:为了最大化性能,deepseek还通过额外的细粒度线程线程束级别调整,实现了先进的流水线算法。我们判断这种方法并没有完全绕过cuda生态,而是通过rtx的方法自我编译,不具备通用性,但是这种级别的优化恰恰充分展现deepseek团队的卓越技术实力。 华为cann生态逐渐成熟:华为昇腾计算平台cann已经实现从0至1突破:2018年9月,cann10华为昇腾ai使能平台诞生,2020年8月,cann30版本发布,作为专门面向ai场景的异构计算架构,搭起了上层深度学习框架和底层ai硬件平台的桥梁,目前华为cann计算平台已经到了800alpha003版本,其生态加速繁荣,释放昇腾ai大算力使能大模型极简开发。华为昇腾已实现生态较为全面兼容,算子丰富度进一步提高,cann全面兼容业界融合算子、ai框架、加速库和主流大模型;可助力模型的极致加速,资源灵活调度、算子深度融合、计算高度并行,大模型性能深度优化。 当ptx转换为sass后,就会针对特定代的英伟达gpu进行优化华为cann昇腾ai计算平台 11 资料来源:新智元,csdn,华西证券研究所 16三大运营商接入deepseek,国产ai生态加速 中国电信,全场景覆盖