证券研究报告:金融工程报告 研究所 金工周报 发布时间:20250603 分析师肖承志 sac登记编号s1340524090001 emailxiaochengzhicnpseccom deepseekr1完成小版本更新,阿里开源自主搜索ai智能体ai动态汇总20250602 研究助理冯昱文 sac登记编号s1340124100011 emailfengyuwencnpseccom 近期研究报告 《claude4系列发布,谷歌上线编程智能体julesai动态汇总20250526》20250527 《谷歌发布智能体白皮书,manus全面开放注册ai动态汇总20250519》 20250520 《证监会修改《重组办法》,深化并购重组改革微盘股指数周报20250518》20250519 《通义千问发布qwen3模型,deepseek发布数理证明大模型ai动态汇总20250505》20250506 《基金q1加仓有色汽车传媒,减仓电新食饮通信公募基金2025q1季报点评》20250430 《泛消费打开连板与涨幅高度,etf资金平铺机器人、人工智能与芯片行业轮动周报20250427》20250428 《国家队交易特征显著,短期指数仍交易补缺预期,tmt类题材仍需等待 行业轮动周报20250420》20250421 《小市值持续,高低波风格交替中邮因子周报20250413》20250414 《4月是否还会有“最后一跌”? 微盘股指数周报20250406》 20250407 《“924”以来融资资金防守后均见到行情低点,仍关注科技配置机会行业轮动周报20250330》20250331 deepseekr1完成小版本更新 2025年5月28日,deepseek团队在huggingface平台悄然发布了r1推理模型的最新升级版本deepseekr10528。尽管官方将其定位为小版本试升级,但实测表现远超预期,在推理能力、编程性能、长文本处理和写作质量等方面均有显著提升,被用户称为重新定义小升级的一次重大更新。 阿里开源自主搜索ai智能体 阿里巴巴于2025年5月30日正式开源的webagent代表了自主搜索ai领域的一次重大突破。这款具备端到端信息检索与多步推理能力的ai智能体,通过模拟人类在网络环境中的感知、决策和行动机制,重新定义了信息获取的方式。其核心创新在于将传统搜索引擎的被动响应模式转变为主动的智能代理服务,能够像专业研究员一样完成从信息检索到分析整合的全流程工作。 我国首个软件开发ai智能体标准发布 2025年5月27日,中国信息通信研究院联合中国工商银行、百度、腾讯、阿里、华为等二十余家行业领军企业共同发布了《面向软件工程智能体的技术和应用要求第1部分:开发智能体》(标准编号aiiat02192025),这是我国首个针对软件开发智能体的全栈技术规范,标志着中国在ai智能体标准化建设上迈出了关键一步。该标准的出台既是对生成式ai技术快速发展的行业响应,也是推动软件开发范式革新的重要举措,其影响力已从技术领域延伸至产业生态重构层面。 昆仑万维发布超级智能体 2025年5月22日,昆仑万维面向全球市场发布的天工超级智能体(skyworksuperagents)标志着中国在ai智能体领域的一次重大突破。这款产品通过创新的5专家1通用智能体架构,重新定义了多模态内容生成的技术范式,其核心价值在于将深度研究(deepresearch)能力与办公场景深度融合,实现了从信息检索到内容生产的全链路智能化。 风险提示: 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 市场有风险,投资需谨慎请务必阅读正文之后的免责条款部分 目录 1ai重点要闻4 11deepseekr1完成小版本更新4 12阿里开源自主搜索ai智能体6 13我国首个软件开发ai智能体标准发布8 14昆仑万维发布超级智能体10 2企业动态12 21华为推出昇腾超节点技术12 22英伟达计划推出blackwell架构特供芯片14 3ai行业洞察16 31meta拆分ai部门为两大团队,分别聚焦消费级产品与agi基础研究16 4技术前沿17 41pangulight全新方法让llm瘦身但不降智17 5风险提示20 图表目录 图表1:deepseekr10528跑分4 图表2:deepseek等模型的aime2024跑分4 图表3:webwalker架构7 图表4:webdancer架构:两种网络数据生成流程7 图表5:标准编写成员9 图表6:标准架构9 图表7:天工超级智能体11 图表8:天工超级智能体打通app与pc端11 图表9:华为昇腾384超节点技术13 图表10:英伟达计划推出blackwell架构的中国特供芯片15 图表11:pangulight论文18 图表12:pangulight核心架构19 图表13:pangulight与其他代表性模型在推理基准上的比较20 图表14:剪枝率vs加速率20 1ai重点要闻 11deepseekr1完成小版本更新 2025年5月28日,deepseek团队在huggingface平台悄然发布了r1推理模型的最新升级版本deepseekr10528。尽管官方将其定位为小版本试升级,但实测表现远超预期,在推理能力、编程性能、长文本处理和写作质量等方面均有显著提升,被用户称为重新定义小升级的一次重大更新。 在技术架构上,deepseekr10528延续了前代r1的混合专家模型(moe)架构,参数量达6850亿(含140亿mtp层参数),采用稀疏激活机制,实际推理时仅激活约370亿参数,兼顾性能与效率。其最大亮点在于对推理能力的持续深耕,采用了链式思维(chainofthought)推理机制,能够在复杂问题上进行多步逻辑推演,输出清晰的思考过程。这一特性使其在数学、编程、科研等场景下表现尤为突出。以aime2025数学测试为例,旧版模型准确率仅为70,而新版模型准确率飙升至875。这一巨大进步得益于模型在推理过程中的思维深度增强在aime2025测试集上,旧版模型平均每题使用12ktokens,而新版模型平均每题使用23ktokens,这表明新版模型在解题过程中进行了更为详尽和深入的思考。 图表1:deepseekr10528跑分图表2:deepseek等模型的aime2024跑分 资料来源:deepseek,中邮证券研究所资料来源:deepseek,中邮证券研究所 在编程能力方面,deepseekr10528表现尤为亮眼。在国际权威代码生成榜单livecodebench上,r10528的代码生成能力仅次于openai的o3mini系列,超越了anthropic的claudemini和阿里的qwen3等知名模型。用户实测表明,该模型可一次性生成1000行无bug前端代码,支持动态交互(如天气卡片、数据可视化)、物理模拟(台球碰撞游戏)等复杂功能,媲美claude4。生成的网页ui设计感也大幅提升,无需详细描述即可产出布局合理、视觉美观的界面。 在文本生成方面,deepseekr10528针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。新版deepseekr1还针对幻觉问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了4550左右,能够有效地提供更为准确、可靠的结果。 deepseekr10528支持128k超长上下文窗口,大幅提升处理长文档、复杂任务的能力。在32k长度下文本召回准确度显著提升,适合技术文档、论文分析、法律合同等场景。此外,模型新增支持工具调用与json输出,为模型的应用场景拓展了更多可能性。例如,用户可以通过调用模型生成htmlcssjava代码,快速开发现代简约风格的单词卡片应用。 除此之外,deepseekr10528还有一些其他能力的更新: 幻觉改善:新版deepseekr1针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了4550左右,能够有效地提供更为准确、可靠的结果。 创意写作:在旧版r1的基础上,更新后的r1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。 工具调用:deepseekr10528支持工具调用(不支持在thinking中进行工具调用)。当前模型taubench测评成绩为airline535 retail639,与openaio1high相当,但与o3high以及claude4sonnet仍有差距。 值得一提的是,deepseekr10528新增支持单任务3060分钟的深度推理模式,针对数学证明、逻辑链拆解、多约束规划类任务表现突出,能力逼近openaio1o3级别模型。在复杂问题(如多活动排期、资源分配)中能精准理解约束条件,生成合理方案,显著优于前代r1。 deepseekr10528延续了团队的开源传统,采用mit许可证,允许商业用途。用户可通过官方网页、app、小程序直接体验,api接口和使用方式保持不变。对于开发者而言,新模型支持通过vllm、sglang等工具部署,例如使用两张a100或h100显卡即可启动32b精简版本。这一策略显著降低了技术门槛 此前,deepseekr1distillqwen32b模型已证明,其性能可超越openaio1mini,且部署成本仅为后者的35。 deepseekr10528虽被官方称为小版本,实则在编程、逻辑、创作、交互四大维度实现了准换代式提升。它延续了deepseek免费开源的基因,以顶尖工程实力证明国产模型不仅能比肩openai,还能在审美、人性化表达等层面实现突破。尽管deepseek团队尚未透露r2的发布计划,但新版r1的惊艳表现已让外界充满期待。有传闻称,r2的参数规模将达12万亿,是前代的两倍。若传闻属实,ai模型的性能天花板或将被再次推高。 12阿里开源自主搜索ai智能体 阿里巴巴于2025年5月30日正式开源的webagent代表了自主搜索ai领域的一次重大突破。这款具备端到端信息检索与多步推理能力的ai智能体,通过模拟人类在网络环境中的感知、决策和行动机制,重新定义了信息获取的方式。其核心创新在于将传统搜索引擎的被动响应模式转变为主动的智能代理服务,能够像专业研究员一样完成从信息检索到分析整合的全流程工作。 webagent的技术架构由两大核心组件构成:webdancer训练框架和webwalker基准测试系统。webdancer采用四阶段训练流程,首先通过创新的crawlqa和e2hqa方法构建高质量训练数据,其中crawlqa模拟人类浏览行为递 归抓取页面信息,e2hqa则通过迭代增强将简单qa对扩展为多步推理问题。在监督微调阶段,系统将操作轨迹解构为思考、行动和观察三要素,通过特殊设计的损失函数强化模型的自主决策能力。最终的强化学习阶段采用dapo算法进行动态优化,该算法能有效平衡探索与利用,使模型在webarena基准测试中达到732的任务完成率,较基线提升28个百分点。 图表3:webwalker架构图表4:webdancer架构:两种网络数据生成流程 资料来源:阿里巴巴,中邮证券研究所资料来源:阿里巴巴,中邮证券研究所 在实际应用中,webagent展现出令人印象深刻的多模态处理能力。当用户查询比较gpt4和claude3在代码生成上的优劣时,系统会自动遍历stackoverflow、技术博客和学术数据库,抽取错误率、响应速度等关键指标,最终生成结构化的对比矩阵。在医疗领域,针对阿尔兹海默症靶向药临床试验的查询,webagent能从clinicaltrialsgov和pubmed中提取6项期试验数据,标注礼来donanemab引发脑水肿