[中邮证券]：ai动态汇总：openai发布搭建智能体新工具，谷歌发布轻量级模型gemma 3 -尊龙凯时人生就博

2025-03-17肖承志、冯昱文中邮证券单***

" data-src="https://public.fxbaogao.com/report-image/2025/03/17/4734447-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2025/03/17/4734447-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

证券研究报告：金融工程报告 2025年3月17日研究所分析师肖承志 sac登记编号s1340524090001 emailxiaochengzhicnpseccom 金工周报 openai发布搭建智能体新工具，谷歌发布轻量级模型gemma3ai动态汇总20250317 研究助理冯昱文 sac登记编号s1340124100011 emailfengyuwencnpseccom 近期研究报告《微盘领涨创下历史新高，4月临近仍有调整压力微盘股指数周报20250316》20250317 《小市值强势，动量风格依旧中邮因子周报20250309》20250310 《泛科技大幅回调，融资资金和etf资金逆市流入行业轮动周报20250302》20250303 《高波不再持续，多数风格切换中邮因子周报20250302》20250303 《3月胜率最高的策略：多微盘空1000微盘股指数周报20250302》 20250302 《deepseek背景综述及在金融领域应用场景初探》20250226 《扩散指数有高位回调风险微盘股指数周报20250216》20250217 《基本面回撤，高波风格持续中邮因子周报20250209》20250210 《各资金持续流入机器人，短期注意回调风险，行业轮动开始超配成长行业轮动周报20250209》20250210 《全面牛市正在到来，微盘有望修复前高微盘股指数周报20250209》 20250210 《基本面表现强势，风格切换加速中邮因子周报20250126》20250127 《节前融资资金大幅净流出，etf资金聚焦机器人以及红利行业轮动周报20250126》20250126 openai发布搭建智能体新工具 3月11日，openai在其尊龙凯时人生就博官网发布了新的面向开发者的ai工具。此次发布的工具可以帮助开发者在创建ai智能体过程中，简化开发流程和增强智能体技能和功能。谷歌发布轻量级模型gemma3，号称可以在单一gpu上运行谷歌于3月12日发布开源模型gemma3，该模型基于gemini20开发，是轻量级前沿开源模型，有多种尺寸可选，能在多种设备上快速运行，方便开发者创建ai应用。最强标准化接口协议mcp讨论热度快速提高随着manus的走红，标准化接口协议mcp的讨论度也随之提高，因为其在工具调用、访问外部数据领域只需要一个协议，所以它也被称为agent领域的typec。 openai使用cot监控推理模型的作弊行为据openai最近研究，研究人员发现推理模型会奖励作弊行为，并针对这一现象提出用思维链（cot）监测来检测模型的不良行为，但发现对cot施加优化压力可能导致模型变得更“狡猾”。风险提示：本报告所有信息基于网络内容整理，不构成投资建议。目录 1ai重点要闻4 11openai发布搭建智能体新工具4 12谷歌发布轻量级模型gemma3，号称可以在单一gpu上运行5 13最强标准化接口协议mcp讨论热度快速提高6 14openai使用cot监控推理模型的作弊行为8 2企业动态10 21华为联合北京大学发布全栈开源deepseek推理方案10 22openai发布cot最新研究成果，检测前沿推理模型中的不当行为11 23manus与阿里通义千问团队达成战略合作12 3ai行业洞察13 31开发ai编译器cursor的独角兽公司anysphere拟以100亿美元估值融资13 32哥伦比亚大学：ai搜索工具平均准确率仅六成14 4技术前沿15 41通过反复实验测试大模型智力，agi恐还需70年15 42阿里开源r1omni：多模态模型rlvr16 43cod：草稿链，极大降低成本17 5风险提示18 图表目录图表1：reponsesapi4 图表2：computerusetool5 图表3：gemma3评测对比6 图表4：mcp7 图表5：mcpvsapi7 图表6：监控前沿模型奖励作弊行为9 图表7：对抗cot检测器下的优化9 图表8：推理方案架构11 图表9：cot监控12 图表10：manus官宣与阿里通义千问合作13 图表11：ai搜索工具准确率15 图表12：evaluatingintelligenceviatrialanderror15 图表13：达到agi需要难以想象的参数量16 图表14：r1omni17 图表15：r1omni对比实验17 图表16：cod对比18 1ai重点要闻 11openai发布搭建智能体新工具 3月11日，openai在其尊龙凯时人生就博官网发布了新的面向开发者的ai工具。此次发布的工具可以帮助开发者在创建ai智能体过程中，简化开发流程和增强智能体技能和功能。本次主要发布了以下工具： responsesapi 该api结合了聊天功能与集成工具（如网页搜索和文件搜索），基于chatgpt搜索模型，提供实时信息并附带引用来源，为开发者提供了更灵活的开发基础。图表1：reponsesapi 资料来源：openai，中邮证券研究所计算机使用工具（computerusetool）通过operator功能，让ai能够在计算机上直接执行任务。图表2：computerusetool 资料来源：openai，中邮证券研究所 agentssdk 一个用于协调涉及多个智能体的复杂工作流程的开源框架。该sdk源自其实验性项目swarm，具备智能体交接、安全护栏和全面的调试追踪功能。该sdk支持从大量文档中高效检索信息，新增元数据过滤和直接搜索端点访问功能。 12谷歌发布轻量级模型gemma3，号称可以在单一gpu上运行谷歌于3月12日发布开源模型gemma3，该模型基于gemini20开发，是轻量级前沿开源模型，有多种尺寸可选，能在多种设备上快速运行，方便开发者创建ai应用。模型能力方面，gemma3在性能上超越llama3405b等模型；支持140种语言；具备先进的文本和视觉推理能力；拥有128ktoken的上下文窗口；支持函数调用和结构化输出；推出量化版本，减小模型大小并降低计算需求。图表3：gemma3评测对比资料来源：google，中邮证券研究所在安全方面，gemma3开发过程包含数据治理、微调以符合安全政策和基准评估。同时推出shieldgemma2用于图像安全检查，可输出危险内容、性暗示和暴力等三类安全标签。与此同时，gemma3能与多种开发工具集成，如huggingfacetransformers等；在googleaistudio可直接试用和获取api密钥；可从huggingface等平台下载模型进行定制；有多种部署选项，在nvidia、googlecloudtpu、amdgpu和cpu上均有优化。 13最强标准化接口协议mcp讨论热度快速提高随着manus的走红，标准化接口协议mcp的讨论度也随之提高，因为其在工具调用、访问外部数据领域只需要一个协议，所以它也被称为agent领域的typec。图表4：mcp 资料来源：norahsakal，中邮证券研究所 mcp全称为模型上下文协议，是一种新的开放协议，用于规范应用程序为大语言模型提供上下文的方式，可将其类比为ai领域的usbc端口，能简化ai模型与数据、工具和服务的交互。图表5：mcpvsapi 资料来源：norahsakal，中邮证券研究所与传统api相比，mcp只需进行一次标准化集成，即可访问多种工具和服务；而传统api需要为每个工具或数据源单独集成；同时，mcp支持实时双向通信和动态发现，ai模型能主动获取信息、触发操作并自动发现可用工具；传统api通常不具备这些功能；除此之外，mcp易于扩展，通过添加mcp服务器就能增加新功能，且安全控制一致；传统api的扩展性较差，安全性因不同api而异。 mcp采用客户端服务器架构，mcp主机是需要访问外部数据或工具的应用程序，mcp客户端与服务器保持一对一连接，mcp服务器连接本地或远程数据源并提供功能，在ai模型和工具间协调数据和指令流。传统api适用于需要精确控制、性能优化和高可预测性的场景；使用mcp时，需定义功能、遵循协议规范、选择传输方式、创建资源并设置客户端。在旅行规划助手、智能代码编辑器、复杂数据分析等场景，mcp可简化开发流程、提供灵活性、实现实时响应、保障安全合规且便于扩展。 14openai使用cot监控推理模型的作弊行为据openai最近研究，研究人员发现推理模型会奖励作弊行为，并针对这一现象提出用思维链（cot）监测来检测模型的不良行为，但发现对cot施加优化压力可能导致模型变得更“狡猾”。面对推理模型的作弊行为，目前比较有效的方式就是cot监控，因为很多推理模型是基于cot进行深度思考，因此只要监测它们的“思考”过程，就能发现各种不当行为，比如在编程任务中破坏测试、欺骗用户，或者在遇到难题时直接放弃。 openai开发了和高级模型水平接近的监测器，用gpt4o监测前沿推理模型在编程环境中的奖励作弊行为，对比只观察动作的监测器，cot监测器能更有效地检测系统性和特定问题的奖励作弊行为。图表6：监控前沿模型奖励作弊行为资料来源：monitoringreasoningmodelsformisbehaviorandtherisksofpromotingobfuscation，中邮证券研究所研究人员尝试将cot监测器纳入奖励函数进行优化，初期能提升代理性能和对齐性，但后期代理会出现混淆奖励作弊行为，使监测器召回率降至近零。这也意味着，受cot压力训练的智能体会隐藏意图。同时，可能会出现使用cot监测器在测试时出现拒绝采样，结果表明在低优化阶段训练有cot压力的代理有优势，但随着训练进行，该代理的黑客尊龙凯时人生就博的解决方案选择率会快速上升。图表7：对抗cot检测器下的优化资料来源：monitoringreasoningmodelsformisbehaviorandtherisksofpromotingobfuscation，中邮证券研究所 2企业动态 21华为联合北京大学发布全栈开源deepseek推理方案据华为技术有限公司和北京大学高性能计算校级公共平台消息，2025年3月9日，北京大学联合华为发布deepseek全栈开源推理方案。据介绍，该方案基于北大自研scow算力平台系统、鹤思调度系统，并整合deepseek、openeuler、mindspore与vllmray等社区开源组件，实现华为昇腾上的deepseek高效推理，并支持大规模算力集群训推一体化部署。所有开发者均可获取源码并根据需求二次开发，性能接近闭源方案。目前，此方案在未名卓越一号集群部署成功。该集群由北京大学计算中心负责研制与运维管理，为北大鲲鹏昇腾科教创新卓越中心提供算力支持。it之家查询获悉，作为国内首个基于高校自研基础软件的国产智算平台，该集群于2024 年11月18日上线运行，首期集成20台昇腾ai服务器与10台鲲鹏通用服务器，ai算力规模为3064pflops（半精度）。此次发布的deepseek推理方案依托全栈开源组件构建，在openeuler开源操作系统层面进行了深度优化；通过异构调度负载感知moe冷热专家，从而更细粒度调度任务；通过异构融合来高效管理内存，减小系统内存碎片；利用毕昇编译器进一步优化，减少算子下发耗时，提升推理整体性能。图表8：推理方案架构资料来源：it之家，中邮证券研究所 22openai发布cot最新研究成果，检测前沿推理模型中的不当行为 openai在x平台上表示，思维链（cot）推理模型能够以人类可理解的自然语言展开“思考”。对其“思考”过程加以监控，有助于帮助研究人员察觉各类不当行为。比如，在编码任务中破坏测试、欺骗用户，或是面对难题时直接放弃等情况。 openai认为，cot监控或许会成为未来监督超人类水平模型的少数有效工具之一。研究人员还

你可能感兴趣

中邮证券2025-05-27

中邮证券2025-05-20

信息技术

上海证券2024-03-07

信息技术

国信证券2024-02-05

" data-src="https://public.fxbaogao.com/report-image/2025/06/09/4890863-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-mini;;;" data-srcset="https://public.fxbaogao.com/report-image/2025/06/09/4890863-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy industryimg__app-containers-fxbaogao-detail-industrycard-style-module__ulqfc"/>

ai动态汇总【中邮金工】：谷歌更新gemini 2.5 pro，阿里开源qwen3新模型

中邮证券2025-06-09