您的浏览器禁用了javascript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系尊龙凯时网址。[中邮证券]:ai动态汇总:openai发布搭建智能体新工具,谷歌发布轻量级模型gemma 3 -尊龙凯时人生就博

[中邮证券]:ai动态汇总:openai发布搭建智能体新工具,谷歌发布轻量级模型gemma 3 -尊龙凯时人生就博

2025-03-17肖承志、冯昱文中邮证券单***
" data-src="https://public.fxbaogao.com/report-image/2025/03/17/4734447-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2025/03/17/4734447-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

证券研究报告:金融工程报告 2025年3月17日 研究所 分析师肖承志 sac登记编号s1340524090001 emailxiaochengzhicnpseccom 金工周报 openai发布搭建智能体新工具,谷歌发布轻量级模型gemma3ai动态汇总20250317 研究助理冯昱文 sac登记编号s1340124100011 emailfengyuwencnpseccom 近期研究报告 《微盘领涨创下历史新高,4月临近仍有调整压力微盘股指数周报20250316》20250317 《小市值强势,动量风格依旧中邮因子周报20250309》20250310 《泛科技大幅回调,融资资金和etf资金逆市流入行业轮动周报20250302》20250303 《高波不再持续,多数风格切换中邮因子周报20250302》20250303 《3月胜率最高的策略:多微盘空1000微盘股指数周报20250302》 20250302 《deepseek背景综述及在金融领域应用场景初探》20250226 《扩散指数有高位回调风险微盘股指数周报20250216》20250217 《基本面回撤,高波风格持续中邮因子周报20250209》20250210 《各资金持续流入机器人,短期注意回调风险,行业轮动开始超配成长 行业轮动周报20250209》20250210 《全面牛市正在到来,微盘有望修复前高微盘股指数周报20250209》 20250210 《基本面表现强势,风格切换加速 中邮因子周报20250126》20250127 《节前融资资金大幅净流出,etf资金聚焦机器人以及红利行业轮动周报20250126》20250126 openai发布搭建智能体新工具 3月11日,openai在其尊龙凯时人生就博官网发布了新的面向开发者的ai工具。此次发布的工具可以帮助开发者在创建ai智能体过程中,简化开发流程和增强智能体技能和功能。 谷歌发布轻量级模型gemma3,号称可以在单一gpu上 运行 谷歌于3月12日发布开源模型gemma3,该模型基于gemini20开发,是轻量级前沿开源模型,有多种尺寸可选,能在多种设备上快速运行,方便开发者创建ai应用。 最强标准化接口协议mcp讨论热度快速提高 随着manus的走红,标准化接口协议mcp的讨论度也随之提高,因为其在工具调用、访问外部数据领域只需要一个协议,所以它也被称为agent领域的typec。 openai使用cot监控推理模型的作弊行为 据openai最近研究,研究人员发现推理模型会奖励作弊行为,并针对这一现象提出用思维链(cot)监测来检测模型的不良行为,但发现对cot施加优化压力可能导致模型变得更“狡猾”。 风险提示: 本报告所有信息基于网络内容整理,不构成投资建议。 目录 1ai重点要闻4 11openai发布搭建智能体新工具4 12谷歌发布轻量级模型gemma3,号称可以在单一gpu上运行5 13最强标准化接口协议mcp讨论热度快速提高6 14openai使用cot监控推理模型的作弊行为8 2企业动态10 21华为联合北京大学发布全栈开源deepseek推理方案10 22openai发布cot最新研究成果,检测前沿推理模型中的不当行为11 23manus与阿里通义千问团队达成战略合作12 3ai行业洞察13 31开发ai编译器cursor的独角兽公司anysphere拟以100亿美元估值融资13 32哥伦比亚大学:ai搜索工具平均准确率仅六成14 4技术前沿15 41通过反复实验测试大模型智力,agi恐还需70年15 42阿里开源r1omni:多模态模型rlvr16 43cod:草稿链,极大降低成本17 5风险提示18 图表目录 图表1:reponsesapi4 图表2:computerusetool5 图表3:gemma3评测对比6 图表4:mcp7 图表5:mcpvsapi7 图表6:监控前沿模型奖励作弊行为9 图表7:对抗cot检测器下的优化9 图表8:推理方案架构11 图表9:cot监控12 图表10:manus官宣与阿里通义千问合作13 图表11:ai搜索工具准确率15 图表12:evaluatingintelligenceviatrialanderror15 图表13:达到agi需要难以想象的参数量16 图表14:r1omni17 图表15:r1omni对比实验17 图表16:cod对比18 1ai重点要闻 11openai发布搭建智能体新工具 3月11日,openai在其尊龙凯时人生就博官网发布了新的面向开发者的ai工具。此次发布的工具可以帮助开发者在创建ai智能体过程中,简化开发流程和增强智能体技能和功能。 本次主要发布了以下工具: responsesapi 该api结合了聊天功能与集成工具(如网页搜索和文件搜索),基于chatgpt搜索模型,提供实时信息并附带引用来源,为开发者提供了 更灵活的开发基础。 图表1:reponsesapi 资料来源:openai,中邮证券研究所 计算机使用工具(computerusetool) 通过operator功能,让ai能够在计算机上直接执行任务。 图表2:computerusetool 资料来源:openai,中邮证券研究所 agentssdk 一个用于协调涉及多个智能体的复杂工作流程的开源框架。该sdk源自其实验性项目swarm,具备智能体交接、安全护栏和全面的调试追踪功能。该sdk支持从大量文档中高效检索信息,新增元数据过滤和直接搜索端点访问功能。 12谷歌发布轻量级模型gemma3,号称可以在单一gpu上运行 谷歌于3月12日发布开源模型gemma3,该模型基于gemini20开发,是轻量级前沿开源模型,有多种尺寸可选,能在多种设备上快速运行,方便开发者创建ai应用。 模型能力方面,gemma3在性能上超越llama3405b等模型;支持140种语言;具备先进的文本和视觉推理能力;拥有128ktoken的上下文窗口;支持函数调用和结构化输出;推出量化版本,减小模型大小并降低计算需求。 图表3:gemma3评测对比 资料来源:google,中邮证券研究所 在安全方面,gemma3开发过程包含数据治理、微调以符合安全政策和基准评估。同时推出shieldgemma2用于图像安全检查,可输出危险内容、性暗示和暴力等三类安全标签。与此同时,gemma3能与多种开发工具集成,如huggingfacetransformers等;在googleaistudio可直接试用和获取api密钥;可从huggingface等平台下载模型进行定制;有多种部署选项,在nvidia、googlecloudtpu、amdgpu和cpu上均有优化。 13最强标准化接口协议mcp讨论热度快速提高 随着manus的走红,标准化接口协议mcp的讨论度也随之提高,因为其在工具调用、访问外部数据领域只需要一个协议,所以它也被称为agent领域的typec。 图表4:mcp 资料来源:norahsakal,中邮证券研究所 mcp全称为模型上下文协议,是一种新的开放协议,用于规范应用程序为大语言模型提供上下文的方式,可将其类比为ai领域的usbc端口,能简化ai模型与数据、工具和服务的交互。 图表5:mcpvsapi 资料来源:norahsakal,中邮证券研究所 与传统api相比,mcp只需进行一次标准化集成,即可访问多种工具和服务;而传统api需要为每个工具或数据源单独集成;同时,mcp支持实时双向通信和动态发现,ai模型能主动获取信息、触发操作并自动发现可用工具;传统api通常不具备这些功能;除此之外,mcp易于扩展,通过添加mcp服务器 就能增加新功能,且安全控制一致;传统api的扩展性较差,安全性因不同api而异。 mcp采用客户端服务器架构,mcp主机是需要访问外部数据或工具的应用程序,mcp客户端与服务器保持一对一连接,mcp服务器连接本地或远程数据源并提供功能,在ai模型和工具间协调数据和指令流。 传统api适用于需要精确控制、性能优化和高可预测性的场景;使用mcp时,需定义功能、遵循协议规范、选择传输方式、创建资源并设置客户端。在旅行规划助手、智能代码编辑器、复杂数据分析等场景,mcp可简化开发流程、提供灵活性、实现实时响应、保障安全合规且便于扩展。 14openai使用cot监控推理模型的作弊行为 据openai最近研究,研究人员发现推理模型会奖励作弊行为,并针对这一现象提出用思维链(cot)监测来检测模型的不良行为,但发现对cot施加优化压力可能导致模型变得更“狡猾”。 面对推理模型的作弊行为,目前比较有效的方式就是cot监控,因为很多推理模型是基于cot进行深度思考,因此只要监测它们的“思考”过程,就能发现各种不当行为,比如在编程任务中破坏测试、欺骗用户,或者在遇到难题时直接放弃。 openai开发了和高级模型水平接近的监测器,用gpt4o监测前沿推理模型在编程环境中的奖励作弊行为,对比只观察动作的监测器,cot监测器能更有效地检测系统性和特定问题的奖励作弊行为。 图表6:监控前沿模型奖励作弊行为 资料来源:monitoringreasoningmodelsformisbehaviorandtherisksofpromotingobfuscation,中邮证券研究所 研究人员尝试将cot监测器纳入奖励函数进行优化,初期能提升代理性能和对齐性,但后期代理会出现混淆奖励作弊行为,使监测器召回率降至近零。这也意味着,受cot压力训练的智能体会隐藏意图。同时,可能会出现使用cot监测器在测试时出现拒绝采样,结果表明在低优化阶段训练有cot压力的代理有优势,但随着训练进行,该代理的黑客尊龙凯时人生就博的解决方案选择率会快速上升。 图表7:对抗cot检测器下的优化 资料来源:monitoringreasoningmodelsformisbehaviorandtherisksofpromotingobfuscation,中邮证券研究所 2企业动态 21华为联合北京大学发布全栈开源deepseek推理方案 据华为技术有限公司和北京大学高性能计算校级公共平台消息,2025年3月9日,北京大学联合华为发布deepseek全栈开源推理方案。 据介绍,该方案基于北大自研scow算力平台系统、鹤思调度系统,并整合deepseek、openeuler、mindspore与vllmray等社区开源组件,实现华为昇腾上的deepseek高效推理,并支持大规模算力集群训推一体化部署。所有开发者均可获取源码并根据需求二次开发,性能接近闭源方案。 目前,此方案在未名卓越一号集群部署成功。该集群由北京大学计算中心负责研制与运维管理,为北大鲲鹏昇腾科教创新卓越中心提供算力支持。it之家查询获悉,作为国内首个基于高校自研基础软件的国产智算平台,该集群于2024 年11月18日上线运行,首期集成20台昇腾ai服务器与10台鲲鹏通用服务器,ai算力规模为3064pflops(半精度)。 此次发布的deepseek推理方案依托全栈开源组件构建,在openeuler开源操作系统层面进行了深度优化;通过异构调度负载感知moe冷热专家,从而更细粒度调度任务;通过异构融合来高效管理内存,减小系统内存碎片;利用毕昇编译器进一步优化,减少算子下发耗时,提升推理整体性能。 图表8:推理方案架构 资料来源:it之家,中邮证券研究所 22openai发布cot最新研究成果,检测前沿推理模型中的不当行为 openai在x平台上表示,思维链(cot)推理模型能够以人类可理解的自然语言展开“思考”。对其“思考”过程加以监控,有助于帮助研究人员察觉各类不当行为。比如,在编码任务中破坏测试、欺骗用户,或是面对难题时直接放弃等情况。 openai认为,cot监控或许会成为未来监督超人类水平模型的少数有效工具之一。 研究人员还

关于尊龙凯时网址

发现报告是苏州互方得信息科技有限公司推出的专业研报平台。平台全面覆盖宏观策略、行业分析、公司研究、财报、招股书、定制报告等内容。通过前沿的技术和便捷的产品体验,为金融从业人员、投资者、市场运营等提供信息获取和整合的专业服务。

不良信息举报电话:0512-88971002   举报邮箱:cs@hufangde.com

商务合作、企业采购、机构入驻、报告发布 > 添加微信:hufangde04

联系尊龙凯时网址

联系客服

0512-88971002(工作日9:00-18:00)

hfd04@hufangde.com

中国(江苏)自由贸易试验区苏州片区苏州工业园区旺墩路269号星座商务广场1幢圆融中心33楼

微信公众号

发现报告

微信公众号

发现报告商业局

© 2018-2025 苏州互方得信息科技有限公司

||

网站地图