[甲子光年]：2024年 ai agent行业报告 -尊龙凯时人生就博

信息技术2024-05-07刘瑶、胡博文甲子光年机构上传

ai智能总结

" data-src="https://public.fxbaogao.com/report-image/2024/05/07/4288559-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2024/05/07/4288559-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

2024 中国aiagent行业研究报告大模型时代的“app探索新一代人机交互及协作范式智库目录 contents part01前世今生：科幻憧憬、学术概念与商业尝试 part02奇点已至：让每个人掌握ai的力量 part03百家争鸣：属于大模型时代的app繁荣 part04时代先驱：当下商业实践值得关注的里程碑 part05潜力无限：来自于数据、算法、算力的飞轮效应 aiagent的发展历程梳理：大模型赋予了aiagent核心改变 agent（代理）一概念起源于哲学，描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域，这一术语被赋予了一层新的含义：具有自主性、反应性、交互性等特征的智能“代理”。大型语言模型（llms）的出现为智能代理的进一步发展带来了希望。 aiagent的发展历程简述基于深度学习基于统计学习基于符号规则 •长期以来，研究者们一直在追求与人类相当、乃至超越人类水平的通用人工智能（artificialgeneral intelligence，agi）。 •在1950年代，alanturing就将「智能」的概念扩展到了人工实体，并提出了著名的图灵测试。这些人工智能实体通常被称为——agent（代理*） *agent术语的中文译名并未形成共识，有学者将其翻译为智能体、行为体、代理或智能代理，目前行业出现的“代理”和“智能代理”均指代agent，后由于2023年openai引爆aigc领域，一般称为aiagent。基于大模型 llm给aiagent底层提供了一个突破性技术方案：llm带来了深度学习新范式，思维链和强大的自然语言理解能力有望让agent具备强大的学习能力和迁移能力，从而让创建广泛应用且实用的agent成为可能 llm的框架优势：过去等强化学习基于深度学习框架可让agent学到技能，但agent的泛化性较差，往往用于非常窄的特定领域，例如用在游戏或低维层面的控制或计划，标志性应用是围棋领域的alphago。过往的工作主要集中在增强代理的特定能力，如符号推理或对特定任务的掌握（国际象棋、围棋等）。这些研究更加注重算法设计和训练策略，而忽视了模型固有的通用能力的发展，如知识记忆、长期规划、有效泛化和高效互动等。事实证明，增强模型固有能力是推动智能代理进一步发展的关键因素。过往的aiagent类型： 符号型智能体：采用逻辑规则和符号表示来封装知识和促进推理过程，如1980年前后，出现的医学诊断专家系统，模拟心理治疗程序等； 反映型智能体：关注智能体与其环境之间的交互，强调快速和实时响应，缺乏复杂缺乏复杂决策和规划能力； 基于强化学习的智体题：关注如何让智能体通过与环境的交互进行学习。 基于迁移学习和元学习的智能体：使智能体从少量样本中迅速推理出执行任务的最优策略。数据来源：公开资料，专家访谈，甲子光年智库整理www.jazzyear.com llm是agent能力的增效器，交互协作程度是agent能力的扩展器 当下大模型的参数量提升aiagent的理解力和泛化能力，使其能更好地处理多种任务和上下文信息。这增强了ai代理的自然语言处理能力，从而提供更个性化、连贯的交互体验，是当下agent的构建关键。大模型时代的aiagentllm（规划记忆工具行动）特征核心llm是核心控制器，构建核心能力提升aiagent的理解力和泛化能力，使其能更好地处理多种任务和上下文信息。这增强了ai代理的自然语言处理能力，从而提供更个性化、连贯的交互体验。架构解析 agent基于llm的组件，和交互两个层面记忆 agents 其他agent，多agent可以形成协作，结合相关任务结果形成群体智能人类用户通过用户接口、命令指示等方式与agent形成交互，是agent的监督者、合作者和决策者人机能力交互群体协作工具ai规划系统开发者 agent的开发者，对agent的相关能力，设计agent的相关组件能力外界环境 agent所处的环境（可能包括虚拟及物理世界），外界环境可以与agent形成交互能力agent能力行动设计感知能力反馈开发数据来源：公开资料，专家访谈，甲子光年智库整理www.jazzyear.com 当下的aiagent可以看作llm技术下prompt工程的进化 aiagent是prompt工程的一种升级，agent的核心在于自主性的增强，可有效完成某一个工作点或工作单元，尽量减少人的干预； 评价一个aiagent的核心逻辑：在流程上的节点上完成了什么程度的自动化。 multi-agent 自主性的增强，自动化完成连续行动 agent的核心在于自主性的增强，这种增强的核心要义是可以去独立完成一个工作节点，在某个工作节点几乎可以减少人类的审核。让整个事件的流程在此刻完成闭环——成本降到最低（包括时间成本和金钱成本）；评价一个agent的逻辑：在流程上的节点上完成了什么程度的自动化。 aiagent prompt模式是把大模型当做工具来调用：大模型的最初兴起的时候，prompt工程，把大模型当成一种编程语言来看待。人们通过描述角色技能、任务关键词、任务目标及任务背景，告知大模型需要输出的格式，并调用大模型进行输出。 chain/flow prompt工程的万能公式：角色角色技能任务核心关键词任务目标任务背景任务范围任务解决与否判定任务限制条件输出格式/形式输出量。 prompt model 因此在2023年，全球aigc关注者发展了多种prompt工程的玩法，如角色扮演、零样本提示和少样本提示，希望将prompt工程发挥到极致。例如一个澳大利亚少年编写了一个15000个字符的提示词，成功地让他变身为人类的导师，教授各种知识。这种方式就像能直接构建软件一样。数据来源：公开资料，专家访谈，甲子光年智库整理www.jazzyear.com 【记忆】和【规划】是学术概念下的关键功能点，商业概念也将逐步落地 从学术概念来看【记忆】和【规划】对于aiagent学术概念上的完整性非常关键，但受限与市场发展早期，在实际的商业产品落地中【记忆】和【规划】能力未必能完全呈现 理解这点就能接受在当下市场环境下aiagent产品功能的不完整，并且对agent的形态持续保持关注和期待。图：人类记忆的分类 2024年仅仅距离aigc全面爆发的2023年才过去1年，受限于算力、模型、数据等等多种因素制约，往往部分agent产品会难以获得“记忆能力”和 “规划能力”；记忆产品的效果往往可以依靠数字能力化及过往自动化手段完成。感觉记忆记忆短期记忆长期记忆视觉记忆听觉记忆触觉记忆显式记忆隐式记忆情景记忆（事件经历）语义记忆（事实概念）工具能力知识图谱搜索引擎代码解释器计算 …… ai agent 行动能力反思任务分解思维链工具使用规划能力 …… 表：人类记忆与aiagent记忆的映射人类记忆类型 agent映射例子感觉记忆学习原始输入的嵌入表示，包括文本、图像或其他形式，短暂保留感觉印象。看一张图片，然后在图片消失后能够在脑海中回想起它的视觉印象。短期记忆上下文学习（比如直接写入prompt中的信息），处理复杂任务的临时存储空间，受有限的上下文长度限制。在进行心算时记住几个数字，但短期记忆是有限的，只能暂时保持几个项目。长期记忆在查询时agent可以关注的外部向量存储，具有快速检索和基本无限的存储容量。学会骑自行车后，多年来再次骑起来仍能掌握这项技能，这要归功于长期记忆的持久存储。数据来源：公开资料，lilianweng《llmpoweredautonomousagents》，甲子光年智库整理www.jazzyear.com aiagent市场处于早期阶段，产品及服务模式需要大量的探索 当下的市场状态是aiagent商业类产品的爆发前夜，市场需要给与aiagent更多的空间，aiagent需要进行不断地探索； 此时，aiagent的市场概念与学术概念出现混淆感和分歧，部分copilot产品在结果上也可作为agent模式的产品出现。 2024是aiagent的爆发之年，也是产品逐步从copilot模式转向aiagent的探索之年；因此市场中往往也会把自动化程度高的copilot产品作为泛化的agent概念产品。名称自动化的实现方式含义 chatbot /人类完成绝大部分工作，类似向ai询问意见，了解信息， ai提供信息和建议但不直接处理工作 copilot 借助复杂的提示词完成自人类和ai进行协作，工作量相当。ai根据人类prompt完动化成工作初稿，人类进行目标设定，修改调整，最后确认 agent ai完成绝大部分工作，人类负责设定目标、提供资源和监通过设定目标完成自动化督结果，ai完成任务拆分，工具选择，进度控制，现目标后自主结束工作 chatbotcopilotagent copilot与agent最大的区别在于“自主规划”的能力：copilot的模式需要人的指挥；而agent则是直接面对目标任务，具有自主记忆、推理、规划和执行的全自动能力，因此终极形态的aiagent只需要用户的起始指令和结果的反馈，过程中并不需要人的介入。 copilot与agent的混淆点在于对于“工作流”的“自动化”的区分：从完成效果看，工作可以人为地被无限拆分，部分“copilot产品自动化”可以完成单个工作单元的完全自动化。绝大多数的工作仍然由人完成人指挥ai 人指导ai 人指示ai ai ai ai绝大多数的工作可以由ai完成数据来源：公开资料，专家访谈，甲子光年智库整理www.jazzyear.com 随着aiagent的能力提升，过往的工作范式可被颠覆 aiagent的能力增加促进工作范式的转移 agent的商业价值围绕工作范式差别展开（面向过程vs面向目标），工作范式的改变则意味着真正的智能时代开启。 aiagent不同自动化程度所需要的能力简要分析等级感知能力认知能力执行能力规划能力软件工程思路 agent工程思路 l2 （有条件自动化）多模态感知能力，能处理更广泛的数据类型，应用于更多样、更长尾、更复杂的场景全面的认知能力，包含记忆能力、决策能力、高度智能的对话能力、内容生成能力可使用的工具数量、类型、实现的业务逻辑的复杂度得到极大提升以业务规模达到端到端最大化自动化为目标，可以规划和编排大量流程节点和复杂逻辑 l3 （高度自动化）综合利用认知能力， ai为中心人为辅助人为中心 ai为辅助环境交互结果，在少量人类干预下获得超通过综合利用环境知识、人类少量的监督信号，达到高精度的能够主动洞察问题域在人类少量干预下，和求解域的环境变化，可以实现绝大多数工实现业务流程的灵活 l4 （完全自动化）高精度的感知力在无人工干预下智能体自主进化获得超高精度的感知能力认知水平利用环境信号自主学习提升认知水平具调用代码能自动学习工具使用的方式、实现100%的自动化调用工具的能力适应和编排，环境适应能力强能利用过程反思、经验沉淀，难例挖掘等高度智能化的决策机制，自主提升规划和编排能力，自主进化面向过程架构面向目标架构 vs l1 （部分自动化） “所见即所得”的感利用大量人类监督信知，处理单一模态下号获得的一定程度的的相对简单的数据类理解语言、利用语言型，应用于简单场景人机交互能力少量的常见标准工具的调用，简单的工具调用逻辑静态地执行特定的、预定义的任务。涉及少量的、简单串并联的流程节点动态人机交互界面无预制有限域的任务。知识和世界模型的分发平台海量长尾任务规模化的个性化生产固定形态的交互界面预定义有限域的任务。信息分发平台海量长尾数据规模化的生产方式数据来源

你可能感兴趣

信息技术

头豹研究院2024-09-05

信息技术

沙利文&头豹2024-06-10

信息技术

头豹研究院2024-09-09

信息技术

爱分析2024-08-25

信息技术

万联证券2025-03-31