manusai智能体 agi发展新范式的实践与测评 智昇人工智能研究院研究员金金、enjoy、小雪、iris、何惠 学君、阿秒ai团队 130所高校教授、博士联合发布 20250307 智昇人工智能研究院 contents 引言 agi发展历程、现状与趋势 manusai概述 目录 manusai技术原理探析 manusai实测案例分析 manusai用户体验评估 manusai发展前景与挑战 manusai交互指南 写在最后 引言 人工智能正经历深刻变革,从传统的单点能力模型正快速向通用人工智能agi演进。在这一演进过程中,ai智能体agent的出现代表了ai从“工具”向“助手”再到“代理人”的关键跃迁。 2024年末到2025年初,我们见证了ai智能体从概念走向实践的重要时刻。 自chatgpt掀起大语言模型革命以来,ai已能进行高质量的文本理解与生成,但其与现实世界的交互能力仍显不足。人类与ai之 间的交互依然需要人类作为中介,负责操作各类软件和执行实际任务。这种情况正随着ai智能体的出现而改变。 manusai作为新兴的通用智能体,其核心价值主张在于模拟人类操作电脑的能力,实现从“我告诉ai做什么”到“ai能够自己完成任务”的转变。这种能力不仅是技术上的进步,更是ai与人类协作模式的革新,标志着agi发展的新阶段。 在当前以openai、anthropic等为代表的国际ai巨头主导的格局中,来自中国的manusai团队凭借其创新产品吸引了广泛关注,为全球ai智能体的发展 带来了新的可能性和思路。 01 agi发展历程、现状与趋势 agi发展历程 agi的理念源于对机器能像人类一样执行任何智力任务的追求,其历史可分为几个关键阶段。 1956年的达特茅斯研讨会被视为ai研究的起点,吸引了johnmccarthy、marvinminsky等学者,探讨机器学习和通用智能的可能性。 1965年,赫伯特西蒙预测机器将在20年内能完成人类任何工作。 1967年,marvinminsky认为agi问题将在一代人内解决,但这些预测未实现,反映了早期对复杂性的低估。 早期探索与乐观估计(1950年代1960年代) 转向狭窄ai(1970年代1990年代) 1970年代初,研究者意识到agi难度,资金转向应用导向的狭窄ai。 1984年,douglenat启动cyc项目,试图构建通用知识库,1980年代初日本的第五代计算机项目也设定了包括自然语言和推理的agi目标,但未能实现,ai研究者被贴上“空想家”标签,避谈“人类水平”ai。 agi发展历程 agi兴趣复兴(1990年代末2000年代) 1997年,markgubrud在军事生产讨论中首次使用“agi”一词。 2000年,marcushutter提出aixi模型,描述一个能最大化目标满足的通用ai代理。2002年,petervoss、shanelegg和bengoertzel推广该术语。 2009年厦门大学和opencog在厦门举办首次agi暑期学校,标志着研究社区的活跃。 现代agi研究与进展(2010年代至今) 2010年,deepmind成立,专注于agi,2014年被google收购。 2015年,elonmusk等创立openai,致力于安全agi。 2016年,deepmind的alphago击败围棋世界冠军,展示ai在复杂策略游戏中的能力。 2022年,openai推出chatgpt,标志自然语言处理的新里程碑。 2023年,微软研究认为chatgpt可能是早期agi。 2024年openai的o3模型在arcagi基准测试中得分875,超越人类84,进一步推动agi研究。 从人工智能的技术代际发展看 第一阶段:数据启蒙期(1950s2010s) 1997年ibm深蓝击败国际象棋世界冠军卡斯帕罗夫 2000年代自动语音识别系统的商业化应用 2010年左右机器学习在图像分类等任务上的突破 第二阶段:互联网融合期(2010s2025s) 2012年深度神经网络在imagenet挑战赛中的突破性胜利 2017年transformer架构的提出,为大型语言模型奠定基础 20222023年gpt、claude和llama等大语言模型的广泛应用。 从人工智能的技术代际发展看 第三阶段:感知觉醒期(2025s2030s) 多模态大模型能无缝融合文本、图像、声音、视频等不同形式的信息 感知行动循环的建立,使ai能够通过持续观察调整其行为 实时环境理解和场景重建能力 初步的物理常识和因果推理能力 第四阶段:实体化探索期(2030s2040s)) 灵巧机器人系统与大模型的深度集成 强大的物理操作能力,包括精细运动控制和工具使用 环境适应性和自主学习新技能的能力 在不确定环境中的长期规划和决策能力第五阶段:社交共融期(2040s) 社会认知能力,包括理解情绪、意图和社会规范 文化理解和适应能力 道德推理和伦理决策能力 与人类的深度合作能力和自我完善机制 智能体agent在agi进化中的关键地位 ai智能体是能自主执行任务的软件程序,通过观察环境、决策和行动实现目标。它们被视为agi发展的关键,因为能处理需要通用智能的任务,如上下文理解、决策和环境交互。 智能体的类型包括: 自主机器人:如roomba吸尘器和amazon配送机器人。 游戏智能体:如下棋或扑克智能体。欺诈检测智能体:用于金融交易分析。交通管理智能体:优化城市交通流 结合大型语言模型(llms),智能体的能力 显著增强。例如,microsoft的研究表明,llms使智能体能更自然地与用户交互,处理复杂任务(如代码生成和客户查询解决)。研究还指出,智能体通过迁移学习和单次学习 (oneshotlearning)提升通用性,例如更快适应新任务。它们被视为agi的构建模块,推动从单一功能ai向多领域适应的转变。 manusai的出现与定位 manus是由中国团队monicaim于2025年3月5日发布的全球首款通用型aiagent(智能体)产品,在权威的gaia基准测试中性能超越openai同类产品。 产品定位manus定位于手脑并用(拉丁语mensetmanus),采用多代理架构模拟人类工作流(plandocheckact),成本仅为同类产品的十分之一。用户只需输入简单指令,即可获得接近实用状态的报告或文档。 创始人团队肖弘(red):1992年出生,华中科技大学毕业生,连续创业者。创业历程:2015年创立夜莺科技,推出微信公众号运营工具壹伴助手和微伴助手,累计服务超200万b端用户,获腾讯、真格基金等数亿元投资。2022年创立monica(北京蝴蝶效应科技),开发ai浏览器插件,主打海外市场,用户突破千万。2025年推出manus,被媒体称为比deepseek创始人更年轻的ai新星。 季逸超(peakji)联合创始人兼首席科学家,曾开发获macworld特等奖的ios浏览器猛犸,并创建中文互联网最大知识图谱系统magi。主导manus的技术架构设计,强调人机协作的未来方向。 张涛:资深ai产品经理,负责产品场景探索与演示视频制作,曾在工具、saas领域有丰富经验。 manusai的定位 pmanusai定位为通用ai智能体,其名称源自mit校训“mensetmanus”心灵与双手中的“manus”双手,强调通过“动手实践”解决实际问题。 p在技术架构上,manus采用云端虚拟环境,让ai在独立的“电脑”中操作,避免与用户本地电脑争夺控制权。 pmanusai智能体,旨在将想法转化为行动,自主执行复杂任务。功能和能力包括: 旅行规划:创建个性化旅行手册,如日本4月行程。 金融分析:分析特斯拉股票,设计可视化仪表板。 教育支持:为中学教师创建关于动量定理的视频演示。 保险比较:生成清晰比较表并推荐最佳决策。 b2b采购:跨网络深入研究,找到合适供应商。 02 manusai概述 核心功能与特点 认知控制中枢 智能体控制中枢融合神经符号系统(neurosymbolicai),将llm的语义理解与知识图谱的逻辑推理相结合,在医疗诊断等专业领域的决策准确率可达897,较纯llm方案提升34个百分点 多模态感知系统 感知系统已突破传统文本交互边界,视觉模块采用vit22b模型实现每秒60帧的实时场景解析,听觉模块集成wavenet变体实现982的语音指令识别率13。更革命性的突破在于跨模态对齐技术,通过对比学习算法建立文本图像声音的联合嵌入空间,使得智能体在未知环境中的对象识别准确率提升。 任务规划与执行机制 智能体的规划系统采用分层强化学习框架(hrl),将复杂任务分解为可执行的子目标序列。通过蒙特卡洛树搜索(mcts)与神经规划器结合,manus在gaia基准测试中达到914的任务完成率,远超openai同类产品23个百分点。其执行系统创新性地采用沙盒虚拟机架构,支持python脚本自动生成与调试,在数据分析类任 务中实现完全自动化处理。 自主操作能力任务规划与执行多源信息整合可视化结果呈现 过程透明与可干预记忆与学习能力 自主操作能力 manusai能够模拟人类使用电脑的方式,执行各种操作任务,就像一位虚拟助手在云端计算机上代替您工作。 实例: 当用户要求manus比较不同平台上小米ai眼镜的价格时,它会像真人一样依次打开各电商平台,在搜索框输入“小米ai眼镜”,滚动浏览搜索结果,点击相关产品链接,记录价格信息,并在遇到验证码时提示用户协助。整个过程就像远程观看一位助手在电脑上操作一样直观。 具体表现: 网页浏览操作:能够打开chrome浏览器,在地址栏输入url,点击导航栏,使用前进后退按钮 内容交互:滚动页面,点击链接,填写表单,上传文件,拖放元素 应用程序控制:使用快捷键控制视频播放(如使用空格键暂停播放youtube视频) 多标签管理:同时打开多个标签页并在其间切换,保 持多线程工作流 任务规划与执行 manusai擅长将复杂任务系统化分解并有序执行,确保高效完成用户需求 具体表现: 任务分析与拆解:自动将大型任务拆分成逻辑子任务实例: 步骤优先级安排:确定最佳执行顺序,提高效率当用户请求manus进行特斯拉股票分析时,它会自适应性调整:根据执行过程中的发现动态调整计划动拆解任务为:1收集特斯拉基本财务数据;2进度跟踪与报告:实时更新任务完成状态分析行业竞争格局;3评估市场趋势;4研究政 策影响;5查找分析师观点;6总结投资建议。它会有序执行这些步骤,在googlefinance查询基本数据,访问特斯拉尊龙凯时人生就博官网获取财报,浏览行业新闻 分析竞争对手,最后将所有信息整合形成完整分析。 多源信息整合 manusai能够从各种渠道收集信息,并将其整合为连贯有用的内容。 具体表现: 跨平台搜索:同时访问搜索引擎、垂直网站、学术资实例: 源、社交媒体等当用户要求分析恐怖电影的叙事技巧时,manus会 内容筛选:根据相关性和可靠性评估信息价值 访问多个信息源:在b站搜索相关视频教程,浏览 信息解析:从复杂网页中提取关键数据和洞见知乎上的专业讨论,查看搜狐娱乐的影评文章,甚冲突处理:识别和解决不同来源之间的信息矛盾至访问imdb等国际电影数据库。它能够从各种来 源提取关键见解,比如从专业影评中获取叙事结构分析,从观众评论中了解恐怖元素效果,从学术文章中提取类型电影理论,最终整合出全面而深入的分析报告。 可视化结果呈现 manusai注重以用户友好的方式呈现结果,而非简单的文字堆砌。 具体表现: 交互式网页生成:创建带有动态元素的完整网页实例: 数据可视化:将数字信息转化为图表、热图等视觉元在金融分析任务中,manus不会仅提供一堆数字和素文字,而是会创建一个完整的分析仪表板:包含特 多媒体整合:结合文本、图表和简单应用于一体斯拉股价走势