chattingoracting? deepseek的突破边界与浙大先生的未来图景 陈文智 浙江大学信息技术中心 浙江大学人工智能教育教学研究中心 2025年02月17日 我也想来一套,在线用or本地部署? 明天中午前,我要看到ds接入! 用openai训练的吧?吹! 这就是传说中的国运级产品吗? 我刚刚开发的智能体能用吗? 这玩意儿凭啥这么强? 成本这么低,西湖之光不用了吧? agent是不是也要变强了? 商谈愉快 深入交流, 合作共赢 原型立现 vs deepseek关键词 deepdrink deepseek 需求刚起, 方案已至。灵感闪现, 热情款待, 02 project 单击此处添加文本单击此处添加 文本单击此处添加文本单击此处 01 deepseek突破边界 chattingoracting deepseek的突破边界与浙大先生的未来图景 deepseek席卷全球 引爆全球,高性能、低成本的国产、开源大模型 deepseekr1已发布并开源,性能对比openaio1正式版。 在目前大模型主流榜单中,deepseekv3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。 近期因开源ai大模型和相关技术火爆全球,deepseek一度在140多个国家的应用商店下载排行首位。 deepseek有史以来最快获得1 亿注册用户的app。 deepseek模型架构创新 采用moe架构并解决路由崩溃难题 moe deepseek模型架构创新 mla多头潜在注意力机制降低成本、提高效率 柏拉图表征假说 rnn hmm 隐马尔卡夫链 (hmm) 神经网络时代 (rnn) 神经网络时代 (lstm) transfoermer时代 (attention) deepseek模型架构创新 mla多头潜在注意力机制降低成本、提高效率 柏拉图表征假 说 hmm 隐马尔卡夫链 (hmm) rnn 神经网络时代 (rnn) 神经网络时代 (lstm) transfoermer时代 (attention) deepseek模型架构创新 mla多头潜在注意力机制降低成本、提高效率 柏拉图表征假说 rnn hmm 隐马尔卡夫链 (hmm) 神经网络时代 (rnn) 神经网络时代 (lstm) transformer时代 (attention) deepseek模型架构创新 mla多头潜在注意力机制降低成本、提高效率 hmm 隐马尔卡夫链 (hmm) rnn 神经网络时代 (rnn) 神经网络时代 (lstm) transfoermer时代 (attention) deepseek模型架构创新 mla多头潜在注意力机制降低成本、提高效率 hmm 隐马尔卡夫链 (hmm) rnn 神经网络时代 (rnn) 神经网络时代 (lstm) transfoermer时代 (attention) deepseek模型架构创新 mla多头潜在注意力机制降低成本、提高效率 相同信息多头 使用信息 deepseek工程优化 dualpipe流水线并行:双向流水线设计(同时从两端馈送microbatch),显著减少流水线气泡,gpu利用率提升30 通信优化: 重计算策略(反向传播时重新生成中间结果)、cpu存储ema参数,显存占用减少20 内存管理优化: 节点限制路由(每个token最多跨4节点)、定制化alltoall通信内核,结合warp专业化调度,降低跨节点通信开销 两阶段扩展训练(4k32k128k),结合yarn方法,支持128k上下文窗口 长上下文扩展: 同时预测多个未来token,训练效率提升18倍,推理加速显著 通多token预测(mtp): 148万亿token多样化语料,数学与编程数据比例提升,支持多语言任务 数据构建: deepseek预训练数据与策略 deepseek低精度训练与成本控制 fp8混合精度训练: 对激活值和权重细粒度量化(1128tilewise),中间累加保留fp32精度,显存占用减少40 选择性高精度组件: 关键模块(如embedding、attention)保留bf16fp32计算,平衡效率与精度 训练成本: 总成本550万美元(2788mh800gpu小时),预训练效率达每万亿token仅180kgpu小时 deepseek训练方法创新 r1zero的创新纯强化学习训练 顿悟 r1v3 deepseek训练方法创新 冷启动数据构建: 引入数干条高质量人工标注数据(含fewshot提示、r1zero优质输出),通过微调建立初始推理框架,解决纯rl初期低效问题 多阶段强化学习设计: 推理任务专项优化,新增语言一致性奖励(解决多语言混杂问题) 阶段2:拒绝采样生成高质量sft数据 (仅保留答案正确且推理清晰的样本) 阶段3:全场景rl,融合规则奖励(数学编程)与模型评估奖励(开放问答 deepseek训练方法创新 推理能力蒸馏与开源生态 使用r1生成的80万条数据对qwenllama系列蒸馏,qwen7b在aime准确率提升至555,超越同类模型2倍 跨模型知识迁移 开源6个蒸馏模型(15b70b),api定价仅为openai的3,实现推理性能与成本的极致平衡 低成本推理生态 华为昇腾ascend、沐曦metax、天数智芯iluvatar、摩尔线程mthreads、壁仞科技biren、芯瞳半导体sietium等 国产算力适配 阿里云、腾讯云、腾讯云、百度智能云、天翼云(中国电信)、移动云(中国移动)、联通云(中国联通)、火山引擎(字节跳动)、京东云、青云科技、云轴科技等 国内云平台支持 deepseek给了我们什么启示 战略拐点:人工智能的拐点已经从成长期到产业化转换 第二阶段 第一阶段 技术 能新产品、新产 力业的爆炸性增 长和迅速创新 第五阶段 第四阶段 第三阶段 全部集群(新产业、技术体系和基础设施) 产业化 覆式创新扩张 ai所处的位置 创新和市场潜力的全面扩张产业范式的颠 新产品和新产业接近成熟,已经构建独立的技术体系 酝酿期 构造范式 成长期 成熟期 技术大爆炸 看得到新技术看得懂新技术 新产品、新产业、新技术体系接连出现并储蓄更新 用得上新技术用得好新技术 中国式新技术 产业发展 数据来源:甲子光年智库2025 算力拐点:deepseek的出现,意味着算力效率拐点显现 deepseek通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。 训练算力(petaflops) 1e12 1e10 palm(540b) megatronturingnlg530b geminiultra gpt claude2 o1 gpt4o 1e08 gpt3175b(davinci) glm130b llama270b baichuan213bbaichuan27b 1e06 1e04 alexnet bertlargetransformer deepseekr1671b deepseekr1distillqwen32bdeepseekr1distillqwen15bb 1e02 2011201220132014201520162017201820192020202120222023202420252026 数据来源:甲子光年智库2025 数据拐点:ai基础大模型的参数量迎来拐点 2025年发布的大模型,都具有低参数量的特征,为本地化部署到ai终端运行提供了可能 图:ai预训练模型的参数规模呈现走势 2025年发布的大模型开始两极分化 llama3400b intraining 4万亿 低参数量 高参数量 deepseekr1671b minimaxtest01 4560 minimaxvl01 4560 gpt1 117亿 bert large gpt2 15亿 facebook 94亿 gpt3 1750亿 新版bert 4810亿 stablelmm6 1750亿 deepseekr1 distillqwen32b 320 phi4140 deepseekr1 distillqwen15b 15 117亿 2018年6月2018年10月2019年2月2019年7月2020年6月2021年12月2023年2024年 25年1月 25年2月 25年3月 2025年1月2025年1月2025年1月 25年4月 25年5月 25年6月 2025年1月2025年1月2025年1月 数据来源:甲子光年智库2025 技术路径的循环:算法创新再次成为新的突破点 ai技术创新一直在围绕核心三要素在动态循环,2025年再次进入算法创新阶段 ai技术成熟度 ? 算法 算力创新 数据创新 算法创新 非transformer的架构模型: 液态神经网络liquidneuralnets 创新 时间 2022年2023年2024年2025年未来 数据来源:甲子光年智库2025 不能因为唐僧克服千难万险步行到西天取到真经就认为需要反思火车飞机的重要性。 02 project 单击此处添加文本单击此处添加 文本单击此处添加文本单击此处 02 llmoragent chattingoracting deepseek的突破边界与浙大先生的未来图景 有了大模型(llm)为什么还需要智能体(agent? ai发展过程 ai大模型正迎来从简单推理到深度思考的时代 起源期萌芽期成长期成熟期 1950s 1980s 1950s 1950s 1956年计算机专家约翰麦卡锡提出“人工智能”概念,并将“ai”首次作为一个学科被提出。 1959年arthursamuel首次提出“机器学习”概念。 1981年富士通推出首 个语音识别功能电脑。 2011年apple公司推出siri虚拟助手。 人脸识别等cv技术得到广泛使用。 2021年chatgpt发布,以其自然语言交互与多场景内容生成能力为核心的llm技术得到广泛关注。 2024年,以deepseekr1openaio1为代表的深度思考模型破圈,人类离agi时代的到来又近了一步。 优化大模型表现的几大手段 大模型在场景落地时,会存在部署推理成本高、专业知识不足、幻觉问题严重等问题因此在专业级市场,需要基于以下手段,提升大模型在垂直领域的表现 模型蒸馏 模型微调rag 是学生通过模仿老师的解题思路,达到和老师相似的知识水平。 适用于将大模型的能力迁移到小模型上,以适配更低端的算力环境。(比如在企业私有云、个人电脑甚至手机、边缘终端上)。 又叫精调,相当于学生意识到自己某门课有短板,然后自己找参考书恶补了一下,从而补上短板。 适用于特定场景下,用特定数据集对通用模型进行小规模训练。 “检索增强生成”。简单来说,就是每次先查资料,再回答问题。 rag,不是训练,不改变大模型的自身能力”,但可以作为外挂,提升大模型回答问题的精准性。 从大模型到智能体,ai应用交互的进化的必然之路 llm:lui交互(自然语言为核心交互方式) 通过语言用户界面,依赖用户给出的清晰明确的指令来完成任务 通过对话式给出输出,但是无法直接完成用户的目标,即只具备“你问我答能力”,无法实现“你说我做” agent:具备自主能力的新一代ai应用 具备推理和规划能力,无需用户给出非常明确的指令 并非辅助用户完成特定任务,而是基于用户提出的目标,自动理解目标并完成用户的任务 有了大模型,还需要智能体 需求 详细分析 目标导向与任务执行 llm通常是基于对输入文本的理解来生成响应,缺乏明确的目标导向和主动执行任务的能力。agent智能体则可以被赋予特定的目标和任务,能够根据环境和用户需求,主动地规划、协调和执行一系列操作来完成任务。例如在智能办公场景中,agent智能体可以根据用户设定的会议安排目标,自动查询参会人员日程、预订