浙江大学ds系列专题 deepseek技术溯源及前沿探索 主讲人:朱强 浙江大学计算机科学与技术学院 人工智能省部共建协同创新中心(浙江大学)httpspersonzjueducnzhuq 1 一、语言模型 二、transformer 三、chatgpt 四、deepseek 五、新一代智能体 languagemodeling 对于任意的词序列,计算出这个序列是一句话的概率 我们每天都和语言模型打交道: isawacat isawacatonthechair isawacatrunningafteradog isawaca car isawacatinmydream 编码:让计算机理解人类语言 she 1000 只有一个1,其余均为0 is 0100 mom 0001 my 0010 onehotencoding有什么缺点吗? onehotencoding wordembedding 用一个低维的词向量表示一个词 能使距离相近的向量对应的物体有相近的含义 游泳 飞翔 鲸鱼 099 099 005 01 海豚 099 005 093 009 鹦鹉 002 001 099 098 企鹅 098 002 094 03 20维的向量用onehot和wordembedding的方法分别可以表示多少单词? wordembedding abottleoftezginoisonthetableeveryonelikestezgino tezginomakesyoudrunkwemaketezginooutofcorn 结合句子语境我们可以猜测: tezgino是一种由玉米制作的酒精类饮料 1abottleof isonthetable tezginomotoroil 1234 1 1 1 1 1000 2everyonelikes两行内容十分相近 3 makesyoudrunk tortillas 0101 4wemake outofcorn wine 1 1 1 0 两个单词含义相近 基于统计的ngram(1970after) transformer2017after before:p小p猫小p抓小猫p老小猫抓p鼠小猫抓老 2gram:p小p猫小p抓猫p老抓p鼠老 3gram:p小p猫小p抓小猫p老猫抓p鼠抓老 基于神经网络的lstmgru2000after encoderdecoder 常见的深度学习模型框架,可用于解决seq2seq问题 iamprettysmart 隐空间 representation 我很聪明 decoder encoder 可以根据任务选择不同的编码器和解码器(lstmgrutransformer) 一、语言模型 二、transformer 三、chatgpt 四、deepseek 五、新一代智能体 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 jun jun oct feb oct may sepmar nov febmar mar apr dec jan gpt t5flan llamallama31 bert transformer gpt2 gpt35 instrutgpt gpt4 gpt4o 405b openaio1deepseekv3 openaio3 gpt3 chatgpt deepseekr1 transformer:理论架构创新 自注意力机制:支持并行计算全局上下文的理解能力 多头注意力:从多个角度捕捉复杂的语义关系 前馈网络位置编码层归一化:解决了传统模型的诸多局限性 10 httpsblogcsdnnetcf2suds8x8f0varticledetails145695146 attentionisallyouneed nips2017,引用量15万 引入全新注意力机制,改变了深度学习模型的处理方式 decoder encoder 在理解语言任务时,attention机制本质上是捕捉单词间的关系 中国南北饮食文化存在差异,豆花有南甜北咸之分。南方人一般喜欢吃甜豆花 1 2 sheiseatingagreenapple 3 theanimaldidntcrossthestreetbecauseitwastootiredwide 在理解图像任务时,attention机制本质上是一种图像特征抽取 imagesketchgradient13 query:描述要找的书(精准的需求描述) key:书的索引编号 (高效的书籍定位) 场景:你在图书馆想找一本关于“机器学习基础”的书 value:内容的抽取 (由目标任务驱动) 14 httpsnewslettertheaiedgeiopthemultiheadattentionmechanism 大型语言模型简史 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 jun jun oct feb oct may sepmar nov febmar mar apr dec jan gpt t5flan llamallama31 bert gpt2 gpt35 instrutgpt gpt4 gpt4o 405b openaio1deepseekv3 openaio3 transformers gpt3 chatgpt deepseekr1 预训练时代:大力出奇迹(“暴力美学”) bert:bidirectionalencoderrepresentationstransformers gptgenerativepertainedtransformer 自监督算法:mlmntpmae解决海量数据标注问题 bert oct2018 gpt jun2018 representatio generation bert2018 distilbert2019roberta2019 redperbeesernttatio albert2019electra2020 gpt2018 gpt22019 gpt32020 gptneo2021 gpt35chatgpt2022 llama2023 gpt42023 generation t52019 bart2019 mt52021 20n20 maskedlangaugemodeling(mlm)模型会不断地在句子中‘挖去’一个单词,根 据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 原话:一辆列车缓慢行驶在崎岖的山路上 移除单词:一辆列车行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上 maskedautoencoders(mae)通过随机遮盖部分输入数据(如图像)并重建 缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。 遮盖图像 重建图像 19 httpsarxivorgpdf211106377 训练transformer的通用之力 数据是燃料、模型是引擎、算力是加速器 word2vec词向量 引入 selfattention selfsupervisedprompt 人类反馈强化学习 (instructgpt) codex(cot120亿参数) finetune mcp神经元 perceptron dnn rnn lstm transformer 语言大模型llm chatgpt 神经网络早期前向神经网络 seq2seq序列学习循环神经网络 单词之间关联关系 数据:训练中使用了45tb数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。 模型:包含了1750亿参数,将这些参数全部打印在a4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。 算力:chatgpt的训练门槛是1万张英伟达v100芯片、约10亿人民币。 大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。 20 大语言模型(llm) bert系列 googlebard文心一言 largelanguagemodel gpt系列354 gpt4o deepseekv3 gpto1o3deepseekr1 大模型largemodel 多模态大模型(lmm)largemultimodalmodel ddpm dalle3inchatgpt midjourneysora sam交互式demo 科学计算模型sciencemodel alpha系列 alphago围棋 alphastar魔兽争霸 alphafold蛋白质预测 pangulm气象大模型药物分子预测 机理 技术 产品 21 asurveyonlargelanguagemodelswithsomeinsightsontheircapabilitiesandlimitations openai最新15页报告deepseek缩小中美ai差距 22 国际企业 微软 投资openai的gpt40系列 闭源 自研开源小模型phi3mini 开源 亚马逊 自研titan系列 闭源 投资anthropic的claude35系列 闭源 谷歌 gemini系列 闭源 gemma系列 开源 meta llama3系列 开源 mistralai mistrallarge 闭源 mistralmedium 开源 中国企业 阿里 通义千问25系列基础模型、行业模型 开源 qwen05b110b系列开源模型 开源 华为 盘古系列 闭源 腾讯 混元基础模型、行业模型 闭源 混元开源模型 开源 百度 文心一言40模型 闭源 deepseek以一己之力改变了开源和闭源的力量对比:从612个月的代差缩短到13个月 23 12层,每层12个注意头 gpt2做了以下改进: 1增加到48层,使用1600维向量进行词嵌入; 2将层归一化移动到每个子块的输入,并在最终的自注意块后增加一层归一化; 3修改初始化的残差层 权重,缩放为原来的1 ,其中,是残差层的数量; 4特征向量维数从768扩展到1600,词表扩大到50257。 gpt3做了以下优化: 1增加到96层,每层有96个注意头; 2单词嵌入大小从1600增加到12888; 3上下文窗口大小从gpt2的1024增加到2048,并采用交替密度和局部带状稀疏注意模式。 chatgpt基于gpt35: 1chatgpt使用来自人类反馈的强化学习进行训练; 2通过近端策略优化算法进行微调,为信任域策略优化算法带来成本效益。 模型 发布时间 参数量 预训练数据量 gpt1 2018年6月 117亿 约5gb gpt2 2019年2月 15亿 40g gpt3 2020年5月 1750亿 45tb chatgpt 2022年11月 千亿级 百t级 deepseek通过大幅提升模型训练、推理效率,缓解了算力需求 24 一、语言模型 二、transformer 三、chatgpt 四、deepseek 五、新一代智能体 2017 2018 2018 2019 2019 2020 20212022 2022 20232023 2024 2024 2024 2025 1958 jun jun oct feb oct may sepmar nov febmar mar apr dec jan gpt t5flan llamallama31 bert gpt2 gpt35 gpt3 instru