您的浏览器禁用了javascript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系尊龙凯时网址。[浙江大学]:人类经验与ai算法的镜像之旅 -尊龙凯时人生就博

[浙江大学]:人类经验与ai算法的镜像之旅 -尊龙凯时人生就博

信息技术2025-03-06陈静远浙江大学e***
尊龙凯时人生就博ai智能总结
" data-src="https://public.fxbaogao.com/report-image/2025/03/06/4726662-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2025/03/06/4726662-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

人类经验与ai算法的镜像之旅 报告提纲 语言的奥秘:人类如何解码世界 从符号到智能:ai的语言理解之路 deepseekv3:大语言模型的构建与进化 deepseekr1:推理模型的诞生与突破 智能体时代:ai如何重塑教育未来 语言对我们有多重要 语言造就了人类,人和动物的根本区别就是人具有创造性地运用语言的能力 语言赋予人类秩序 语言是思维的工具 语言是合作的纽带 如果想要实现通用的人工智能,理解人类使用的不太精确、 可能有歧义、混乱的语言是一个有效途径。 维克多do桑托斯的《是什么让我们成为人类》 语言对我们有多重要,《光明日报》,刘松青,20190601 人类是如何理解语言的? 下雨了我要赶紧回家 “下雨”“家”“收衣服”这些词语,基于我们的经验,在我们大脑中已经建立了固定的神经连接。 人类是如何理解语言的? 下雨了我要赶紧回家收衣服。 人类大脑通过理解每个词语的意思、进行词语组装,从而得到句子的意思,甚至推断出句子背后的含义。因此,理解语言的基础是理解词语及词语间的关联关系。 人类是如何理解语言的? 这个苹果品质真高,已通过欧盟有机认证,每颗果实都带有nfc溯源标签。 人类语言的精准解译与语义歧义的消解具有显著的语境依赖性,需通过系统性整合上下文信息构建语义解析模型。 报告提纲 语言的奥秘:人类如何解码世界 从符号到智能:ai的语言理解之路 deepseekv3:大语言模型的构建与进化 deepseekr1:推理模型的诞生与突破 智能体时代:ai如何重塑教育未来 计算机的数字化世界 计算机理解一切信息的基础是将信息进行数字化。在处理图像时,计算机会将图像的每一个像素转换为数字信号,通常使用颜色的rgb值来表示每个像素。 towardsseamlesscommunicationforsignlanguagesupportarchitecturealgorithmsandoptimization 计算机无法直接理解离散的人类语言 词向量(wordembedding)和词与词之间的位置关系 语言的数字化 man dog cat 欧式距离:两个点(或向量)在空间中的“直线距离”。它反映了两个向量的绝对差异。欧氏距离值越小,说明两个向量越接近; 值越大,说明差异越大。 余弦相似度:两个向量之间夹角的余弦值来衡量它们的相似度。它反映了两个向量的方向是否相似,而不关心向量的大小。更适用于比较两者相似性(如文本相似度)。 词向量及单词之间的相似度 词向量模型的缺陷 在序列数据中,同一个元素处在不同的上下文中意思是不同的。如: 1theanimaldidn’tcrossthestreetbecauseitwastootired那只动物没有过马路,因为它太累了。 2theanimaldidn’tcrossthestreetbecauseitwastoowide那只动物没有过马路,因为马路太宽了。 然而,传统的词向量模型中同一个词只有一个向量,这对于一些词语会造成歧义问题,如何解决这个问题呢? httpsjalammargithubioillustratedtransformer 注意力机制与上下文建模 大语言模型通过使用transformer架构,可以为每个词生成一个上下文相关的词向量,这解决了传统词向量无法处理多义词和上下文依赖的问题。 一个单词的真实含义,不仅仅取决于它自身,还取决于句子中的其它上下文信息(来自其它单词的信息)。 一个单词的向量值,需要融合从句子上下文中的其他单词中的信息,在数学上可以表达为所有单词的向量值的加权平均。这些权重值,我们可以称之为注意力权重attentionweights。 it与其他单词之间的注意力权重。蓝色的深浅表达了权重的相对大小。 httpsjalammargithubioillustratedtransformer 报告提纲 语言的奥秘:人类如何解码世界 从符号到智能:ai的语言理解之路 deepseekv3:大语言模型的构建与进化 deepseekr1:推理模型的诞生与突破 智能体时代:ai如何重塑教育未来 大语言模型(llm)最令人印象深刻的能力是它能够通过对话的方式回答用户的问题。那么llm回答问题的原理是什么呢 不同于传统问答系统中答案来源于现成的网络或者数据库,大语言模型的回答是随着提问的进行自动生成的。 这一点很像文字接龙游戏,大语言模型会基于前面的话不断地生成下一个合成的词汇,直到觉得 不必继续生成为止。 概率 苹果是一种水果吗? 确是苹实的果089 下一个可能的词 对好西的吃瓜00432 没不香错是蕉00956 是的是,的苹果 是的,苹果确实被归类为一种水果。 文字接龙游戏 大语言模型 王一博,chatgpt发展史:从基础神经元到多模态智能体,科学杂志 数学家陶哲轩:大模型不是魔法,是基于概率的猜测机。 那么大模型是如何不断生成下一个词的概率的呢? 001 234 109 实际上,这一过程依赖于模型内部的参数,这些参数通过大量数据的训练来不断调整,蕴含了数据的分布规律,从而使模型能够在特定上下文下预测出最合适的下一个词。并且,当这些参数单元的数量级提升时,系统的认知能力通常会呈现出显著的进化趋势。 deepseekv3满血版是67模型 大模型是如何工作的 苹果是一种水果吗? 是的 大模型的参数实际是什么东西?通俗解释 b:billion10亿 大模型是如何工作的 spreadsheetsareallyouneed:在excel中完全实现了gpt2的前向推理过程。 大模型的参数实际是什么东西?通俗解释 大模型参数是如何通过学习得到的? 希望能够得到一个模型:基于父亲的身高预测儿子的未来身高。 父亲身高 (米) 儿子身高 (米) 165 169 172 175 178 180 183 179 190 183 y0516x08567 (高尔顿) 类似地,大语言模型的参数也是通过大量数据的学习,逐渐调整和优化的,将数据的规律压缩到参数中,以便对新的数据进行更准确地预测和生成合适的输出。 数据集 预训练原始数据 万亿级别词汇 海量数据 指令微调指令数据 数万提示回复对 用户指令,对应回复 奖励函数 对比数据 百万次比较 强化学习 指令数据 十万次指令 算法 语言模型预训练预测下一个词 语言模型监督微调预测下一个词 二元分类模型 预测偏好一致的奖励 强化学习 生成最大化奖励的词 模型基座模型 训练 耗时 千级别gpu,数月示例:gpt、llama、 palm 指令微调模型 1100个gpu,数天示例:vicuna13b 奖励模型 1100个gpu,数天 强化学习模型 1100个gpu,数天示例:chatgpt,claude 大模型训练流程 stateofgptmicrosoftbuild2023andrejkarpathy 预训练阶段 在模型预训练(pretraining)环节,系统通过整合多种来源的数据资源构建训练集,这些数据涵盖互联网网页、维基百科、书籍、github代码库、学术文献及社区问答平台等各类数据源,形成总量达万亿单词级的多样化语料库。 基于超级计算集群(集成数千块高性能gpu)和分布式训练算法,逐步优化深度神经网络的数千亿参数,最终形成具备通用语义理解能力的基座模型(basemodel)。 deepseekv3模型的训练语料库包含148万亿词元(token)。 若让一个人每秒读1个词:需要47万年才能读完,相当于从智人走出非洲开始昼夜不停读到今天。 假设每个token是一颗沙粒,148万亿颗沙可填满45个北京水立方。 预训练阶段 预训练阶段的训练方法: 完形填空下的自监督学习(selfsupervisedleaning) 在预训练阶段,人工智能模型会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’。 原话:一辆列车缓慢行驶在崎岖的山路上 移除单词:一辆列车行驶在崎岖的山路上预测填空:一辆列车缓慢行驶在崎岖的山路上 指令微调阶段 指令微调阶段的训练方法: 指令微调(instructiontuning),亦称有监督微调(supervisedfinetuning),是一种通过向模型提供明确任务指令来实现参数优化的方法。在此过程中,模型不仅学习输入与输出的映射关系,更重要的是掌握如何理解并执行各类任务指令。 该阶段的训练数据通常由少量高质量样本构成,这些样本包含用户输入的提示词(prompt)及其对应的理想输出response结果,从而确保模型能够准确理解和响应特定任务需求。 指令微调数据示例 提示词(prompt):浙江大学的发展历史? 理想输出(response):浙江大学前身是创立于1897年的求是书院,1914年停办。1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分系科转入中国科学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江大学。 奖励建模和强化学习 奖励建模(rewardmodeling):构建一个能够评估模型生成内容质量的奖励模型(rewardmodel)。 在强化学习阶段,模型通过与奖励模型的交互,优化其生成策略以最大化奖励。主要采用基于人类反馈的强化学习(rlhfreinforcementlearningfromhumanfeedback)方法。模型根据奖励模型的反馈调整参数,从而生成更符合人类偏好的文本。 报告提纲 语言的奥秘:人类如何解码世界 从符号到智能:ai的语言理解之路 deepseekv3:大语言模型的构建与进化 deepseekr1:推理模型的诞生与突破 智能体时代:ai如何重塑教育未来 推理模型:推理模型是指能够进行复杂推理任务的大型语言模型(llms)。 这些模型能够处理需要多步推导、计算或分析的问题,通常涉及多个中间步骤。推理模型不仅能够解决基本的推理问题, 还能应对更复杂的任务,如解 问题:joy能在20分钟内读8页书。她需要多少小时才能读完120页书? 一个小时有60分钟,20分钟可以分成几组呢? 60203组。 所以,joy每小时可以读8页3组 24页。 谜、数学证明等。 推理模型中的中间步骤可以通过两种方式呈现。首先,它们可能会显式地出现在回答中, 如示例所示。其次,一些推理 joy读5个小时才能读完120页。 接着,joy需要读120页,计算她需要的时间: 120245小时。 因此,joy需要5小时才能读完120页书。 型llm(如openai的o1)会进行多次迭代,而这些中间步骤则不会展示给用户。 简单回答带有中间推理步骤的回答 什么是推理模型 understandingreasoningllmssebastianraschka;deepseekr1赏析,潜云思绪 推理模型是怎样炼成的 understandingreasoningllmssebastianraschka;deepseekr1赏析,潜云思绪 推理模型r1zero是怎样炼成的纯强化学习 训练模版 deepseekr1zero的模板。在训练过程中,prompt将被替换为具体的推问题。 激励类型 准确度激励:11?答对2得1分,否则0分 格式激励:是否遵循thinkthink an

关于尊龙凯时网址

发现报告是苏州互方得信息科技有限公司推出的专业研报平台。平台全面覆盖宏观策略、行业分析、公司研究、财报、招股书、定制报告等内容。通过前沿的技术和便捷的产品体验,为金融从业人员、投资者、市场运营等提供信息获取和整合的专业服务。

不良信息举报电话:0512-88971002   举报邮箱:cs@hufangde.com

商务合作、企业采购、机构入驻、报告发布 > 添加微信:hufangde04

联系尊龙凯时网址

联系客服

0512-88971002(工作日9:00-18:00)

hfd04@hufangde.com

中国(江苏)自由贸易试验区苏州片区苏州工业园区旺墩路269号星座商务广场1幢圆融中心33楼

微信公众号

发现报告

微信公众号

发现报告商业局

© 2018-2025 苏州互方得信息科技有限公司

||

网站地图