您的浏览器禁用了javascript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系尊龙凯时网址。[国联证券]:计算机行业专题研究:ai大模型成果不断涌现,agi或将到来 -尊龙凯时人生就博

[国联证券]:计算机行业专题研究:ai大模型成果不断涌现,agi或将到来 -尊龙凯时人生就博

信息技术2024-05-18黄楷、陈安宇国联证券l***
尊龙凯时人生就博ai智能总结
" data-src="https://public.fxbaogao.com/report-image/2024/05/18/4311306-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2024/05/18/4311306-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

人机交互体验优化,agi或将到来 北京时间5月14日,openai发布了新一代多模态ai大模型gpt-4o,可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出,响应时间与人类相似,人机交互效果更为自然。北京时间5月15日,谷歌召开年度开发者i/o大会,gemini模型全面升级,发布文生图模型imagen 3、视频生成模型veo,此外全面赋能谷歌应用,包括ai搜索、project astra、gemini live等。 国产大模型能力对标gpt-4,成本快速下降 腾讯、阿里、字节跳动、商汤、幻方等近期发布了ai产品进展,国产大模型快速迭代升级,性能持续提升,创新成果不断涌现,如商汤日日新sensenova5.0综合性能全面对标gpt-4 turbo,deepseek发布全球最强开源moe模型,阿里云通义千问2.5opencompass得分追平gpt-4turbo。 商业化进程持续推进,如月之暗面推出kimi ,minimax上架c端产品“海螺ai”。大模型成本快速下降,如智谱glm-3 turbo模型调用价格调整为0.001元/千tokens,豆包主力模型定价0.0008元/千tokens。 多模态能力提升、商业化推进、价格下降是行业发展趋势 aigc的四个核心要素:数据、算力、模型和应用,正在逐步实现正反馈,呈现三大发展趋势。(1)多模态能力提升:大模型向原生多模态发展,带来更好的人机交互体验,拓展更广泛的应用场景;(2)商业化进程加速推进:各大ai厂商加速推进toc端产品、tob端服务的落地,利用ai能力重塑原有产品线;(3)大模型使用价格快速下降:随着模型、算力等的发展,大模型输入、输出价格快速下降,为商业化更好落地奠定了基础。 建议关注算力、端侧开发、办公软件、行业信息化等方面机遇 (1)算力基础设施建设机遇:大模型商用化进程不断推进,将提升算力需求,建议关注中科曙光、紫光股份、浪潮信息等;(2)端侧ai软件开发机遇:端侧设备将是人机交互的重要中介,带动软件开发机遇,建议关注中科创达等;(3)生产力工具革新机遇:大模型有望重塑员工工作流程、企业组织架构等,建议关注金山办公、用友网络、泛微网络等;(4)行业信息化创新机遇:大模型在行业业务系统方面的应用场景不断扩展,建议关注恒生电子、宇信科技、中控技术、卫宁健康等。 风险提示:ai技术发展演进不及预期;商业化进程不及预期;法律政策监管风险;行业竞争加剧等。 1.人机交互体验优化,agi或将到来 1.1gpt-4o迈向更自然的人机交互 gpt-4o实现原生多模态。在gpt-4o之前,用户使用语音模式与chatgpt对话,平均延迟为2.8秒(gpt-3.5)和5.4秒(gpt-4),其实现是通过三个独立模型组成的管道:一个简单模型将音频转录为文本,gpt-3.5或gpt-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源gpt-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。北京时间5月14日凌晨,openai发布了新一代多模态人工智能(ai)大模型gpt-4o,跨文本、视觉和音频端到端训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。 图表1:传统语音模式与chatgpt对话的实现方式 人机交互效果更为自然。gpt-4o可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似。根据基准测试,gpt-4o在文本、推理和编码智能方面实现了gpt-4turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的水平。 图表2:gpt-4o在视觉感知基准上实现了最先进的性能 免费用户可体验gpt-4o的文本和图像功能。在chatgpt网页端,免费用户可以体验gpt-4o的文本和图像功能,不过额度有限;付费用户的额度是免费用户的5倍。 与gpt-4 turbo相比,gpt-4o速度提高2倍,价格降低一半,速率限制提高5倍。 官方计划在未来几周内在api中向一小部分值得信赖的尊龙凯时网址的合作伙伴推出对gpt-4o新音频和视频功能的支持。此外chatgpt推出桌面端应用,目前已经有mac原生应用可安装,windows客户端预计会在晚些时候推出。 图表3:免费用户可体验gpt-4o的文本和图像功能 1.2谷歌全面升级基础大模型及应用 gemini模型全面升级。北京时间5月15日,谷歌召开了年度开发者i/o大会,发布了一系列ai驱动的产品和功能。gemini模型全面升级:(1)升级版gemini 1.5 pro上下文长度突破200万token,超过目前所有商用大模型;(2)轻量级模型gemini 1.5 flash发布,相较于旧有模型,实现了低延迟响应并降低使用成本,100万tokens只要0.35美元;(3)gemini nano将具备多模态能力。多模态模型方面:(1)谷歌发布文生图模型imagen3模型,能够更准确理解图像的文本提示词,并且生成的图片更具创造性和细节;(2)发布视频生成模型veo,可以根据文本提示创建大约一分钟长的1080p视频剪辑,可捕捉不同的视觉和电影风格,包括风景和延时镜头,并对已生成的镜头进行编辑和调整。 图表4:谷歌发布了一系列ai驱动的产品和功能 gemini全面赋能谷歌应用。(1)ai搜索:功能包括搜索摘要、多步推理功能、在搜索中做计划、以及用视频提问等;(2)project astra:通过手机和ar眼镜的联合使用,ai能够在目之所及的范围内完成和用户的实时交互。(3)gemini live:用户可以通过手机和gemini直接进行语音交互,gemini live还能与谷歌日历、任务、备忘录等应用无缝连接。 2.国产大模型能力对标gpt-4,成本快速下降 国内互联网头部企业、人工智能创新企业、垂直领域厂商等重视ai产业发展趋势,持续进行研发投入,腾讯、阿里、字节跳动、商汤、幻方等近期发布了ai产品进展。国产大模型快速迭代升级,性能持续提升,创新成果不断涌现,商业化进程持续推进,成本快速下降。 2.1商汤日日新:综合性能全面对标gpt-4 turbo 4月23日,商汤科技带来全新升级的“日日新sensenova 5.0”大模型,具备更强的知识、数学、推理及代码能力,综合性能全面对标gpt-4 turbo,并在主流客观评测上达到或超越gpt-4 turbo。 商汤日日新提升能力主要方面:采用混合专家架构(moe),激活少量参数就能完成推理。且推理时上下文窗口达到200k左右。基于超过10tb tokens训练、覆盖数千亿量级的逻辑型合成思维链数据。商汤ai大装置sensecore算力设施与算法设计的联合调优。 自然语言能力上,创意写作、推理以及总结能力均大幅提升。文生图能力有较大提升。多模态和数据分析能力上,商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试mmbench中综合得分排名首位;支持高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示。 图表5:商汤日日新模型综合基准测试综合得分排名首位 2.2幻方量化deepseek:全球最强开源moe模型 5月6日,幻方量化正式开源第二代moe模型:deepseek-v2。该模型中文综合能力(alignbench)开源模型中最强:与gpt-4-turbo,文心4.0等闭源模型在评测中处于同一梯队。英文综合能力(mt-bench)处于第一梯队:英文综合能力(mt-bench)与最强的开源模型llama3-70b处于同一梯队,超过最强moe开源模型mixtral8x22b。 知识、数学、推理、编程等榜单结果位居前列。开源模型支持128k上下文,对话尊龙凯时人生就博官网/api支持32k上下文。该模型使用236b参数量,32k上下文(对话/api),费用上采取1元/百万输入tokens,2元/百万输出tokens,同时兼容openai api接口。 图表6:deepseek-v2媲美gpt4能力 2.3阿里云通义千问:opencompass得分追平gpt-4turbo 5月9日,在北京阿里云ai智领者峰会上,阿里云正式发布通义千问2.5,并开源通义千问1100亿参数模型。2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力更是持续领先业界。 通义发布1100亿参数开源模型qwen1.5-110b,该模型在mmlu、theoremqa、gpqa等基准测评中超越了meta的llama-3-70b模型;在huggingface推出的开源大模型排行榜open llm leaderboard上,qwen1.5-110b冲上榜首,再度证明通义开源系列业界最强的竞争力。 图表7:阿里云通义千问模型矩阵 2.4腾讯混元:拥抱开源,产业实用 5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源。混元文生图大模型是首个采用中文原生开发,同时支持中英文输入和理解的dit架构模型,参数规模达到15亿。模型采用了与sora模型相同的dit架构,使其不仅适用于文本生成图像,也能作为视频等多模态视觉内容生成的基础。 5月17日,腾讯云生成式ai产业应用峰会在北京召开,公布大模型研发、应用产品的系列进展。腾讯混元大模型能力持续升级,多个版本模型hunyuan-pro、hunyuan-standard、hunyuan-lite通过腾讯云对外开放,满足企业客户、开发者在不同场景下的模型需求,落地最优性价比模型方案。腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大工具发布,打造大模型时代原生工具链,通过paas服务简化数据接入、模型精调、应用开发流程,助力企业更高效、简单地用大模型开发ai原生应用,快速接入生产场景。 图表8:腾讯混元模型服务通过腾讯云对外开放 2.5月之暗面kimi:ai agent进一步改善用户应用端体验 5月6日,月之暗面旗下kimi智能助手迎来大更新推出kimi 。kimi 首批上线23个智能体,分别是官方推荐、办公提效、辅助写作、社交娱乐、生活实用5大领域。在输入框里打“@”,就可以召唤出用户所需要的工具人kimi 。kimi与应用端的联动进一步推动了ai应用的发展,从而给客户带来更好的应用体验。 图表9:kimi 智能助手 2.6智谱ai:价格大幅下调,glm系列将迎来更新 glm-3 turbo模型调用价格由5元/百万tokens调整为1元/百万tokens,最新价格相当于0.001元/千tokens。公司即将推出glm-3 turbo batch批处理api(异步任务处理),适用于无需实时响应场景,包括效果评估、数据批处理等任务,价格为1元/200万token。公司对于新注册的用户,赠送额度从500万tokens提升至2500万tokens(包含2000万入门级额度和500万企业级额度)。 企业版glm-4/glm-4v实现了视觉语言特征的深度融合,支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。在上海人工智能实验室发布的大模型开源开放评测体系司南(opencompass 2.0)中,glm-4综合排名第二,仅次于gpt-4 turbo。 图表10:智谱大模型标准版定价 2.7minimax:上线产品对接c端用户,大模型应用端持续拓展 5月15日,大模型公司minimax宣布上架c端产品“海螺ai”,背后接入了minimax自研的多模态大模型,包括万亿参数moe大语言模型abab6.5,语音大模型和图像大模型。该产品支持输入200ktokens的上下文长度,1秒内处理近3万字的文本。 可以进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。 图表11:minimax发

关于尊龙凯时网址

发现报告是苏州互方得信息科技有限公司推出的专业研报平台。平台全面覆盖宏观策略、行业分析、公司研究、财报、招股书、定制报告等内容。通过前沿的技术和便捷的产品体验,为金融从业人员、投资者、市场运营等提供信息获取和整合的专业服务。

不良信息举报电话:0512-88971002   举报邮箱:cs@hufangde.com

商务合作、企业采购、机构入驻、报告发布 > 添加微信:hufangde04

联系尊龙凯时网址

联系客服

0512-88971002(工作日9:00-18:00)

hfd04@hufangde.com

中国(江苏)自由贸易试验区苏州片区苏州工业园区旺墩路269号星座商务广场1幢圆融中心33楼

微信公众号

发现报告

微信公众号

发现报告商业局

© 2018-2025 苏州互方得信息科技有限公司

||

网站地图