[国联证券]：计算机行业专题研究：ai大模型成果不断涌现，agi或将到来 -尊龙凯时人生就博

信息技术2024-05-18黄楷、陈安宇国联证券l***

ai智能总结

" data-src="https://public.fxbaogao.com/report-image/2024/05/18/4311306-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2024/05/18/4311306-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

人机交互体验优化，agi或将到来北京时间5月14日，openai发布了新一代多模态ai大模型gpt-4o，可接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出，响应时间与人类相似，人机交互效果更为自然。北京时间5月15日，谷歌召开年度开发者i/o大会，gemini模型全面升级，发布文生图模型imagen 3、视频生成模型veo，此外全面赋能谷歌应用，包括ai搜索、project astra、gemini live等。国产大模型能力对标gpt-4，成本快速下降腾讯、阿里、字节跳动、商汤、幻方等近期发布了ai产品进展，国产大模型快速迭代升级，性能持续提升，创新成果不断涌现，如商汤日日新sensenova5.0综合性能全面对标gpt-4 turbo，deepseek发布全球最强开源moe模型，阿里云通义千问2.5opencompass得分追平gpt-4turbo。商业化进程持续推进，如月之暗面推出kimi ，minimax上架c端产品“海螺ai”。大模型成本快速下降，如智谱glm-3 turbo模型调用价格调整为0.001元/千tokens，豆包主力模型定价0.0008元/千tokens。多模态能力提升、商业化推进、价格下降是行业发展趋势 aigc的四个核心要素：数据、算力、模型和应用，正在逐步实现正反馈，呈现三大发展趋势。（1）多模态能力提升：大模型向原生多模态发展，带来更好的人机交互体验，拓展更广泛的应用场景；（2）商业化进程加速推进：各大ai厂商加速推进toc端产品、tob端服务的落地，利用ai能力重塑原有产品线；（3）大模型使用价格快速下降：随着模型、算力等的发展，大模型输入、输出价格快速下降，为商业化更好落地奠定了基础。建议关注算力、端侧开发、办公软件、行业信息化等方面机遇（1）算力基础设施建设机遇：大模型商用化进程不断推进，将提升算力需求，建议关注中科曙光、紫光股份、浪潮信息等；（2）端侧ai软件开发机遇：端侧设备将是人机交互的重要中介，带动软件开发机遇，建议关注中科创达等；（3）生产力工具革新机遇：大模型有望重塑员工工作流程、企业组织架构等，建议关注金山办公、用友网络、泛微网络等；（4）行业信息化创新机遇：大模型在行业业务系统方面的应用场景不断扩展，建议关注恒生电子、宇信科技、中控技术、卫宁健康等。风险提示：ai技术发展演进不及预期；商业化进程不及预期；法律政策监管风险；行业竞争加剧等。 1.人机交互体验优化，agi或将到来 1.1gpt-4o迈向更自然的人机交互 gpt-4o实现原生多模态。在gpt-4o之前，用户使用语音模式与chatgpt对话，平均延迟为2.8秒(gpt-3.5)和5.4秒(gpt-4)，其实现是通过三个独立模型组成的管道：一个简单模型将音频转录为文本，gpt-3.5或gpt-4接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源gpt-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。北京时间5月14日凌晨，openai发布了新一代多模态人工智能（ai）大模型gpt-4o，跨文本、视觉和音频端到端训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。图表1：传统语音模式与chatgpt对话的实现方式人机交互效果更为自然。gpt-4o可接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，与人类的响应时间相似。根据基准测试，gpt-4o在文本、推理和编码智能方面实现了gpt-4turbo级别的性能，同时在多语言、音频和视觉功能上达到了新的水平。图表2：gpt-4o在视觉感知基准上实现了最先进的性能免费用户可体验gpt-4o的文本和图像功能。在chatgpt网页端，免费用户可以体验gpt-4o的文本和图像功能，不过额度有限；付费用户的额度是免费用户的5倍。与gpt-4 turbo相比，gpt-4o速度提高2倍，价格降低一半，速率限制提高5倍。官方计划在未来几周内在api中向一小部分值得信赖的尊龙凯时网址的合作伙伴推出对gpt-4o新音频和视频功能的支持。此外chatgpt推出桌面端应用，目前已经有mac原生应用可安装，windows客户端预计会在晚些时候推出。图表3：免费用户可体验gpt-4o的文本和图像功能 1.2谷歌全面升级基础大模型及应用 gemini模型全面升级。北京时间5月15日，谷歌召开了年度开发者i/o大会，发布了一系列ai驱动的产品和功能。gemini模型全面升级：（1）升级版gemini 1.5 pro上下文长度突破200万token，超过目前所有商用大模型；（2）轻量级模型gemini 1.5 flash发布，相较于旧有模型，实现了低延迟响应并降低使用成本，100万tokens只要0.35美元；（3）gemini nano将具备多模态能力。多模态模型方面：（1）谷歌发布文生图模型imagen3模型，能够更准确理解图像的文本提示词，并且生成的图片更具创造性和细节；（2）发布视频生成模型veo，可以根据文本提示创建大约一分钟长的1080p视频剪辑，可捕捉不同的视觉和电影风格，包括风景和延时镜头，并对已生成的镜头进行编辑和调整。图表4：谷歌发布了一系列ai驱动的产品和功能 gemini全面赋能谷歌应用。（1）ai搜索：功能包括搜索摘要、多步推理功能、在搜索中做计划、以及用视频提问等；（2）project astra：通过手机和ar眼镜的联合使用，ai能够在目之所及的范围内完成和用户的实时交互。（3）gemini live：用户可以通过手机和gemini直接进行语音交互，gemini live还能与谷歌日历、任务、备忘录等应用无缝连接。 2.国产大模型能力对标gpt-4，成本快速下降国内互联网头部企业、人工智能创新企业、垂直领域厂商等重视ai产业发展趋势，持续进行研发投入，腾讯、阿里、字节跳动、商汤、幻方等近期发布了ai产品进展。国产大模型快速迭代升级，性能持续提升，创新成果不断涌现，商业化进程持续推进，成本快速下降。 2.1商汤日日新：综合性能全面对标gpt-4 turbo 4月23日，商汤科技带来全新升级的“日日新sensenova 5.0”大模型，具备更强的知识、数学、推理及代码能力，综合性能全面对标gpt-4 turbo，并在主流客观评测上达到或超越gpt-4 turbo。商汤日日新提升能力主要方面：采用混合专家架构（moe），激活少量参数就能完成推理。且推理时上下文窗口达到200k左右。基于超过10tb tokens训练、覆盖数千亿量级的逻辑型合成思维链数据。商汤ai大装置sensecore算力设施与算法设计的联合调优。自然语言能力上，创意写作、推理以及总结能力均大幅提升。文生图能力有较大提升。多模态和数据分析能力上，商汤多模态大模型的图文感知能力达到全球领先水平，在权威综合基准测试mmbench中综合得分排名首位；支持高清长图的解析和理解以及文生图交互式生成，还可以实现复杂的跨文档知识抽取及总结问答展示。图表5：商汤日日新模型综合基准测试综合得分排名首位 2.2幻方量化deepseek：全球最强开源moe模型 5月6日，幻方量化正式开源第二代moe模型:deepseek-v2。该模型中文综合能力（alignbench）开源模型中最强：与gpt-4-turbo，文心4.0等闭源模型在评测中处于同一梯队。英文综合能力（mt-bench）处于第一梯队：英文综合能力（mt-bench）与最强的开源模型llama3-70b处于同一梯队，超过最强moe开源模型mixtral8x22b。知识、数学、推理、编程等榜单结果位居前列。开源模型支持128k上下文，对话尊龙凯时人生就博官网/api支持32k上下文。该模型使用236b参数量，32k上下文（对话/api），费用上采取1元/百万输入tokens，2元/百万输出tokens，同时兼容openai api接口。图表6：deepseek-v2媲美gpt4能力 2.3阿里云通义千问：opencompass得分追平gpt-4turbo 5月9日，在北京阿里云ai智领者峰会上，阿里云正式发布通义千问2.5，并开源通义千问1100亿参数模型。2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%，中文能力更是持续领先业界。通义发布1100亿参数开源模型qwen1.5-110b，该模型在mmlu、theoremqa、gpqa等基准测评中超越了meta的llama-3-70b模型；在huggingface推出的开源大模型排行榜open llm leaderboard上，qwen1.5-110b冲上榜首，再度证明通义开源系列业界最强的竞争力。图表7：阿里云通义千问模型矩阵 2.4腾讯混元：拥抱开源，产业实用 5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源。混元文生图大模型是首个采用中文原生开发，同时支持中英文输入和理解的dit架构模型，参数规模达到15亿。模型采用了与sora模型相同的dit架构，使其不仅适用于文本生成图像，也能作为视频等多模态视觉内容生成的基础。 5月17日，腾讯云生成式ai产业应用峰会在北京召开，公布大模型研发、应用产品的系列进展。腾讯混元大模型能力持续升级，多个版本模型hunyuan-pro、hunyuan-standard、hunyuan-lite通过腾讯云对外开放，满足企业客户、开发者在不同场景下的模型需求，落地最优性价比模型方案。腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大工具发布，打造大模型时代原生工具链，通过paas服务简化数据接入、模型精调、应用开发流程，助力企业更高效、简单地用大模型开发ai原生应用，快速接入生产场景。图表8：腾讯混元模型服务通过腾讯云对外开放 2.5月之暗面kimi：ai agent进一步改善用户应用端体验 5月6日，月之暗面旗下kimi智能助手迎来大更新推出kimi 。kimi 首批上线23个智能体，分别是官方推荐、办公提效、辅助写作、社交娱乐、生活实用5大领域。在输入框里打“@”，就可以召唤出用户所需要的工具人kimi 。kimi与应用端的联动进一步推动了ai应用的发展，从而给客户带来更好的应用体验。图表9：kimi 智能助手 2.6智谱ai：价格大幅下调，glm系列将迎来更新 glm-3 turbo模型调用价格由5元/百万tokens调整为1元/百万tokens，最新价格相当于0.001元/千tokens。公司即将推出glm-3 turbo batch批处理api（异步任务处理），适用于无需实时响应场景，包括效果评估、数据批处理等任务，价格为1元/200万token。公司对于新注册的用户，赠送额度从500万tokens提升至2500万tokens（包含2000万入门级额度和500万企业级额度）。企业版glm-4/glm-4v实现了视觉语言特征的深度融合，支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。在上海人工智能实验室发布的大模型开源开放评测体系司南（opencompass 2.0）中，glm-4综合排名第二，仅次于gpt-4 turbo。图表10：智谱大模型标准版定价 2.7minimax：上线产品对接c端用户，大模型应用端持续拓展 5月15日，大模型公司minimax宣布上架c端产品“海螺ai”，背后接入了minimax自研的多模态大模型，包括万亿参数moe大语言模型abab6.5，语音大模型和图像大模型。该产品支持输入200ktokens的上下文长度，1秒内处理近3万字的文本。可以进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。图表11：minimax发

你可能感兴趣

" data-src="https://public.fxbaogao.com/report-image/2024/03/04/4165207-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-mini;;;" data-srcset="https://public.fxbaogao.com/report-image/2024/03/04/4165207-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy industryimg__app-containers-fxbaogao-detail-industrycard-style-module__ulqfc"/>

计算机行业：谷歌发布基础世界模型，agi浪潮或将加速到来

信息技术

平安证券2024-03-04

信息技术

中原证券2025-01-10

信息技术

国联证券2023-11-02

信息技术

万联证券2024-01-09

天风证券2024-12-23