meta算力需求超预期,全球ai训练算力重估。meta董事长兼ceo扎克伯格发布24全年算力卡需求指引,meta将于24年底拥有接近60万颗h100gpu的等效算力,ai算力需求超预期。多模态大模型将拉动ai训练算力需求增长:1)同传统大语言模型的差异点:除文本数据外,需使用大量图像、视频等模态数据进行训练;2)图像训练数据大幅提升训练token量:以beit方法为例,1张图片可以分割为n=hw/p2个2d块(即视为输入的tokens),若将1张224*224大小的图片分割成16*16大小的2d小块,即单一图片相当于(224*224)/(16*16)=196个tokens,图片训练素材的加入,拉动训练token量的大幅增长,进而大幅提升ai训练算力需求;3)视频训练数据大幅提升训练token量:同图像训练素材相比,视频训练素材增加了时间维度,训练过程更加复杂,产生的训练token数量更多,对算力需求更大。 samaltman透露新一代大模型相关进展,模型能力大幅提升。samaltman展望未来两年,人工智能有望在推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制化和个性化三个领域大幅提升,其认为至少在未来5-10年内,ai大模型技术将处于一个非常陡峭的成长曲线上;同时,其透露openai新一代模型将是一个多模态大模型,支撑语音、图像、代码和视频,并在个性化和定制化方面实现重大更新,具备更强的推理能力和更高的准确性;此外,ai大模型的幻觉问题有望在新一代大模型中得到解决。 美国将限制云厂商对华客户提供ai云服务。美国商务部部长ginaraimondo宣布,美国政府正推出一项提案,阻止外国实体,特别是来自中国的实体,使用美国的云计算进行ai大模型的训练。部分国内ai大模型初创公司和国内训练垂类模型的ai应用公司先前多采用租赁海外云厂商ai算力的方式,未来有望自行购买算力卡或租赁国产ai算力进行模型的训练和推理。 海外大厂发布财报,台积电对ai指引乐观。微软、谷歌、meta、亚马逊、intel、amd等海外大厂发布财报,大多数上季度业绩表现出色,24全年资本开支有望上行;其中,微软披露ai推动azure云收入提升6%,台积电预计人工智能年复合增速将达到50%,对ai指引乐观。 投资建议:1)多模态大模型拉动全球算力需求快速增长,叠加美国将限制云厂商对华客户提供ai云服务,国产ai算力迎来发展机会,建议关注国产ai算力龙头公司海光信息;2)大模型能力快速提升,多模态将进一步扩大ai的应用范围,此外,随着ai大模型成本下降与技术发展,ai应用产业将快速进步,建议关注ai应用相关个股,例如金山办公、科大讯飞。 风险提示:宏观经济复苏不及预期;云厂商资本开支不及预期;市场竞争加剧;产品研发不及预期;国产ai算力芯片导入不及预期等。 meta算力需求超预期,全球ai训练算力重估 扎克伯格发布24全年算力卡需求指引,meta算力需求超预期 meta将于24年底拥有接近60万颗h100 gpu的等效算力。2024年1月19日,meta董事长兼ceo扎克伯格在facebook上发表视频,详细介绍了meta在人工智能领域的最新进展和未来规划,聚焦于meta通用人工智能(agi)的追求,以及meta做出了相关战略调整。1)从硬件侧,meta正在积极部署英伟达h100gpu,计划至24年底部署接近35万颗h100gpu,叠加英伟达a100和其他ai芯片,将拥有接近60万颗h100gpu的等效算力,以支撑下一代ai大模型liama3的训练; 2)从组织架构侧,meta将其两大ai研究团队(fair和genai)合并,共同致力于通用人工智能(agi)的构建;3)从智能产品侧,提到了ray-banmeta智能眼镜,关注元宇宙未来的发展。 24年meta算力卡采购数量同比大幅增长,算力需求超预期。根据omdiaresearch统计数据,23年全球大厂纷纷采购h100gpu,其中meta和微软采购15万颗,位居第一;其次,谷歌、亚马逊、oracle、腾讯采购5万颗,主要用于ai云业务的建设以及自研ai大模型的训练需要。根据扎克伯格公布的24年算力卡采购预期, 1)h100gpu:23年公司采购15万颗,24年预计采购20万颗,同比 33.33%,合计24年底在手35万颗h100gpu,对应增量资本支出12.5亿美金(假设单科h100 gpu2.5万美金,增量为5万颗);2)其他等效h100gpu:24年底等效h100gpu数量达到25万颗,包括a100以及将要出货的英伟达h200、amd mi300x等ai芯片,由于h100gpu的性价比优于a100,23年全年metaa100采购数量相对较少,若24年底达到25万颗的等效h100算力,我们认为meta将大量采购英伟达h200、amdmi300x等高性价比芯片。 图1:扎克伯格介绍meta在ai领域的最新进展和规划 图2:23年全年meta采购15万颗h100gpu 多模态大模型拉动ai训练算力需求增长 大模型训练算力测算 训练过程:前向传播(forwardpass)和反向传播(backwardpass)。1)前向传播:输入数据(例如图像、文本等)通过神经网络的各层进行传递,以得到输出结果,包含输入数据与权重矩阵相乘、应用激活函数等操作,目的为将计算网络预测输出,并将其与实际目标值比较,计算损失函数(lossfunction)的值。 2)反向传播:一种高效计算梯度算法,从输出层开始,沿着网络层次结构向输入层反向传播,计算每个权重的梯度(注:梯度表示权重对损失函数贡献的大小); 同时,在计算出所有权重的梯度后,使用优化算法更新权重,达到减小损失函数值的目的。3)计算次数:一次前向传播需要一次计算,一次反向传播需要两次计算(计算梯度 权重更新),则完成一次神经网络迭代需要对所有输入的数据和模型参数进行3次计算;每一次计算就是矩阵运算,对于一次矩阵运算需要进行一次乘法及加法(共计2次浮点运算),即对于每个token、每个模型参数,需要进行2×3 flops=6次浮点运算。以gpt-3大模型训练为例,模型参数量为175b,训练token数量为300b,采用稠密(dense)模型,其需要的训练总算力为175b×300b×6=3.15e flops。4)所需算力卡数量及时间:假设使用业内flops最大的利用率来测算(此处取46.2%),单卡a100 fp16精度下算力为312tflops,则3.15e flops/(312tflops×46.2%×3600s×24h/天)=2.53万张a100/天,即若使用1000张a100,大约训练一遍gpt-3需要25.3天。 表1:芯片利用率情况 表2:公开模型的算力数据 推理过程:主要包括分词(tokenize)、嵌入(embedding)、位置编码(positional encoding)、transformer层、softmax。推理主要计算量在transfomer解码层,对于每个token、每个模型参数,需要进行2×1flops=2次浮点运算,则单词推理算力消耗为模型参数量×(提问tokens 回答tokens)×2。以gpt-3单次推理为例,假设用户每次提问20 tokens,chatgpt回答300 tokens,模型参数量为175b,则单次推理算力需求为175b×(20tokens 300tokens)×2=1.12e flops,若使用单张a100gpu进行推理,假设芯片利用率为46.2%,图像、视频模态拉动ai算力需求增长 多模态大模型:对多模态信息的理解和学习。“模态”概念起源于生物学,指生物通过鼻子、耳朵、眼睛、肢体等不同方式的感官来感知外在世界的各种信息。 在计算机领域中,多模态学习(multimodalmachinelearning,mmml)指通过机器学习的方法处理多个模态接受的信息,从而实现对文本、图像、视频、音频、3d等模态信息的理解和学习。同传统大语言模型的差异点:除文本数据外,需使用大量图像、视频等模态数据进行训练。 1、图像模态 图像训练数据大幅提升训练token量。以beit方法为例,单一图片训练素材可以有两种表达形式,即image patches和visualtokens。 1)imagepatches:将图片分成n=hw/p个展平的2d块,每个imagepatches会被展平成向量,并对其进行线性变换操作,进而得到一系列展平的2d块的序列; 随后使用类bert的子监督训练方式(maskedimage modeling),即随机隐藏部分imagepatches,让模型对隐藏的部分进行预期,进而不断计算预测的patches和真实的patches之间的差异,并将该差异作为loss函数进行反向传播来更新参数。 2)visualtokens:beit通过dvae(discretevariationalautoencoder,核心原理是试图构建一个从隐变量z生成目标数据x的模型)中的imagetokenizer,将单一图片训练素材转化为离散的tokens(即隐变量),再通过生成器(decoder)重建原图。 3)图片对训练数据量的提升:以imagepatches方法为例,1张图片可以分割为n=hw/p个2d块(即视为输入的tokens),其中(h,w)为输入图片的分辨率,(p,p)是2d块的大小,在《beit:bertpre-training ofimage transformers》实际操作中,有1张224*224大小的图片分割成16*16大小的2d小块,即单一图片相当于(224*224)/(16*16)=196个tokens。而在纯文本训练素材中,单一单词约为4/3个token,则1张图片(分辨率224*224)约等于147个单词。根据上文所述,ai训练算力需求=模型参数量×训练token量×6,图片训练素材的加入,拉动训练token量的大幅增长,进而大幅提升ai训练算力需求。 4)增量测算:a)数据量:根据《willwerunoutofdata?ananalysisofthe limitsof scaling datasets inmachine learning(pablo等著,2022年)》披露数据,2022年全球图片数量在5e-2e个,我们取中间值(即1e个),选取常用图片分辨率(1024×768),则单张图片对应(1024*768)/(16*16)=3072个tokens,则全部图片对应3.072e个tokens。b)算力需求:假设使用这些图片数据对一个5000亿参数模型进行训练,则对应的ai训练算力需求=500b×3.072e×6=9.216e flops。c)训练卡需求:以英伟达h100为例,在fp16精度下算力为1979tflops,仍假设芯片利用率为46.2%,则9.216e flops/(1979 tflops×46.2%×3600s×24h/天×30天/月)=38.89万张h100/月,即完成对图片数据的训练需使用38.89万张h100训练一个月(针对单一模型),假设全球有5家厂商使用图片素材进行自研大模型训练,则需要194.45万张h100训练一个月。 图3:多模态大模型对图像的处理 2、视频模态 视频训练数据大幅提升训练token量。以字节跳动最新提出《magicvideo-v2:multi-stagehigh-aestheticvideogeneration》方法为例,该模型是一个多阶段端到端视频生成模型,具体可分为以下4个关键模块: 1)text-to-image模块(文本到图像):从给定的文本提示,生成概括所描述场景的高分辨率图像(分辨率为1024*1024); 2)image-to-video模块(图像到视频):通过文本提示和生成的图像创建关键帧(32帧),使得静态图像动态化(分辨率为600*600); 3)video