GPT-4被破解了,训练费用和模型架构的秘密被挖了出来?
日期:2023-07-12 14:17:38 / 人气:335
“几个小时前,SemiAnalysis的迪伦·帕特尔(DYLAN PATEL)和迪伦·帕特尔(DYLAN PATEL)发布了一份关于GPT-4的技术信息,包括GPT-4的架构、参数编号、训练成本和训练数据集。本文涉及的GPT-4数据是由他们收集的,数据来源并未公开。仅供参考。
原文翻译如下:
揭开GPT-4:通向开放人工智能架构的工程权衡
OpenAI保持GPT-4架构的封闭,不是因为人类存在一些生存风险,而是因为他们构建的东西是可复制的。事实上,我们预计Google、Meta、Anthropic、Influence、Character、腾讯、字节跳动和百度都将在短时间内拥有像GPT-4一样强大的模型。
别误会,OpenAI有惊人的工程技能。他们建造的东西令人难以置信,但他们提出的解决方案并不神奇。这是一个优雅的解决方案,有许多复杂的权衡。做大只是战斗的一部分。OpenAI最持久的护城河是,他们拥有最真实的使用情况和领先的工程人才,可以通过未来的模型继续保持领先。
我们从许多来源收集了许多关于GPT 4号的信息,今天我们想与大家分享。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集构成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实现技术以及它们如何缓解一些问题。他们最大的瓶颈与巨型模型的推理有关。
GPT-4最有趣的方面是理解他们为什么做出某些架构决策。
此外,我们将对A100进行概述。
GPT-4的训练和推理成本,以及如何在下一代模型架构中使用H100对其进行扩展。
首先,问题陈述。从GPT-3到4,OpenAI希望扩大100倍,但问题是成本。密集变压器模型不再进一步展开。Dense transformer是OpenAI GPT-3、Google PaLM、Metalama、TII猎鹰、MosaicML MPT等使用的模型架构。我们可以很容易地说出50家使用相同框架培训LLM的公司。这是一个很好的方法,但是在推广上有缺陷。
从训练成本的角度,请参考我们在GPT-4公布之前对即将到来的密集模型AI砖墙训练成本的讨论。在那里,我们揭示了OpenAI在GPT-4架构中所做的高水平工作,以及各种现有模型的培训成本。
在过去的六个月里,我们已经意识到培训费用是无关紧要的。
当然,从表面上看,花费数千万甚至上亿美元的计算时间来训练模型似乎很疯狂,但对于这些公司来说,这是微不足道的。它实际上是一个资本支出项目,规模扩张可以持续带来更好的结果。唯一的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。
未来几年,谷歌、Meta、OpenAI/微软等多家公司将在价值超过1000亿元的超级计算机上训练模型。Meta每年在“元宇宙”上烧掉160多亿美元,Google每年在各种永远不会有结果的项目上浪费100亿美元。亚马逊在Alexa上损失超过50亿美元。加密货币在没有价值的东西上浪费了超过1000亿美元。
这些公司和整个社会可以并将花费超过1000亿美元来创建可以训练单个大规模模型的超级计算机。那么这些大的模型可以通过很多方式进行产品化。这项工作将在许多县和公司重复进行。这是一场新的太空竞赛。以前的废物和现在的区别在于,人工智能可以在短时间内从人类助手和自主智能体中带来切实的价值。
扩展人工智能(真正的人工智能砖墙)更重要的问题目标是将训练计算和推理计算分开。这就是为什么训练龙猫对任何要部署的模型都是最好的。这就是为什么需要稀疏模型架构;在推理过程中,每个参数都不会被激活。
真正的战斗是,将这些模式扩展到用户和代理商的成本太高。推理的成本是训练的好几倍。这是OpenAI在模型架构和基础设施方面的创新目标。
大规模模型的推理是一个多变量问题,其中模型规模会导致稠密模型的死亡。
我们已经在这里详细讨论了与边缘相关的问题,但是数据中心的问题陈述非常相似。简而言之,设备永远没有足够的内存带宽来容纳大型语言模型,以达到一定的吞吐量水平。即使他们有足够的带宽,边缘硬件计算资源的利用率也会很差。
在数据中心和云中,利用率就是一切。Nvidia之所以被称赞软件优秀,一半原因是在几代GPU的生命周期中,Nvidia不断更新底层软件,通过更智能地在芯片周围和芯片与内存之间移动数据,提高FLOPS的利用率。
目前,大多数用例中的LLM推理是作为实时助手运行的,这意味着它必须实现高吞吐量,用户才能实际使用它。人类平均每分钟阅读约250个单词,但有些人每分钟阅读速度高达约1000个单词。这意味着你至少需要每秒输出8.33个令牌,但是你需要每秒输出33.33个令牌来覆盖所有极端情况。
由于内存带宽的要求,即使在最新的Nvidia H100 GPU服务器上,万亿参数密集型模型也无法在数学上实现这一吞吐量。每个生成的令牌需要将每个参数从存储器加载到芯片。然后,在提示符中输入生成的令牌,并生成下一个令牌。此外,注意机制的KV缓存中的流传输需要额外的带宽。
上图显示了推理具有足够高的吞吐量的LLM为单个用户提供服务所需的内存带宽。说明即使是8X100也无法以每秒33.33个令牌的速度提供1万亿的参数密集型模型。另外,每秒20个令牌的8xH100的FLOPS利用率仍然低于5%,导致推理成本非常高。事实上,目前的8通道张量并行H100系统有大约3000亿个前馈参数的推理约束。
但是,OpenAI正在通过A100。
要达到人类的阅读速度,它的模型有超过1万亿个参数,而且是基于每
1000个代币以0.06美元的低价随处可见。那是因为它比较稀疏,并不是每个参数都用IE。
废话够多了。让我们谈谈GPT-4模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标签计数、层数、并行策略、多模态视觉编码器、不同工程权衡背后的思维过程、独特的实现技术,以及它们如何缓解与大规模模型推理相关的一些最大瓶颈。
总结关于GPT 4号的主要信息(总结来自Yam Peleg的推文):
参数个数:GPT-4比GPT-3大10倍,估计参数个数约120层,1.8万亿。MoE架构:即专家混合架构。这部分信息已经得到证实。OpenAI通过使用MoE架构来维持一定的成本,包括16个专家,每个专家都是一个MLP.2,大约有1110亿个参数。每个前向传播被路由到这些专家。MoE路由:虽然公开的技术文档中提到了很多高级路由功能,包括如何为每个令牌选择每个专家等。但是现有的GPT-4实际上非常简单,这是关于为每个注意力共享550亿个参数的方式。推理:每次正向传播推理(生成一个令牌)需要2800亿个参数和560 TFLOPS,与纯密集模型形成鲜明对比,纯密集模型每次正向传输大约需要1.8万亿个参数和3700 TFLOPS。训练数据集:GPT-4在大约13万亿个令牌上进行训练。这不是指不同的令牌数,而是指根据历元计算使用的令牌数。基于文本的数据集在epoch中训练了两次,基于代码的数据集在epoch中训练了四次。GPT-4 32K:每个预训练阶段是8K长。32K的版本是经过8K预训练模型后微调的。批量大小:批量大小逐渐增加,在集群中达到一个值需要几天时间。最终OpenAI的批量达到了6000万!也就是说,每个专家大约有750万个代币,但并不是每个专家都能看到所有的代币。并行策略:由于NVLink的限制,OpenAI训练GPT-4做8路张量并行和15路流水线并行。训练费用:OpenAI训练的GPT-4的FLOPS大概是2.15e25,在25000台a100上训练时间大概是90-100天(MFU大概是32%到36%)。如果一架A100大约1美元,训练费用大约6300万美元(如果现在使用H100,可能只需要2150万美元)。MoE的选择:用了MoE之后,做了很多选择,包括推理的难度,因为每个模型都是用来生成文本的。这意味着生成时有些可以使用,有些闲置,对于使用来说是非常浪费的。研究表明,64-128名专家的损失比16名专家的损失要好。GPT-4的推理成本比戴维奇(GPT-3/3.5系列)的1750亿高3倍,主要是GPT-4的集群太大,利用率有点低。据估计,约1k令牌的成本为0.0049美元(128 A100)。moa:多问关注和大家一样,正常使用MOA。因为只需要一个头,显存大大减少,但是32K还是跑不了A100 40G。连续配料:OpenAI使用可变批量和连续浴法。推理成本和推理速度可以平衡。视觉多模态:GPT-4的多模态部分是具有交叉注意的单视觉编码器。1.8万亿GPT-4的参数扩展到2万亿左右。VisionModel是从零开始训练的,不够成熟。视觉部分的功能之一是让代理制作每月网页,然后转换成图片和视频。部分数据基于Latex和截屏训练。还有YouTube视频,包括whisper翻译的脚本和帧提取结果。推理架构:推理运行在128个GPU集群上,不同区域有不同的集群。每个节点有8个GPU,包括一个有1300亿个参数的模型。或者每个GPU小于30GB的FP16,小于15GB的FP8/int8。"
原文翻译如下:
揭开GPT-4:通向开放人工智能架构的工程权衡
OpenAI保持GPT-4架构的封闭,不是因为人类存在一些生存风险,而是因为他们构建的东西是可复制的。事实上,我们预计Google、Meta、Anthropic、Influence、Character、腾讯、字节跳动和百度都将在短时间内拥有像GPT-4一样强大的模型。
别误会,OpenAI有惊人的工程技能。他们建造的东西令人难以置信,但他们提出的解决方案并不神奇。这是一个优雅的解决方案,有许多复杂的权衡。做大只是战斗的一部分。OpenAI最持久的护城河是,他们拥有最真实的使用情况和领先的工程人才,可以通过未来的模型继续保持领先。
我们从许多来源收集了许多关于GPT 4号的信息,今天我们想与大家分享。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集构成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实现技术以及它们如何缓解一些问题。他们最大的瓶颈与巨型模型的推理有关。
GPT-4最有趣的方面是理解他们为什么做出某些架构决策。
此外,我们将对A100进行概述。
GPT-4的训练和推理成本,以及如何在下一代模型架构中使用H100对其进行扩展。
首先,问题陈述。从GPT-3到4,OpenAI希望扩大100倍,但问题是成本。密集变压器模型不再进一步展开。Dense transformer是OpenAI GPT-3、Google PaLM、Metalama、TII猎鹰、MosaicML MPT等使用的模型架构。我们可以很容易地说出50家使用相同框架培训LLM的公司。这是一个很好的方法,但是在推广上有缺陷。
从训练成本的角度,请参考我们在GPT-4公布之前对即将到来的密集模型AI砖墙训练成本的讨论。在那里,我们揭示了OpenAI在GPT-4架构中所做的高水平工作,以及各种现有模型的培训成本。
在过去的六个月里,我们已经意识到培训费用是无关紧要的。
当然,从表面上看,花费数千万甚至上亿美元的计算时间来训练模型似乎很疯狂,但对于这些公司来说,这是微不足道的。它实际上是一个资本支出项目,规模扩张可以持续带来更好的结果。唯一的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。
未来几年,谷歌、Meta、OpenAI/微软等多家公司将在价值超过1000亿元的超级计算机上训练模型。Meta每年在“元宇宙”上烧掉160多亿美元,Google每年在各种永远不会有结果的项目上浪费100亿美元。亚马逊在Alexa上损失超过50亿美元。加密货币在没有价值的东西上浪费了超过1000亿美元。
这些公司和整个社会可以并将花费超过1000亿美元来创建可以训练单个大规模模型的超级计算机。那么这些大的模型可以通过很多方式进行产品化。这项工作将在许多县和公司重复进行。这是一场新的太空竞赛。以前的废物和现在的区别在于,人工智能可以在短时间内从人类助手和自主智能体中带来切实的价值。
扩展人工智能(真正的人工智能砖墙)更重要的问题目标是将训练计算和推理计算分开。这就是为什么训练龙猫对任何要部署的模型都是最好的。这就是为什么需要稀疏模型架构;在推理过程中,每个参数都不会被激活。
真正的战斗是,将这些模式扩展到用户和代理商的成本太高。推理的成本是训练的好几倍。这是OpenAI在模型架构和基础设施方面的创新目标。
大规模模型的推理是一个多变量问题,其中模型规模会导致稠密模型的死亡。
我们已经在这里详细讨论了与边缘相关的问题,但是数据中心的问题陈述非常相似。简而言之,设备永远没有足够的内存带宽来容纳大型语言模型,以达到一定的吞吐量水平。即使他们有足够的带宽,边缘硬件计算资源的利用率也会很差。
在数据中心和云中,利用率就是一切。Nvidia之所以被称赞软件优秀,一半原因是在几代GPU的生命周期中,Nvidia不断更新底层软件,通过更智能地在芯片周围和芯片与内存之间移动数据,提高FLOPS的利用率。
目前,大多数用例中的LLM推理是作为实时助手运行的,这意味着它必须实现高吞吐量,用户才能实际使用它。人类平均每分钟阅读约250个单词,但有些人每分钟阅读速度高达约1000个单词。这意味着你至少需要每秒输出8.33个令牌,但是你需要每秒输出33.33个令牌来覆盖所有极端情况。
由于内存带宽的要求,即使在最新的Nvidia H100 GPU服务器上,万亿参数密集型模型也无法在数学上实现这一吞吐量。每个生成的令牌需要将每个参数从存储器加载到芯片。然后,在提示符中输入生成的令牌,并生成下一个令牌。此外,注意机制的KV缓存中的流传输需要额外的带宽。
上图显示了推理具有足够高的吞吐量的LLM为单个用户提供服务所需的内存带宽。说明即使是8X100也无法以每秒33.33个令牌的速度提供1万亿的参数密集型模型。另外,每秒20个令牌的8xH100的FLOPS利用率仍然低于5%,导致推理成本非常高。事实上,目前的8通道张量并行H100系统有大约3000亿个前馈参数的推理约束。
但是,OpenAI正在通过A100。
要达到人类的阅读速度,它的模型有超过1万亿个参数,而且是基于每
1000个代币以0.06美元的低价随处可见。那是因为它比较稀疏,并不是每个参数都用IE。
废话够多了。让我们谈谈GPT-4模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标签计数、层数、并行策略、多模态视觉编码器、不同工程权衡背后的思维过程、独特的实现技术,以及它们如何缓解与大规模模型推理相关的一些最大瓶颈。
总结关于GPT 4号的主要信息(总结来自Yam Peleg的推文):
参数个数:GPT-4比GPT-3大10倍,估计参数个数约120层,1.8万亿。MoE架构:即专家混合架构。这部分信息已经得到证实。OpenAI通过使用MoE架构来维持一定的成本,包括16个专家,每个专家都是一个MLP.2,大约有1110亿个参数。每个前向传播被路由到这些专家。MoE路由:虽然公开的技术文档中提到了很多高级路由功能,包括如何为每个令牌选择每个专家等。但是现有的GPT-4实际上非常简单,这是关于为每个注意力共享550亿个参数的方式。推理:每次正向传播推理(生成一个令牌)需要2800亿个参数和560 TFLOPS,与纯密集模型形成鲜明对比,纯密集模型每次正向传输大约需要1.8万亿个参数和3700 TFLOPS。训练数据集:GPT-4在大约13万亿个令牌上进行训练。这不是指不同的令牌数,而是指根据历元计算使用的令牌数。基于文本的数据集在epoch中训练了两次,基于代码的数据集在epoch中训练了四次。GPT-4 32K:每个预训练阶段是8K长。32K的版本是经过8K预训练模型后微调的。批量大小:批量大小逐渐增加,在集群中达到一个值需要几天时间。最终OpenAI的批量达到了6000万!也就是说,每个专家大约有750万个代币,但并不是每个专家都能看到所有的代币。并行策略:由于NVLink的限制,OpenAI训练GPT-4做8路张量并行和15路流水线并行。训练费用:OpenAI训练的GPT-4的FLOPS大概是2.15e25,在25000台a100上训练时间大概是90-100天(MFU大概是32%到36%)。如果一架A100大约1美元,训练费用大约6300万美元(如果现在使用H100,可能只需要2150万美元)。MoE的选择:用了MoE之后,做了很多选择,包括推理的难度,因为每个模型都是用来生成文本的。这意味着生成时有些可以使用,有些闲置,对于使用来说是非常浪费的。研究表明,64-128名专家的损失比16名专家的损失要好。GPT-4的推理成本比戴维奇(GPT-3/3.5系列)的1750亿高3倍,主要是GPT-4的集群太大,利用率有点低。据估计,约1k令牌的成本为0.0049美元(128 A100)。moa:多问关注和大家一样,正常使用MOA。因为只需要一个头,显存大大减少,但是32K还是跑不了A100 40G。连续配料:OpenAI使用可变批量和连续浴法。推理成本和推理速度可以平衡。视觉多模态:GPT-4的多模态部分是具有交叉注意的单视觉编码器。1.8万亿GPT-4的参数扩展到2万亿左右。VisionModel是从零开始训练的,不够成熟。视觉部分的功能之一是让代理制作每月网页,然后转换成图片和视频。部分数据基于Latex和截屏训练。还有YouTube视频,包括whisper翻译的脚本和帧提取结果。推理架构:推理运行在128个GPU集群上,不同区域有不同的集群。每个节点有8个GPU,包括一个有1300亿个参数的模型。或者每个GPU小于30GB的FP16,小于15GB的FP8/int8。"
作者:恒达娱乐
新闻资讯 News
- 余男:和王全安同居十年黯然分手...12-17
- 四大天王57岁的黎明,唱功逆生长...12-17
- 网红张全蛋回应热搜争议:没有吃...12-17
- 我是刑警:我宁愿多看拒绝秦川饭...12-17