-
拳交 xxx 众人AI算力文书出炉,LLM最爱A100!谷歌坐拥超100万H100等效算力
发布日期:2025-03-02 04:18 点击次数:182新智元报谈拳交 xxx
裁剪:KingHZ
【新智元导读】众人有几许AI算力?算力增长速率有多快?在这场AI「淘金热」中,都有哪些新「铲子」?AI初创企业Epoch AI发布了最新众人硬件估算文书。
AI的物资基础是机器学习硬件,举例图形科罚单元(GPU)和张量科罚单元(TPU)。
据不都备统计,现在众人杰出140款AI加快器,用于建立和部署深度学习期间的机器学习模子。
Epoch AI带来了众人算力的揣摸文书,诓骗公开信息揣摸了众人机器学习硬件的近况和趋势。
除了传统硬件厂商英伟达、AMD等纷纷推出加快卡,一些新兴势力运转「造芯」,算力抓续提高。
除了GPU,硬件类型也丰富了起来。比如,出现了成心科罚张量联想的TPU(张量科罚单元,Tensor Processing Unit)。
文书的主要论断,转头如下:
关键发现:ML硬件的「摩尔定律」
ML硬件每年增长43%
以16位浮点运算预计,机器学习硬件的性能以每年43%的速率增长,每1.9年翻一番。32位性能也存在访佛的趋势。
优化机器学习数字步和洽张量中枢提供了稀零的校阅。
驱动成分还包括晶体管数目的增多和其他半导体制造时间的跨越,以及针对AI责任负载的成心联想。这种校阅缩短了每FLOP的本钱,提高了动力效果,并杀青了大限度东谈主工智能检修。
探花偷拍机器学习硬件在不同精度下的峰值联想性能
性价比每年提高30%
每好意思元性能提高赶快,况兼任何给定精度和固定性能水平的硬件每年都会低廉30%。与此同期,制造商不休推出更精深、更奋斗的硬件。
单元时刻单元价钱下的FLOP
低精度步调是趋势
在使用针对东谈主工智能联想优化的张量中枢和数据步调时,GPU常常速率更快。
与使用非张量FP32比拟拳交 xxx,TF32、张量FP16和张量INT8在总体性能趋势中平均提供约6倍、10倍和12倍的性能提高。
一些芯片以至杀青了更大的加快。举例,H100在INT8时的速率比在FP32时快59倍。
自推出以来,这些校阅约占合座性能趋势校阅的一半。跟着建立东谈主员诓骗这种性能提高,使用较低精度步调(尤其是张量FP16)检修的模子一经变得很常见。
能效每1.9年翻一番
凭据历史数据,顶级GPU和TPU的能效每1.9年翻一番。
就tensor-FP16步调而言,效果最高的加快器是Meta的MTIA(每瓦高达2.1x10^12FLOP/s)和NVIDIA H100(每瓦高达1.4x10^12FLOP/s)。行将推出的Blackwell系列科罚器可能会更有用果,具体取决于其功耗。
模子也各有所好
在Epoch的数据聚会,NVIDIA A100是用于高援用或起始进东谈主工智能模子的最常用的硬件,自觉布以来已用于65个知名ML模子。
其次是NVIDIA V100,用于检修55个知名模子,其次是谷歌的TPU v3,用于47个。
研究词,揣摸NVIDIA H100到2023年底的销量已杰出A100,因此它可能在不久的明天成为检修模子最受接待的GPU。
不同加快器检修的知名模子数目
2019年于今,不同范畴大模子检修所需算力比较
检修集群限度猛增
用于检修大型说话模子(LLMs)的科罚器数目的显赫增长。
这意味着在短短八年间,检修大型模子所需的科罚器数目增多了20多倍。
四大「算力帝国」?
谷歌、微软、Meta和亚马逊领有极度于数十万个NVIDIA H100的AI算力。
这些联想资源既用于他们里面的AI建立,也用于云客户,包括好多顶级AI推行室,如OpenAI和Anthropic。
谷歌可能领有极度于杰出一百万个H100的联想智商,主要来自他们的TPU。
微软可能领有最大的NVIDIA加快器库存,约为50万个H100当量。
多数的AI联想智商由这四家公司除外的集团共同领有,包括其他云公司如Oracle和CoreWeave,联想用户如特斯拉和xAI,以及列国政府。
之是以重心先容谷歌、微软、Meta和亚马逊,因为他们可能领有最多的联想智商,而其他公司的数据公开较少。
初步责任发现,国法2024年中,谷歌TPU的总算力梗概是英伟达芯片的30%。
英伟达每年不啻翻一番
自2019年以来,NVIDIA芯片的总可用联想智商梗概每年增长2.3倍,从而省略检修越来越大的模子。
也即是说,众人NVIDIA构成的联想智商平均每10个月翻一番。
Hopper这一代NVIDIA AI芯片现在占其所有这个词AI硬件合联想智商的77%。按照这种增长速率,旧的芯片型号在其推出后梗概4年傍边,对累计联想量的孝顺频频会低于一半。
请防备,此分析不包括TPU或其他专用AI加快器,因为这方面的数据较少。TPU可能提供与NVIDIA芯片极度的合联想智商。
按芯片型号判辨,发现现在梗概77%的NVIDIA FLOP/s来自Hopper代际的GPU,如H100。
现在揣摸NVIDIA GPU可提供4e21 FLOP/s的联想智商,约极度于400万个H100。
防备:这些揣摸基于NVIDIA的收入报告文献,并假定不同期代芯片的散播随时刻变化的方式与AI集群数据聚会的方式换取。
英伟达23-24年季度财报
此外,文书发现自2019年以来,联想智商的累计总数(有计划折旧)每年增长2.3 倍。
但仅有计划数据中心销售额,而忽略NVIDIA收入文书中「游戏」(Gaming)销售额带来的联想智商。
公开数据集
Epoch同期公布了机器学习硬件数据集和数据分析源代码。
https://epoch.ai/data/machine-learning-hardware拳交 xxx-documentation#overview
详备数据分析经由,参见下列NoteBook。
https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing
参考贵府:
https://epoch.ai/data/machine-learning-hardware