失眠网 > AI算力霸主诞生！英伟达发布首款安培架构GPU 性能提升20倍

AI算力霸主诞生！英伟达发布首款安培架构GPU 性能提升20倍

时间：2022-08-19 20:05:08

来源：雷锋网

由于疫情缘故，本该在今年3月英伟达（NVIDIA）GTC 上发布的安培（Ampere）架构曝光多次却一直未发布。

5月15日，英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培，并带来了基于安培架构GPU A100的DGX-A100 AI系统。

此次GTC 最重磅的产品是安培架构GPU A100，这是目前全球最大的7nm芯片，面积高达826平方毫米，集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升，并且可以同时满足AI训练和推理的需求。

第八代安培GPU架构性能提升高达20倍

“A100 是迄今为止人类制造出的最大 7nm制程芯片，集AI训练和推理于一身，并且其性能相比于前代产品提升了高达20倍。”黄仁勋说。

就具体参数来看，A100 采用目前最先进的台积电（TSMC）7nm工艺，拥有 540 亿个晶体管，20倍AI算力。而且它是一块 3D 堆叠芯片，面积高达 826mm^2，GPU的最大功率达到 400W。

除了性能提升，安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时，降低数据中心的成本。”

上一次英伟达发布如此性能强大的GPU芯片还是的Tesla V100。在英伟达看来，自Volta 架构的Tesla V100推出后，业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在。

除此之外，A100还有另外四大关键特性：

具有TF32的第三代Tensor Core核心，英伟达广泛采用的Tensor Core核心现在已变得更加灵活、快速且易于使用。

多实例GPU-MG，一种全新技术功能，可将单个A100GPU分割为多达七个独立的GPU，为不同规模的工作提供不同的计算力，以此实现最佳利用率和投资回报率的最大化。

第三代NVIDIA NVLInk，使GPU之间的高速联接增加至原来的两倍，实现服务器的高效性能扩展。

结构化稀疏，这种全新效率技术利用AI数学固有的稀疏性，使性能提升了一倍。

对于具有TF32的第三代Tensor Core核心，黄仁勋解释，其功能经过扩展后加入了专为AI开发的全新TF32，它能在无需更改任何代码的情况下，使FP32精度下的AI性能提高多达20倍。

此外，TensorCore核心现在支持FP64精度，相比于前代，其为HPC应用所提供的计算力比之前提高了多达2.5倍。

凭借这些新功能，英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

第三代AI系统DGX A100

英伟达推出了第三代AI系统DGX A100，高达5 Petaflops（每秒一千万亿（10的15次方）次浮点运算）的Al性能刷新的全球最高激励，并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。

DGXA100系统集成了8个A100 Tensor Core GPU, 具有320GB内存用以训练最大型的AI数据集，以及速度可达200Gbps MeLLanox HDR互连。

另外，利用A100的多实例GPU功能，每台DGXA100系统能够被分割为多达56个实例，用于加速多个小型工作负载的处理速度。

凭借这些功能，企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源，加快数据分析、训练和推理等各种工作负载的速度。

DGX A100有6大技术特性：

8 个 NVIDIA A100 TensorCore GPU, Al 性能达 5PetafLops, GPU 内存共 320GB ,有着每秒 12.4TB的带宽。

6 个采用第三代NVIDIA NVLink技术的NVIDIA NVSwitch互联结构，4.8TB每秒的双向带宽

9个 MeLLanox ConnectX-6 HDR 200Gb/s网络接口，提供总计每秒3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎，例如RDMA、GPUDirect,以及SHARP技术，实现最高性能和可扩展性。

15TB Gen4 NVMe 内存，速度比 Gen3 NVMe SSDs 快 2 倍。

NVIDIA DGX软件堆栈，其中包括专为AI和数据科学工作负载而优化的软件，能够实现性能的最大化，使企业能够更快获得AI基础架构投资回报。

黄仁勋说，通过一个价值100万美元由5个DGX A100系统组成的机架，可以取代当下价值1100万美元，由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且，功耗也可以由630kW大幅降低至28kW。

也就是说，5个DGXA100组成的系统，实现相同的性能，耗电量为现有数据中心系统的1/20，空间为1/25，成本为1/10。

据悉，DGXA100的首批订单将送往美国能源部的阿贡国家实验室(Argonne National Laboratory)，该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。

其他更新

此外，面向边缘AI市场，英伟达此次GTC 推出了两款计算平台，分别是适用于较大型商业通用服务器上的EGX A100和适用于微型边缘服务器的微型EGX Jetson Xavier NX。

英伟达还展示了新一代DGXSuper POD，这个集群由140台 DGXA100系统组成，AI算力高达700 Petaflops，利用 MeLLanox HDR 200Gbps InfiniBand 互连技术，NVIDIA 将 140 台 DGX A100 系统结合在一起，构建了 DGXSuper POD AI超级计算机，用于内部对话式AI、基因组学和自动驾驶等领域的研究。

除了上述以外，英伟达还推出了：

GPU加速应用框架——NVIDIA Jarvis

开源社区合作，为Apache Spark 3.0提供端到端GPU加速

NIVIDIA医疗平台Clara重大性能拓展

25/50 Gb/s智能以太网卡NVIDIA Mellanox ConnectX-6LxSmartNIC

参考链接：

/c/7wTlxgyKrPF

END

备注：部署

模型压缩与应用部署交流群

模型压缩、网络压缩、神经网络加速、轻量级网络设计、知识蒸馏、应用部署、MNN、NCNN等技术，

若已为CV君其他账号好友请直接私信。