NVIDIA A100登陆AWS,开启加速云计算的下一个十年

2020-12-04    来源:多智时代

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

十年前,AWS(Amazon Web Services)发布了首个采用 NVIDIA M2050 GPU 的实例。当时,基于 CUDA 的应用主要专注于加速科学模拟,AI 和深度学习还遥遥无期。

自那时起,AW 就不断扩充云端 GPU 实例阵容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。

现在,已全面上市的全新 AWS P4d 实例采用最新 NVIDIA A100 Tensor Core GPU,开启了加速计算的下一个十年。

NVIDIA A100登陆AWS,开启加速云计算的下一个十年

全新的 P4d 实例,为机器学习训练和高性能计算应用提供 AWS 上性能与成本效益最高的 GPU 平台。与默认的 FP32 精度相比,全新实例将 FP16 机器学习模型的训练时间减少多达 3 倍,将 TF32 机器学习模型的训练的时间减少多达 6 倍。

这些实例还提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基准测试中一骑绝尘,实现了比 CPU 快 237 倍的性能。

NVIDIA A100登陆AWS,开启加速云计算的下一个十年

每个 P4d 实例均内置八个 NVIDIA A100 GPU,通过 AWS UltraClusters,客户可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可扩展高性能存储,按需、可扩展地同时访问多达 4,000 多个 GPU。P4d 提供 400Gbps 网络,通过使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技术,进一步加速深度学习训练的工作负载。EFA 上的 NVIDIA GPUDirect RDMA 在服务器之间可通过 GPU 传输数据,无需通过 CPU 和系统内存,从而确保网络的低延迟。

此外,许多 AWS 服务都支持 P4d 实例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 还可使用所有 NGC 提供的经过优化的容器化软件,包括 HPC 应用、AI 框架、预训练模型、Helm 图表以及 TensorRT 和 Triton Inference Server 等推理软件。

目前,P4d 实例已在美国东部和西部上市,并将很快扩展到其他地区。用户可以通过按需实例(On-Demand)、Savings Plans、预留实例(Reserved Instances)或竞价型实例(Spot Instances)几种不同的方式进行购买。

GPU 云计算发展最初的十年,已为市场带来超过 100 exaflops 的 AI 计算。随着基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 实例的问世,GPU 云计算的下一个十年将迎来一个美好的开端。

NVIDIA 和 AWS 不断帮助各种应用突破 AI 的界限,以便了解客户将如何运用 AI 强大的性能。

标签: 深度学习 机器学习 机器学习模型 云计算发展 云计算 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:2020中国光子产业高峰论坛将在经开区举办

下一篇:金融企业积极拥抱混合云,安全性和灵活性成为首要考虑因素