亚马逊宣布推出新的 Amazon EC2 Trn2 实例和 Trn2 UltraServers,这是其用于机器学习 (ML) 训练和推理的最强大的 EC2 计算选项。Trn2 实例由第二代 AWS Trainium 芯片(AWS Trainium2)提供支持,速度比第一代 Trn1 实例快 4 倍,内存带宽高 4 倍,内存容量大 3 倍。它们提供的性价比比当前一代基于 GPU 的 EC2 P5e 和 P5en 实例高 30-40%。每个 Trn2 实例都配备 16 个 Trainium2 芯片、192 个 vCPU、2 TiB 内存和 3.2 Tbps 的 Elastic Fabric Adapter (EFA) v3 网络带宽,延迟降低了 50%。Trn2 UltraServers 是一项新产品,配备 64 个 Trainium2 芯片,这些芯片通过高带宽、低延迟的 NeuronLink 互连连接,可在前沿基础模型上实现峰值性能。成千上万个 Trainium 芯片已经为 Amazon 和 AWS 服务提供支持。超过 80,000 个 AWS Inferentia 和 Trainium1 芯片在 Prime Day 为 Rufus 购物助手提供支持。Trainium2 芯片为 Amazon Bedrock 上 Llama 3.1 405B 和 Claude 3.5 Haiku 模型的延迟优化版本提供支持。Trn2 实例在美国东部(俄亥俄州)区域提供,可以使用 Amazon EC2 Capacity Blocks for ML 进行预订。开发人员可以使用预先配置了 PyTorch 和 JAX 等框架的 AWS Deep Learning AMI。现有的 AWS Neuron SDK 应用程序可以重新编译以用于 Trn2。该 SDK 与 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning 和 NeMo 等库集成。Neuron 包括使用 NxD Training 和 NxD Inference 进行分布式训练和推理的优化,并支持 OpenXLA,使 PyTorch/XLA 和 JAX 开发人员能够利用 Neuron 的编译器优化。