谷歌推出第五代AI芯片:提高5倍“训练和运行AI模型”

时间:2023-08-30 19:04 来源:未知 作者:admin 54
       谷歌在旧金山的年度云会议Google Cloud Next上发布了新的人工智能芯片——第五代定制张量处理器(TPU)芯片TPU v5e,用于大模型训练和推理。与上一代芯片相比,TPU v5e每一美元的训练性能提高了2倍,每一美元的推理性能提高了2.5倍。
 
       TPU是谷歌为神经网络设计的专用芯片,经过优化后能够加快机器学习模型的训练和推断速度。自2016年推出第一代TPU以来,谷歌陆续发布了经过优化的版本,并在2022年向开发者提供了定制处理器TPU。云TPU(Cloud TPU)是谷歌云服务的一项功能,适用于需要进行大量矩阵计算的大型复杂深度学习模型训练,例如大语言模型、蛋白质折叠建模和药物研发等。使用云TPU可以帮助企业在实现AI工作负载时节省资金和时间。
 
       此次推出的TPU v5e专为中大型模型训练和推理所需的成本效益和性能而构建。谷歌云表示,该版本芯片的开发重点是提高效率。与上一代TPU v4相比,TPU v5e每一美元的训练性能提高了2倍,每一美元的推理性能提高了2.5倍;同时,成本不到TPU v4的一半。这使得更多组织能够训练和部署更大更复杂的AI模型。客户无需在性能或灵活性方面做出妥协,即可获得这些成本效益。谷歌云将TPU v5e描述为“超级计算机”,最多允许256个芯片互连,总带宽超过400 Tb/s,支持八种不同的虚拟机配置。客户可以根据需求选择适合的配置,服务于各种大语言模型和生成式AI模型。根据速度基准测试,在TPU v5e上训练和运行AI模型的速度提高了5倍。
 
       据科技媒体TechCrunch报道,谷歌云计算和机器学习基础设施副总裁兼总经理马克·洛迈尔(Mark Lohmeyer)表示:“这是迄今为止最具成本效益且易于访问的云TPU。” 洛迈尔强调,谷歌云确保用户能够将其TPU集群扩展到以前无法达到的水平,让客户能够轻松扩展他们的人工智能模型,超越单个TPU集群的物理边界。也就是说,单个大型人工智能工作负载可以跨越多个物理TPU集群,扩展到数万个芯片,并且经济高效。“在云GPU和云TPU方面,我们为客户提供了很多选择和灵活性,以满足我们看到的人工智能工作负载的广泛需求。”
 
       除了新一代TPU,谷歌云还宣布将在下个月推出基于英伟达H100 GPU的A3系列虚拟机,作为GPU超级计算机进行交付,为人工智能大型模型提供动力。