谷歌的人工智能超级计算机在速度和可持续性方面能否超越NVidiaA100芯片

导读 谷歌最近发布的一份公告阐述了该公司用于训练人工智能(AI)模型的超级计算机如何比Nvidia的同类系统更快、更节能。谷歌定制设计的张量处理单

谷歌最近发布的一份公告阐述了该公司用于训练人工智能(AI)模型的超级计算机如何比Nvidia的同类系统更快、更节能。

谷歌定制设计的张量处理单元(TPU)芯片目前已是第四代,用于该公司90%以上的人工智能训练工作,使其成为该公司技术的重要组成部分,谷歌现已发表了一篇科学论文概述了该公司如何使用定制开发的光学开关将4,000多个芯片组合在一起来创建超级计算机。

构建人工智能超级计算机的公司正在竞相改善训练大型语言模型所需的数千个芯片之间的连接,这些模型为Google的Bard或OpenAI的ChatGPT等技术提供支持。据谷歌称,其超级计算机可以轻松地动态重新配置芯片之间的连接,这有助于避免问题并提高性能。

在最近的一篇博客文章中,谷歌院士NormJouppi和谷歌杰出工程师DavidPatterson写道:“电路切换可以轻松绕过故障组件。这种灵活性甚至允许我们改变超级计算机互连的拓扑,以加速机器学习的性能(机器学习)模型。”该公司最大的公开披露的语言模型PaLM是通过将其在4,000个芯片的超级计算机中的两台上进行训练的,历时50天。

根据该公司的科学论文,与第四代TPU同时上市的基于NvidiaA100芯片的系统相比,谷歌的芯片速度提高了1.7倍,能效提高了1.9倍。虽然谷歌没有将其第四代TPU与Nvidia目前的旗舰H100芯片进行比较,但该公司暗示,它可能正在开发一款新的TPU,与NvidiaH100竞争,并表示它拥有“健康的未来芯片管道””。