微软终于开始制造定制芯片而且它们都与人工智能有关

导读 传言是真的:微软已经构建了自己的定制人工智能芯片,可用于训练大型语言模型,并有可能避免对英伟达的昂贵依赖。微软还为云工作负载构建了

传言是真的:微软已经构建了自己的定制人工智能芯片,可用于训练大型语言模型,并有可能避免对英伟达的昂贵依赖。微软还为云工作负载构建了自己的基于Arm的CPU。这两款定制硅芯片旨在为其Azure数据中心提供动力,并为公司及其企业客户迎接充满人工智能的未来做好准备。

由于今年对NvidiaH100GPU的需求激增,微软的AzureMaia和Arm驱动的AzureCobaltCPU将于2024年上市,该GPU广泛用于训练和操作生成图像工具和大型语言模型。这些GPU的需求量如此之大,以至于有些GPU在eBay上的售价甚至超过了40,000美元。

“微软在芯片开发方面实际上拥有悠久的历史,”微软Azure硬件系统和基础设施负责人RaniBorkar在接受TheVerge采访时解释道。微软在20多年前就合作开发了Xbox芯片,甚至还为其Surface设备联合设计了芯片。“这些努力都是建立在这种经验的基础上的,”博卡说。“2017年,我们开始构建云硬件堆栈,并开始踏上构建新定制芯片的旅程。”

新的AzureMaia和AzureCobaltCPU均由Microsoft内部构建,并对其整个云服务器堆栈进行了深度检修,以优化性能、功耗和成本。“我们正在重新思考人工智能时代的云基础设施,并真正优化该基础设施的每一层,”博卡说。

AzureCobaltCPU以蓝色颜料命名,是一款128核芯片,基于ArmNeoverseCSS设计构建,并为Microsoft定制。它旨在为Azure上的通用云服务提供支持。“我们投入了大量的精力,不仅让它具有高性能,而且还确保我们关注电源管理,”Borkar解释道。“我们做出了一些非常有意的设计选择,包括控制每个内核和每个虚拟机的性能和功耗的能力。”

微软目前正在MicrosoftTeams和SQLServer等工作负载上测试其CobaltCPU,并计划明年向客户提供虚拟机来处理各种工作负载。虽然Borkar不会与AWS上提供的AmazonGraviton3服务器进行直接比较,但与Microsoft目前用于Azure的基于Arm的服务器相比,应该有一些显着的性能提升。“我们的初步测试表明,我们的性能比目前使用商用Arm服务器的数据中心的性能提高了40%,”Borkar说道。微软尚未分享完整的系统规格或基准测试。

微软的Maia100AI加速器以一颗明亮的蓝色星星命名,专为运行云AI工作负载而设计,例如大型语言模型训练和推理。它将用于为该公司在Azure上最大的一些人工智能工作负载提供支持,包括与OpenAI价值数十亿美元的合作伙伴关系的一部分,其中微软为OpenAI的所有工作负载提供支持。这家软件巨头一直在Maia的设计和测试阶段与OpenAI合作。

OpenAI首席执行官SamAltman表示:“当微软首次分享Maia芯片的设计时,我们感到非常兴奋,我们共同努力用我们的模型对其进行改进和测试。”“Azure的端到端AI架构现已通过Maia优化至芯片,为训练功能更强大的模型并使这些模型对我们的客户来说更便宜铺平了道路。”

Maia采用5纳米台积电(TSMC)工艺制造,拥有1050亿个晶体管,比AMD自己的Nvidia竞争对手MI300XAIGPU的1530亿个晶体管少约30%。“Maia支持我们首次实现低于8位数据类型(MX数据类型),以便共同设计硬件和软件,”Borkar说道。“这有助于我们支持更快的模型训练和推理时间。”

Microsoft是AMD、Arm、Intel、Meta、Nvidia和Qualcomm等组织的成员,该组织正在标准化人工智能模型的下一代数据格式。Microsoft正在开放计算项目(OCP)的协作和开放工作的基础上进行构建,以使整个系统适应人工智能的需求。

“Maia是Microsoft打造的第一个完整的液冷服务器处理器,”Borkar透露。“这里的目标是以更高的效率实现更高密度的服务器。因为我们正在重新构想整个堆栈,所以我们有意考虑每一层,因此这些系统实际上将适合我们当前的数据中心占地面积。”

对于微软来说,更快地启动这些人工智能服务器而无需在世界各地的数据中心为其腾出空间是关键。微软建造了一个独特的机架来容纳Maia服务器主板,并配有一个“助手”液体冷却器,其工作原理就像汽车或高档游戏PC中的散热器一样,用于冷却Maia芯片的表面。

除了共享MX数据类型外,微软还与其合作伙伴共享其机架设计,以便他们可以在内部有其他芯片的系统上使用它们。但Maia芯片设计不会更广泛地共享,微软将这些设计保留在内部。

Maia100目前正在GPT3.5Turbo上进行测试,该模型也为ChatGPT、BingAI工作负载和GitHubCopilot提供支持。Microsoft正处于部署的早期阶段,就像Cobalt一样,它还不愿意发布确切的Maia规范或性能基准。

这使得我们很难准确地解读Maia与Nvidia流行的H100GPU、最近发布的H200,甚至AMD最新的MI300X相比如何。Borkar不想讨论比较,而是重申与Nvidia和AMD的合作关系对于Azure人工智能云的未来仍然非常关键。“在云运行的规模上,优化和集成堆栈的每一层、最大限度地提高性能、实现供应链多样化以及坦白地为我们的客户提供基础设施选择非常重要,”Borkar说。

供应链的多元化对微软来说非常重要,特别是当英伟达目前是人工智能服务器芯片的主要供应商并且各公司一直在竞相购买这些芯片时。据估计,OpenAI需要超过30,000个Nvidia旧版A100GPU才能实现ChatGPT的商业化,因此微软自己的芯片可以帮助其客户降低AI成本。微软还为自己的Azure云工作负载开发了这些芯片,而不是像Nvidia、AMD、英特尔和高通那样出售给其他公司。

“我认为这更多的是互补,而不是与他们竞争,”博卡坚持说。“今天,我们的云计算中既有英特尔也有AMD,同样,在人工智能方面,我们今天已经有Nvidia,我们也将宣布采用AMD。这些合作伙伴对我们的基础设施非常重要,我们真的希望为我们的客户提供选择。”

您可能已经注意到Maia100和Cobalt100的命名,这表明微软已经在设计这些芯片的第二代版本。“这是一个系列,不仅仅是100个就已经完成了……但我们不会分享我们的路线图,”Borkar说。目前尚不清楚微软多久发布一次Maia和Cobalt新版本,但考虑到AI的速度,看到Maia100后续产品的发布速度与NvidiaH200发布的速度相似(大约20个月),我不会感到惊讶。

现在的关键是微软以多快的速度让Maia采取行动,以加快其广泛的人工智能雄心的推出,以及这些芯片将如何影响人工智能云服务的使用定价。微软尚未准备好谈论这款新服务器的定价,但我们已经看到该公司悄悄推出了适用于Microsoft365的Copilot,每位用户每月额外支付30美元。

Microsoft365的Copilot目前仅限于微软最大的客户,企业用户必须承诺至少300名用户才能进入其新的人工智能Office助手的名单。随着微软本周推出更多Copilot功能以及BingChat品牌重塑,Maia很快就能帮助平衡对支持这些新体验的人工智能芯片的需求。