尽管与AWS建立了“关键”合作伙伴关系,但Meta还是利用Microsoft Azure进行AI工作

发布时间:2022-05-26 08:28

Meta 的 AI 业务部门本周在 Microsoft Azure 开设了商店,并宣布了一项战略合作伙伴关系,据称将推进公共云上的 PyTorch 开发。

这笔交易 [ PDF ] 将使马克扎克伯格的伞形公司在 Azure 中运行的数千个 Nvidia GPU 上部署机器学习工作负载。虽然对微软来说是一场胜利,但这种合作关系让人质疑 Meta 对亚马逊网络服务 (AWS) 的承诺到底有多强大。

回到过去的 12 月,Meta 将 AWS 命名为其“关键的长期战略云提供商”。作为其中的一部分,Meta 承诺,如果它收购任何使用 AWS 的公司,它将继续支持他们使用亚马逊的云,而不是强迫他们进入自己的私有数据中心。该协议还包括承诺扩大 Meta 对亚马逊基于云的计算、存储、数据库和安全服务的消费。

AWS-Meta 团队还包括使用 PyTorch 机器学习框架(Meta,当时的 Facebook,于 2016 年发布)优化工作负载的协作,用于部署在云提供商的 Elastic Compute Cloud 和 SageMaker 服务中。

不过,Meta 似乎非常乐意在这个领域发挥作用,在任何它喜欢的地方部署工作负载。猜猜这就是他们所说的多云;它还展示了“关键”和“独家”之间的区别。

本周的公告显示,Meta 在 2021 年开始在 Azure 的 Nvidia A100 加速实例上部署工作负载,以训练 AI 模型。Meta 现在计划将 Azure 上的部署扩展到由 5,400 个 Nvidia 的 80GB A100 GPU 组成的专用集群,以加速 AI 研发为其 AI 业务部门提供“尖端的 ML 训练工作负载”。

事实上,这家社交媒体巨头表示,它训练了3 月份在 Azure 中发布的1750 亿参数OPT-175B自然语言处理转换器模型。

“凭借 Azure 的计算能力和每台 VM 1.6TB/s 的互连带宽,我们能够加速我们不断增长的培训需求,以更好地适应更大、更具创新性的 AI 模型,”Meta 的 AI 副总裁 Jerome Pesenti 在一份声明中说。

虽然微软和 Meta 都没有提供关于未来如何使用大规模 GPU 集群的具体细节,但很有可能,就像这家社交媒体巨头早期的 AWS 合作一样,它将涉及 PyTorch。

除了基础设施交易外,Meta 还表示将与微软合作,以“扩大 PyTorch 在 Azure 上的采用”。

“我们很高兴与 Microsoft 合作,将我们的经验扩展到使用 PyTorch 从研究到生产的客户,”Pesenti 说。

今年晚些时候,微软计划推出 PyTorch 开发加速器,据称这将使在 Azure 上部署框架变得更加容易。

The Register联系 Meta 征求进一步评论;如果我们收到回复,我们会通知您

客户热线:037125966675