马斯克xAI拟建四倍规模AI超级工厂,明年秋季启动
根据最新报道,马斯克在5月份向投资者展示时透露,他计划在2025年秋季前让超级计算机投入运行,并承诺亲自监督确保按时交付。该超级计算机的芯片组规模预计将是目前最大GPU集群的四倍,比如Meta Platforms用于训练其AI模型的GPU集群。
马斯克曾公开表示,xAI需要多达10万个GPU来训练和运行其下一代Grok。为了使聊天机器人更加智能,马斯克最近向投资者透露,xAI计划将所有这些芯片串联成一台超级计算机,即计算超级工厂(Gigafactory of Compute)。
xAI可能与Oracle合作开发这台超级计算机。xAI一直在与Oracle高管讨论未来几年内可能花费100亿美元租用云服务器的问题。目前,xAI已从Oracle租用了约1.6万台H100芯片服务器,成为Oracle此类芯片的最大客户。
预计这台超级计算机将耗资数十亿美元,并需要充足的电力供应,以与资金雄厚的竞争对手抗衡,这些竞争对手也计划在明年推出类似规模的AI芯片集群,并在未来推出更大的芯片集群。
集群是指单个数据中心内通过电缆连接的众多服务器芯片,以便它们能够以更高效的方式同时进行复杂计算。领先的AI公司和云服务提供商认为,拥有更大、计算能力更强的集群将带来更强大的AI。
xAI的办公室位于旧金山湾区,但决定AI数据中心位置的最重要因素是电力供应。据悉,拥有10万个GPU的数据中心可能需要100兆瓦的专用电力。
这将比传统云计算中心所需的电力要多很多,与云服务提供商目前运行和建设的容纳多个集群的AI中心的能源需求相当,这些数据中心越来越多地建在偏远或非传统的地方,那里的电力更便宜,也更充足。
此前,有消息称微软和OpenAI正在威斯康星州建设一个独立于价值1000亿美元的超级计算机的大型数据中心,竞争成本约为100亿美元,而亚马逊网络服务正在亚利桑那州建设一些AI数据中心。
根据马斯克的时间表,xAI仍落后于对手。到今年年底或明年年初,OpenAI及其主要支持者微软可能已经拥有了马斯克设想的规模的集群。OpenAI和微软还讨论了开发一台价值1000亿美元的超级计算机,规模将是马斯克设想的几倍,包含数百万个Nvidia GPU。
Nvidia CFO Colette Kress已将xAI列入六家客户名单中,这些客户将与OpenAI、亚马逊、谷歌等公司一起率先使用Nvidia的下一代旗舰芯片Blackwell。
目前,xAI正在2万个GPU上训练Grok 2.0,最新版本可以处理文档、图表和现实世界中的物体,未来该模型也将扩展到音频和视频。此外,马斯克4月份与投资者的电话会议上表示,特斯拉还拥有3.5万台Nvidia H100来训练其自动驾驶,并计划在今年年底前将数量增加一倍以上。