AI|算力之战:芯片竞赛,如火如荼
作者:微信文章作者:比利·佩里戈(Billy Perrigo)编译:雨雪霏霏
编译自Time,<Artificial Intelligence Special Edition>
拉米·西诺正蹲在文件柜旁,费力地从一个箱子里取出一个沙滩球大小的圆盘。忽然,一声闷响在实验室里响起。
“我刚刚摔了价值几万美元的材料。”他笑着说。
他站起身来,向我展示那件“宝物”:一块金色的硅晶圆片,在实验室的荧光灯下闪闪发光。这个圆形晶圆片被划分成约一百个矩形小片,每片包含数十亿个微型电开关。这些开关便是亚马逊迄今最先进的芯片Trainium 2 的核心。该芯片于 2024 年 12 月正式发布。
多年来,人工智能完全依赖一家芯片公司——英伟达(Nvidia)——来设计训练全球最强 AI 模型所需的高端芯片。但随着 AI 竞赛日趋白热化,亚马逊、谷歌等云计算巨头纷纷加速自研芯片,希望在快速增长的云计算市场中夺取份额。
到 2025 年初,这一行业的估值已高达 1 万亿美元。
这间位于美国德州奥斯汀的普通实验室,正是亚马逊争夺半导体霸权的前线阵地。而西诺是这场战役的关键人物。他是亚马逊云计算服务平台 AWS下属芯片设计公司安纳布尔纳实验室的工程总监。
他戴上护耳罩,刷卡进入一间保密室,自豪地向我展示一组他协同设计的Trainium 2 芯片。这些芯片正在运行。
由于芯片高能耗产生的大量热量被风扇送入空调系统,机器的轰鸣声震耳欲聋,他不得不大声说话。每枚芯片都正好能放进西诺的手掌中,而围绕它们的计算基础设施,包括主板、内存、数据线、风扇、散热片、晶体管和电源让这 64 枚芯片堆叠成的机架高高耸起,发出的噪声淹没了他的讲话。
然而,这个机架只是这些芯片“自然栖息地”的缩影。不久之后,数千台类似冰箱大小的超级计算机将被运往美国各地,互联成一个巨型数据中心集群,即“雷尼尔项目”(Project Rainier)。该项目的名称源自俯瞰亚马逊西雅图总部的雷尼尔山。这将是全球规模最大的 AI 数据中心之一。
算力激战,硝烟四起
“雷尼尔计项目”是亚马逊对 OpenAI 和微软联合推出的“星门计划”(Stargate) 的对标,后者由特朗普总统在 2024 年 1 月于白宫正式宣布,投资高达 一千亿美元。
与此同时,Meta 和谷歌目前也在建设类似的“超大规模”数据中心,每个中心耗资数百亿美元,用于训练新一代强大的 AI 模型。
过去十年,大型科技公司积累了巨额现金,如今,它们正倾尽所有,竞相建设史无前例的 AI 计算基础设施。这将是人类历史上前所未见的算力规模。他们认为,这些基础设施将从根本上改变这个世界。
关于“雷尼尔项目”的具体芯片数量、数据中心总成本及具体地点,亚马逊守口如瓶。(尽管未透露“雷尼尔项目”本身的预算,但公司表示, 2025 年预计投资约 1000 亿美元,其中大部分将投入 AWS。)竞争之激烈可想而知。
亚马逊声称,项目完成后将成为“全球最大的 AI 计算集群”,暗指其规模甚至超过“星门”。当被问及如何看待来自 OpenAI 等竞争者的挑战时,安纳布尔纳实验室的产品总监加迪·赫特回应颇为强硬:“宣布星门很容易,”他说,“但先看看他们能不能真正建出来。”
亚马逊专门为AI 公司 Anthropic设立“雷尼尔项目”。Anthropic已与亚马逊签订长期租约(期限同样保密),计划在这些数据中心里,利用数十万枚 Trainium 2 芯片训练其下一代 Claude 系列 AI 模型。这些芯片的总算力将是现有最强模型系统的五倍。
“规模要大得多,大得多。”Anthropic 联合创始人汤姆·布朗告诉《时代周刊》。
至于这次算力跃升将带来何种结果?不得而知。Anthropic 首席执行官达里奥·阿莫代伊曾公开预测,“强人工智能”(他更喜欢这个说法,而非“通用人工智能 AGI”)可能最早会在 2026 年出现。这意味着,Anthropic 认为,AGI 极有可能诞生自雷尼尔项目或其竞争项目。
Anthropic不仅是亚马逊的客户,也是其投资对象。亚马逊已向 Anthropic 投资 80 亿美元,持有少数股权。而这份投资的相当一部分, Anthropic 反过来将用来支付 AWS 数据中心的租金。这种循环关系揭开了推动 AI 行业发展值得探讨的一面:本质上,亚马逊是通过 Anthropic 来验证其 AI 数据中心业务的可行性。
微软与 OpenAI 的关系、谷歌与 DeepMind 的关系,本质上也相似。
“让最前沿的实验室运行在你的云上,会让你的云变得更好。”布朗说。布朗是Anthropic的联合创始人,管理公司与亚马逊的关系。他将此比作 AWS 与 Netflix 在 2010 年代初的合作:Netflix 当时是 AWS 早期的大客户,为了向全球用户快速传输视频,它对 AWS 的基础设施提出了极高的要求,“这迫使 AWS 优化整个系统,为整个云计算行业铺平道路,”布朗说。
如今,所有的云服务商都想在 AI 时代重演这一模式。“他们都需要有一个人先进入丛林,砍出一条路来,因为此前没人走过。但一旦这条路被打通,后来者就可以轻松通行了。”布朗说。
飞轮效应,谁领风骚
亚马逊投资 Anthropic,后者再把大部分资金花在 AWS 上,这就形成了一个亚马逊口中的“飞轮”:一个自我强化的循环。这个“飞轮”推动更高级芯片的研发与数据中心的建设,降低运行 AI 所需算力的成本,同时体现AI 的商业价值,从长期来讲,也吸引更多客户使用 AWS。
表面上,风光的是 OpenAI、Anthropic 等初创公司,实际上,真正的赢家却是掌握全球云计算平台的几个科技巨头。
当然,亚马逊仍在部分业务上严重依赖英伟达的芯片。而业内普遍认为,谷歌的 TPU 定制芯片性能仍然超过亚马逊的产品。
更复杂的是,亚马逊并不是唯一一家投资Anghropic的科技巨头,谷歌也向 Anthropic 投了 50 亿美元,持股约 14%。因此, Anthropic 同时使用谷歌云和亚马逊云,以避免过度依赖任何一方。尽管如此,雷尼尔项目与 Trainium 2 芯片的推出,仍是亚马逊全力冲击行业领先地位的重要里程碑。
西诺表示,Trainium 2 芯片的设计过程得到Anthropic 的大量反馈,后者向 AWS 分享其软件在 Trainium 1 芯片上的运行细节,并提出对新一代芯片的改进建议。西诺指出,这种紧密合作对 AWS 的客户来说并不常见,但在“前沿 AI”的残酷竞争中却必不可少。因为一个模型的性能与其使用的训练和运行的计算资源成正比:算力越高,性价比越好,AI 模型越强。
“对Anthropic来说,性能每提高一个百分点,价值都巨大。”西诺说,“他们越能高效利用基础设施,投资回报就越高。”
自研芯片,突破困局
亚马逊自研的芯片越先进,就越能减少对英伟达的依赖。多年来,行业龙头英伟达的芯片需求远超供给,价格居高不下,并且可以自由挑选客户。
亚马逊有一个英伟达无法比拟的优势。英伟达直接向客户出售GPU,这意味着每一块 GPU 都必须经过优化,以确保能独立运行。而亚马逊并不直接销售芯片,而是通过 AWS 向客户租赁其数据中心的算力。
“这让我们拥有更大的自由度。”赫特解释说,“与必须让每个 GPU 独立运行的英伟达相比,亚马逊可以在自己的数据中心内统一优化系统,实现更高效率。这是竞争对手难以复制的结构性优势。”
回到实验室,西诺小心地将硅晶圆放回箱中,走到另一边,向我指出正在设计的新一代芯片——Trainium 3各个层面的设计过程。这代芯片可能迅速实现强大的新AI。
他兴奋地一口气列举了各种数据,表示这款预计于 2025 年底发布的芯片速度将提升一倍,能效提高 40%。更令人惊讶的是,Trainium 2 芯片也协助团队的工作,参与Trainium 3 的设计过程。这意味着,AI 正在加速自身的发展,速度越来越快。
“毫无疑问,这就是一个飞轮,”西诺笑着说。
《暖暖秋日》
页:
[1]