我爱免费 发表于 2025-4-2 15:22

AI大模型时代,为什么NVIDIA的系统方案独宠外置专业存储?

作者:微信文章




为什么存储对AI如此重要?为什么NVIDIA自己不做存储,而是广泛地与专业存储厂商合作?

文丨舒 帆

近日,NVIDIA推出了NVIDIA AI数据平台,与其认证的存储合作伙伴共同打造定制化AI数据平台,以满足AI推理工作负载的严苛要求。

黄仁勋表示:“数据是 AI 时代各行各业发展的原材料。我们正在与全球领先的存储企业合作,打造在混合数据中心部署和扩展代理式 AI(Agentic AI)所需的新型企业基础设施。”

数据中心 IT 堆栈中,计算、存储和网络是三大核心组件。NVIDIA以GPU+CUDA为核心构建了AI数据中心全栈架构,在计算侧,NVIDIA通过自研GPU和DPU来加速取代CPU算力;网络侧,NVIDIA通过收购Mellanox,加速推广IB网络。

然而在存储侧,NVIDIA并未自研或收购,而是广泛地与DELL EMC/NetApp/Pure Storage等专业的存储厂商合作,从OVX(数据中心推理)、DGX basepod(企业AI训练集群)到DGX superpod(大规模训练集群)再到DGX supercomputer(超大规模训练集群),系统性地构建面向AI的全新的数据存储系统。

本文中,笔者将试图分析,为什么存储对AI如此重要?为什么NVIDIA自己不做存储,而是广泛地与专业存储厂商合作?



01

为什么在NVIDIA的方案架构中,外置专业存储是“必配品”?

1. AI和传统应用不同,传统应用主要是产生数据并存下来,而AI自身新产生的数据很少,主要是利用现有的存量数据,即“喂数据进去,吐出来的是训练好的大模型和token(标记)”。

2. 缺数据,无AI。数据的质量决定了AI的高度。AI需要大量的高质量数据从哪里来?首先最普遍的做法是获取大量的互联网公开数据作为基础性输入,然后最核心的还是结合企业内部的数据,包括核心生产数据和历史存量数据对模型进行训练。

3. 当今企业80%以上的数据仍存放在数据中心,其余少量在边缘和云上。在数据中心,外置专业存储是企业数据的核心载体。因此,只有将 NVIDIA AI 系统与外置专业存储相连,才能快速形成数据的闭环,支撑AI大模型的训练。而在大模型完成训练,面向行业应用落地的时候(如RAG推理),AI应用必须与生产存储相连接,直接调用企业生产数据。因此,无论在大模型的训练阶段,还是行业应用推理阶段,AI系统都必须配套外置专业存储,才能让企业数据,特别是生产数据直接变成AI的“燃料”。

4. 随着AI大模型的加速迭代,参数规模和数据量成万倍的增长,如何快速做好EB级数据的加载和准备,把数据快速喂给大模型成为提升训练效率的瓶颈之一;同时,在训练过程中需要不断保存checkpoint,以便因故障中断/训练效果不达预期时重新训练。对checkpoint的保存和读取速度极大影响了训练效率,而外置专业存储从诞生之初就是为了解决数据的保存和读取问题,一小步性能优化将对AI系统的训练效率带来巨大的提升。

5. 在行业应用推理阶段,由于场景众多、AI新应用层出不穷,如何解决数据pipeline成为关键问题。主流存储厂商均提供跨边缘、数据中心和云的数据流动、统一管理和数据加速功能,简化了AI应用对数据的访问和处理过程,让大模型应用部署和运行更加简单高效。



02

既然存储这么重要,为什么NVIDIA自己不做存储,或者像网络一样直接收购一家存储厂商,而是坚定的与主流存储厂商开展合作?

1. IT产业,全栈通吃不是主流,没有一家厂商可以搞定全部的客户需求,封闭架构无法持久,分层合作才是关键。NVIDIA瞄准的是整个AI数据中心市场,但是它本质上是一家计算平台公司,通过定义好系统架构,开放合作,能够满足不同阶段的多样化客户需求,与伙伴一起共同建设面向未来的数据中心。

2. NVIDIA如果自己重新做一套存储产品,本质上也无法取代客户当前的生产存储,也无法有效利用客户的生产数据。NVIDIA想要的是掌控算力平台,当前联合外置专业存储厂商是上策。

3. 以存储为代表的传统IT厂商,在企业和运营商客户已耕耘二三十年,有大量的客户基础和数据存量,NVIDIA和存储厂商合作,本质上是把原来以CPU为中心的伙伴拉拢到自己身边,通过联合方案,让存储厂商带着NVIDIA的软硬件一起销售,扩大客户和产品覆盖面;同时,存储厂商具备成熟的企业级交付服务能力,这也是NVIDIA所不擅长的。总而言之,NVIDIA和存储的合作是互惠互利、合作共赢的。



启示

即使强如NVIDIA,在构建AI系统的时候,仍然选择了与专业存储厂商合作,就像当年雄霸天下的Oracle数据库,同样也是标配外置专业存储(EMC、华为等)。

这给我们带来启示,对于正在进行AI系统建设的企业而言,无论采用什么算力平台,无论当前的AI集群处于什么阶段,存储的配套建设问题绝对不容忽视,对存储的“小”投入,将带来AI系统效率的“大”提升。

作者:舒 帆

数据存储专委会公众号认证专家,华为数据存储市场洞察与规划专家。

新闻参考:

·《NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施》—— 英伟达中国

https://blogs.nvidia.cn/blog/nvidia-and-storage-industry-leaders-unveil-new-class-of-enterprise-infrastructure-for-the-age-of-ai/

页: [1]
查看完整版本: AI大模型时代,为什么NVIDIA的系统方案独宠外置专业存储?