为何 GPU 不再是 AI 的主要瓶颈？

现代 AI 系统需在多会话间存储大量上下文数据。尽管 GPU 算力持续增长，但上下文管理已成为关键瓶颈。

AI 基础设施中的上下文层是什么？

这是位于 GPU 内存与传统存储之间的独立高性能存储层，专为快速访问推理上下文数据而优化。

上下文存储采用高密度 SSD，具备可预测延迟，并针对键值缓存（KV-cache）与检索数据进行优化。

人工智能

2026年6月23日

简要回答

AI 系统因上下文数据存储需求激增而面临内存短缺：数据量增长速度已超越 GPU 处理能力。解决方案是在 GPU 与存储之间引入专用高性能上下文层。

Solidigm 专家预测，到 2026 年，AI 系统发展的关键限制将不再是 GPU 算力，而是上下文管理。该公司首席 AI 研究员杰夫·哈托恩表示，上下文数据量的增长速度已超越 GPU 处理能力与模型效率。

现代 AI 智能体在多重关联会话中运行，每次模型调用都会生成需要保存与处理的状态。企业要求上下文数据在会话间持久化，以便审计、管理与复用。这些需求导致上下文数据量远超传统内存容量。

解决方案是在 GPU 内存与网络存储之间划分专用上下文层。该层采用高性能 SSD，专为存储与快速访问键值缓存（KV-cache）及检索数据而优化。Nvidia 已将这一架构命名为 CMX。

传统存储系统（面向 AI 训练设计）无法满足推理需求。训练需求连续写入大数据块，而推理则需细粒度、低延迟的数据访问。新上下文层通过提供可预测性能，降低对昂贵 DRAM 的依赖，并提升 GPU 效率。

专家认为，投资此类存储层能提升 GPU 使用效率。系统无需重复计算上下文，而是通过快速访问已存数据，减轻计算负载并提升有效吞吐量（goodput）。

Dzen 订阅： /feed/dzen.xml · RSS： /feed.xml