
AI基础设施正从"单芯片性能竞争"迈向"系统级协同编排"的新阶段。随着基础模型突破、企业级AI应用加速落地以及智能体工作流兴起,AI算力需求正在由训练驱动转向推理驱动。推理负载具备持续在线、高并发、强实时和跨节点分布等特征,使GPU集群不再只是硬件资源堆叠,而是需要围绕资源利用率、延迟稳定性、模型执行一致性与SLA保障进行统一调度和运营。
与此同时,中国AI基础设施呈现出日益显著的异构化特征。以范式智能为代表的AI基础设施管理平台,需要面向NVIDIA、昇腾(Ascend)、寒武纪(Cambricon)、海光(Hygon)、天数智芯(lluvatar CoreX)等GPU/AI加速器并行部署环境,推动算力供给更加多元,也带来芯片架构、运行时环境、编译器、算子适配和部署流程的复杂差异。多芯片共存已成为中国AI生态的结构性现实,企业面临资源池割裂、模型重复适配、调度效率不足、服务性能波动和运维成本上升等挑战。

2026年6月,弗若斯特沙利文(Frost & Sullivan,以下简称"沙利文")正式发布《2026年AI基础设施管理平台白皮书》(以下简称《白皮书》)。《白皮书》围绕中国AI基础设施从碎片化走向编排化的产业趋势、异构GPU资源管理、vGPU控制平面、多模型管理工作站、竞争格局及行业实践案例等内容展开系统研究,旨在全面呈现AI基础设施管理平台的发展逻辑、核心能力与落地价值,为行业参与者和关注者提供参考。
微信扫码 获取报告

下文为白皮书部分节选,详细内容可扫描二维码获取完整版:
通过系统梳理,《白皮书》揭示了"多芯片共存、推理规模化、模型生态化"背景下AI基础设施升级的核心脉络:AI算力瓶颈正从"是否拥有GPU"转向"能否高效、稳定、可度量地运营异构算力与模型服务";vGPU控制平面与多模型管理工作站分别从异构算力资源管理和统一模型执行管理两个层面形成互补,推动企业从分散算力孤岛走向统一、可编排、可保障的AI基础设施体系。
01
行业背景:推理爆发推动AI基础设施从芯片性能走向集群级协同
AI工作负载正在快速超越单芯片效率提升所能覆盖的范围。随着基础模型能力提升、企业AI应用普及以及智能体场景扩展,推理需求成为AI算力消耗的主要增量来源。《白皮书》指出,推理型、 reasoning-oriented 模型在真实业务负载中的占比持续提升,用户与AI系统的交互方式正向更复杂、更长链路和更高频的推理任务演进。

资料来源:沙利文分析
由此,AI基础设施扩展逻辑正在发生变化。过去,行业更关注单卡性能、单集群训练能力和硬件采购规模;未来,随着推理服务持续在线、并发请求快速增长、模型部署跨节点分布,系统级调度、资源弹性复用、服务隔离和端到端SLA保障将成为AI基础设施能否规模化落地的关键。AI基础设施正在从"硬件管理"迈向"算力经济学"与"业务结果交付"。
02
行业现状:多芯片共存下,碎片化、低利用率与SLA不稳定成为核心痛点
中国AI基础设施在快速扩容过程中,正在形成国际GPU与国产AI加速器并行部署的格局。一方面,NVIDIA生态在CUDA、cuDNN、TensorRT、NCCL、vLLM等软件栈上具备较强标准化基础;另一方面,国产加速器厂商往往拥有不同的运行时、编译器、算子适配框架和部署路径,跨平台部署复杂度显著提升。
面对异构算力环境,行业需要的不只是更多硬件,而是能够将原始GPU能力转化为SLA可保障AI基础设施的统一控制平面。《白皮书》指出,vGPU的核心价值在于通过标准化、调度、优化和稳定化四个环节,帮助企业把不同厂商、不同架构、不同位置的GPU资源抽象为统一、可分配、可编排的算力单元,从而为后续的资源池化、精细切分、智能调度和确定性执行奠定基础。
在异构计算环境中,AI基础设施正从以硬件资源直接管理为核心的模式,演进为以统一控制平面为核心的分层架构,其中SDC Orchestration Layer负责面向workload进行全局调度与SLA保障,Resource Abstraction Layer将底层异构计算资源进行解耦与标准化抽象,从而屏蔽不同芯片与集群之间的差异,使系统能够基于业务工作负载需求进行动态资源分配与弹性调度,最终实现以workload-centric为导向的统一编排与跨异构环境的稳定交付。

资料来源:沙利文分析
03
vGPU解决方案:面向当前痛点,构建异构算力统一控制平面
GPU已成为AI基础设施的核心资源,但拥有GPU并不等同于拥有可用算力。训练、微调、推理、开发测试等不同工作负载在持续时间、并发模式、延迟要求、显存占用和拓扑依赖上存在显著差异。静态、整卡、分池的资源管理方式容易造成资源闲置、碎片化和交付效率不足,难以支撑生产级AI服务。

资料来源:沙利文分析
Rise vGPU通过抽象、编排、优化和确定性执行四层能力,将不同厂商、架构、集群和位置的GPU及AI加速器转化为标准化、可分配的算力单元。在抽象层,vGPU将物理GPU的算力和显存切分为更细粒度的资源片,使推理、开发测试及轻量任务能够按需共享同一张物理卡;在编排层,平台结合业务优先级、拓扑关系、实时负载和资源适配度进行调度,提升任务放置效率和服务可预测性。

资料来源:沙利文分析
在优化层,Rise vGPU通过细粒度切分、超分、时空复用、动态回收和弹性复用,将原本静态预留的闲置能力转化为可运营、可计量的有效算力;在确定性执行层,平台通过资源隔离、争抢控制、租户隔离和SLA导向执行,保障关键任务获得稳定算力供给,降低"噪声邻居"影响。相较于原生Kubernetes偏粗粒度的GPU设备调度,Rise vGPU补足了异构加速器资源控制层,使GPU能够被池化、切分、调度、隔离、计量和治理。
04
多模型管理工作站解决方案:面向未来模型生态,支撑多模态与大规模模型管理
算力编排并不能单独解决企业AI落地的全部问题。随着企业同时采用基础模型、微调模型、行业模型、自研模型和第三方模型,AI系统正在从单模型部署走向大规模模型生态。不同模型在推理框架、运行时环境、显存占用、延迟需求、吞吐要求和业务场景上存在差异,模型执行一致性正在成为AI基础设施的重要能力。
多模型管理工作站面向多模型、多运行时、多芯片环境提供统一执行与编排能力,覆盖模型接入、服务注册、运行时适配、Prompt模板、微调、RAG集成、函数调用、数据管理、监控治理和生命周期管理等环节。其价值在于将分散模型、运行时与异构算力资源纳入统一管理体系,降低重复适配成本,提升模型上线效率、执行稳定性和跨环境部署一致性。

资料来源:沙利文分析
《白皮书》从五个维度评估模型执行与管理能力:模型与芯片兼容性、执行稳定性与性能、生命周期管理与部署效率、模型-GPU协同调度能力、生态与服务能力。综合排名中,范式智能(Phancy)位居领先水平,尤其在执行稳定性与性能、模型-GPU协调和异构兼容方面表现突出。多模型管理工作站与vGPU控制平面协同后,可形成从"异构算力资源控制"到"统一模型执行交付"的端到端AI基础设施编排能力。

资料来源:沙利文分析
行业实践进一步验证了该路径的价值。在某大型国有商业银行案例中,范式智能(Phancy)多模型管理工作站ModelHub与vGPU资源编排帮助客户建设统一AI基础设施平台,实现大规模模型管理、异构资源统一调度和企业级治理。平台管理模型超过25,000个,生产AI服务超过3,000个,LLM服务超过50个,覆盖300+ GPU服务器节点和20+异构平台,并实现GPU资源效率提升70%+、AI部署效率提升60%+、推理稳定性提升30%+、O&M开销降低40%+、GPU利用率提升4倍以上。

资料来源:沙利文分析
05
总结
展望未来,AI基础设施的竞争焦点将从硬件拥有量转向系统级运营能力。多芯片共存将长期存在,推理负载将持续增长,企业模型资产也将快速扩张。具备统一资源池、精细化切分、智能调度、SLA保障、模型执行一致性和全生命周期治理能力的平台,将成为企业释放AI算力价值、降低基础设施成本并支撑规模化AI创新的关键。vGPU控制平面与多模型管理工作站所代表的AI基础设施编排能力,正在推动行业从"碎片化算力管理"迈向"统一、弹性、可度量的AI服务交付"。

