随着人工智能加速渗透到各行各业,算力结构正经历从训练为主向推理为主的深度转型。推理算力作为AI落地的核心支撑,正在成为推动大模型商业化和智能生态扩张的关键力量。
PART.01
中国推理算力定义与服务覆盖范围
推理算力主要负责AI模型的推理任务,用于执行已经训练好的模型、处理实时数据并提供预测结果。推理过程对计算资源需要快速响应,对实时性要求较高。作为支撑推理任务的底层硬件,推理芯片关注低延时、低功耗,以保证高效响应。推理型智算中心可配置优化的推理硬件、高性能服务器和网络设备,确保快速响应时间和稳定服务,更加注重处理速度和可靠性。

来源:沙利文分析
PART.02
中国推理算力市场规模及份额
在AI基础设施中算力是推动创新的核心驱动力。截止2023年,通用算力与智能算力分别为171与59 EFLPOS,预计2027年将达330与240 EFLPOS,整体增速39%。中国日均Tokens消耗量从2024年初的1,000亿增长至今年6月底超过30万亿,1年半增长300多倍,这反映了中国人工智能应用规模快速增长。2025年中国推理算力市场规模预计达438.3亿人民币。

来源:沙利文分析
PART.03
推理算力核心技术
推理算力的发展核心聚焦于解决高实时性、低时延与高并发需求。其关键技术突破在于采用P/D分离架构,通过预填充与解码实例分工,并利用高性能RoCE网络实现KV Cache同步,从而兼顾首Token低时延与后续Token生成效率。这一技术架构有效支撑了智能客服、实时金融分析、智能驾驶和智慧医疗等对高实时性和低时延的应用场景,首Token时延可控制在1秒以内,后续Token时延小于50毫秒。
然而在海量用户推理场景下,仍面临核心挑战:在于如何在低成本下保障用户体验和高并发访问,同时兼顾首Token低时延、后续Token持续低时延,并应对算力中心与终端距离带来的时延影响。

来源:沙利文分析
PART.04
中国推理算力发展趋势及挑战
在当前国家高度重视人工智能发展的战略背景下,中国推理算力正迎来快速发展阶段,随着大模型和多模态模型的广泛应用,对高效、低延迟推理算力的需求持续攀升。从技术发展趋势来看,推理算力主要呈现四个方向:算力基础设施持续扩展与升级、长序列与超大模型推理优化、多机并行推理支撑超大模型与多模态应用、软硬件协同与生态成熟推动推理普及。
国产算力正通过技术突破、生态建设与产业链协同发展不断提升整体能力,以华为昇腾为代表的国产芯片迭代加快,通过“超级节点”集群和多卡互联实现系统级算力突破,同时开放生态吸引更多企业加入,形成自主可控的算力基础设施体系,为中国推理算力发展奠定坚实基础。

来源:沙利文分析
中国智能算力发展正迎来高速增长,但也面临诸多挑战,包括电力资源紧张、高功率机柜供给不足,以及边缘数据安全和跨层级协同机制缺失。行业正在加快绿色高密度基础设施建设、推动算力中心布局优化,并探索更安全高效的数据协同方式,以保障算力发展持续、高效。


