沙利文发布《2025年中国合成数据解决方案发展洞察》

沙利文发布《2025年中国合成数据解决方案发展洞察》

发布时间:2025/09/10

沙利文发布《2025年中国合成数据解决方案发展洞察》

在人工智能向各行业加速渗透与生成式技术持续突破的浪潮下,合成数据正从辅助工具演进为驱动AI规模化落地的核心要素,其生成质量、模态丰富度与合规价值同步提升,推动合成数据解决方案不断向高保真、多模态、可信任方向演进。

 

在此背景下,弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)对中国合成数据解决方案进行了深度分析,谨此发布《2025年中国合成数据解决方案发展洞察》(以下简称“白皮书”)。本白皮书旨在梳理合成数据解决方案的发展历程、现状、核心价值、产业链图谱及其在全球的市场规模和地区渗透情况,并探讨合成数据解决方案未来的发展趋势。

 

本白皮书聚焦于合成数据(Synthetic Data)解决方案,分析其发展现状、技术路径、市场格局及未来趋势。合成数据解决方案能够系统性地解决AI多重数据瓶颈,已从简单替代升级为核心战略资产,并在自动驾驶、具身智能和工业场景展现出巨大的价值潜力。合成数据解决方案为模型的训练和开发以及AI应用的落地提供了高质量、高可用性、低成本、可用于AI消费的数据来源。本白皮书期望为相关领域的研究者、开发者以及企业提供有价值的参考信息,促进技术进步和产业发展。

 

01

合成数据解决方案已成为AI时代的核心战略资产

在人工智能技术迅猛发展与数字化转型持续深化的背景下,AI研发与落地对数据的规模、质量与多样性提出更高要求,传统数据获取与处理方式面临成本、隐私与稀缺性等多重瓶颈,推动合成数据技术不断演进。具体而言,合成数据的发展阶段如下:

 

  • 1.0 填补空白的辅助工具:在合成数据发展初期,面临真实数据匮乏、获取成本高或涉及隐私合规等挑战。该阶段以随机分布、统计抽样和机理仿真为主,主要生成表格等结构化数据。然而生成效率仅为真实数据采集的30%,且无法反映多变量动态交互。

     

  • 2.0 AI落地的重要组件:随着GAN、VAE等生成模型技术取得突破使合成数据格式扩展到语音、图像和视频等,并广泛应用于图像识别、自动驾驶、生物医药等多个领域。同时,隐私和合规的需求升级,驱动合成数据成为AI落地的重要组件。

     

  • 3.0 驱动AI变革的核心战略资产:大模型和生成式AI的突破正推动AI范式由“以模型为中心”转向“以数据为中心”。展现出应对大模型训练与具身智能进化数据问题的巨大价值潜力。面对互联网高质量文本资源逐渐枯竭,合成数据成为大模型训练的“可再生燃料”,被OpenAI、Meta、英伟达等企业广泛用于预训练和对齐阶段。同时,合成数据通过高保真物理仿真,将人类动作样本扩展千倍,有效缓解具身智能训练中物理交互数据的严重短缺,助力实现机器人的零样本泛化能力。

来源:沙利文分析

 

02

中国合成数据解决方案市场规模及渗透情况增速迅猛

全球合成数据市场呈现爆发式增长态势。市场规模从2021年的11.8亿元人民币迅速扩张至2025年的47.6亿元人民币,期间年复合增长率高达41.8%。在AI技术迭代加速、数据安全要求提升以及成本效益优势凸显的多重驱动下,预计市场将保持强劲增长势头,2025-2030年复合增长率达33.8%,到2030年全球市场规模将突破200亿元人民币。

 

得益于其成熟的技术生态、严格的数据法规以及早期积极的企业采纳,全球合成数据解决方案在北美和欧洲的渗透率最高。中国市场增速最快,由庞大的互联网用户基数、丰富的落地应用场景和强有力的政策支持驱动。亚太其他地区及新兴市场目前渗透率相对较低,但增长潜力巨大。

来源:沙利文分析

 

03

AI模型中的合成数据用量预计在2030年超过真实数据

随着合成数据在AI训练与推理中的广泛应用,数据范式正朝着“人在环”的混合数据模式演进。预计到2030年,AI模型中合成数据的生成量将超过真实数据的使用量。新兴技术将彻底改变合成数据的生成,实现更高的真实性、可扩展性和效率。将推动合成数据从“静态复制” 向 “动态演化” 跃迁,大幅提升其真实性、可扩展性和效率。先进AI模型的进化实现跨领域的超现实数据合成的同时,量子计算优化算法加速大规模数据生成。数字孪生集成则通过高保真模拟现实系统与环境,为预测建模与边缘场景测试。

 

当前工业AI严重依赖高成本真实数据,未来将转向 “1%人类数据+99%高效合成” 的混合模式,依托 “Human in Loop”(人在环)机制,由领域专家介入筛选、规则定义与质量评估,构建覆盖更广、动态可靠的数据池,为高可靠性AI训练提供支撑。

来源:沙利文分析

 

04

合成数据是实体物理驱动应用场景的关键基础

合成数据的应用主要可分为两大驱动类型:实体物理驱动和信息数据驱动。实体物理驱动型适用于高度依赖真实物理环境和多模态交互的行业,这类场景通常具有交互复杂、真实数据采集困难以及长尾场景数据稀缺的特征。合成数据在此类应用中的核心价值在于能够模拟物理规律与真实环境,有效覆盖极端案例与长尾情况,支撑高可靠性系统的训练与验证。典型行业包括自动驾驶、具身智能和工业领域。信息数据驱动型则侧重于那些对数据隐私、合规性和敏感性要求极高的领域。这类场景普遍面临严格的隐私保护要求、数据共享受限和强合规约束等挑战。合成数据通过生成逻辑合理且符合统计特性的替代样本,帮助机构在保护用户隐私的同时实现数据共享和虚拟环境扩展,典型应用行业包括金融、医疗和游戏。

来源:沙利文分析

 

05

精准模拟物理交互、丰富且高质量的合成数据是企业从自动驾驶向具身智能转型的关键

企业从自动驾驶向具身智能切入时,其核心挑战是从一个规则相对明确、以应对从“移动”为核心的封闭场景到以“交互”为核心的开放世界问题的根本性转变。企业需克服从第三人称环境观测到第一人称具身交互的认知鸿沟,处理从纯视觉到多模态物理交互数据的复杂性,并实现从特定任务到通用认知的能力升级。因此,合成数据成为破解具身智能训练难题的核心基础设施。企业需要关注以下核心能力的补充,首先是扩大合成数据能力范围,涵盖触觉、力反馈等多模态交互与动态Agent学习;其次构建高保真模拟环境,借助高质量物理仿真引擎实现Sim-to-Real有效迁移;最后支持高语义层次数据注释,包括关系推理与因果场景说明,以弥合认知和行为差距。

来源:沙利文分析

 

06

在合成数据供应商中,专注解决方案型展现出更强的延展性与商业化潜力

合成数据解决方案的产业链上游环节涵盖了硬件与软件两大支撑领域。硬件包含了传感器和芯片,传感器决定真实数据采集的精细度与可靠性,而芯片则是保障仿真模拟与数据生成的算力基础。而软件部分的数据管理、数据标注与数据安全构成了合成数据的治理底座。

 

产业链中游的合成数据解决方案竞争特征在于技术迭代快、行业Know-how门槛高、生态兼容性要求高。这三个方面决定了供应商能否实现跨行业迁移与规模化落地。能够决定应对复杂多变、快速演进行业场景的能力;影响解决方案的迁移性与落地深度;关系到规模化与商业化,更关乎供应链安全和稳定。整体格局可以分为三类:

 

专注于解决方案的供应商:

 

  • 深信科创:面向行业用户提供一体化工具链与软硬一体方案,向具身智能与工业领域扩展。通过经验流闭环与持续学习,生成高物理保真精准性的合成数据,支持场景与算法反馈实时耦合优化。

     

  • 光轮智能:基于上游软件,创新“Real2Sim2Real + Realism Validation”架构,强调人在环与仿真结合,突出真实与合成数据的互补,同时提供真实性评测与效用性评测平台。

 

硬件驱动型供应商:

 

  • 英伟达:依托GPU硬件和CUDA生态,向下延伸至仿真、数据生成、模型训练,构建端到端方案。但对硬件依赖高,缺乏灵活度。

 

仿真平台型供应商:

 

  • 松应科技:支持不同厂商GPU硬件部署,并具备分布式多GPU协同运算,支撑仿真平台实时处理效率与大规模应用场景需求,构建仿真与虚拟训练场能力。

 

在生成式AI快速发展与数字化转型驱动下,产业链下游领域的垂直行业对数据的需求不断凸显,规模化落地的潜力正加速释放。经过实践打磨与技术迭代与融合,合成数据解决方案在这趋势下迎来广阔商业化与应用前景。

来源:沙利文分析

 

 

本文推荐阅读

↓↓长按扫描下方二维码获取↓↓

联系我们
联系我们
电话

业务咨询热线

(021)54075836

微信
二维码

扫码关注官方微信公众号

返回顶部
返回顶部

联系我们

×
×
微信二维码
沙利文发布《2025年中国合成数据解决方案发展洞察》