沙利文:开源重塑多模态生态,大模型迈向产业落地新阶段

沙利文:开源重塑多模态生态,大模型迈向产业落地新阶段

2025/4/10

沙利文:开源重塑多模态生态,大模型迈向产业落地新阶段

沙利文洞见

曾经高举闭源大旗的OpenAI,如今也将目光投向了开源。4月1日,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在社交媒体X平台宣布,该公司将在未来几个月内发布一个“强大的带有推理能力的全新开放权重(open-weight)模型”。在坚持多年闭源路线后,OpenAI正重新审视开源的价值。大厂选择开源模型的动机是什么?是为了构建生态、吸引开发者,还是通过社区反哺技术迭代?多模态模型开源,会走出多模态里面的DeepSeek吗?多模态模型较文字生成有何特殊性?如何评价当前的多模态模型开源生态?目前多模态大模型主要存在哪些亟需攻破的难题?开源如何推进技术的精进和成熟?多模态模型的开源可能惠及哪些行业?

 

弗若斯特沙利文(Frost & Sullivan, 以下简称“沙利文”)大中华区执行总监崔楠接受21世纪经济报道采访,共同探讨多模态模型开源浪潮下的生态构建与行业机遇。

21世纪经济报道

*点击文末阅读原文,查看完整报道

 

 

Q:大厂选择开源模型的动机是什么?是为了构建生态、吸引开发者,还是通过社区反哺技术迭代?

崔楠

沙利文大中华区执行总监

 

首先,大厂开源多模态模型将构建一个包含开发者社区、硬件适配方案及行业应用案例的立体生态。这样的生态构建将降低开发者的进入门槛,使他们能够迅速上手并开展创新。随着生态的发展,技术将实现快速进步,并在更多场景中探索多模态模型的应用可能,为未来的商业化奠定坚实基础。

 

此外,开源还具有更深层的意义,即推动技术的普及和民主化。大厂通过开源降低了用户进入多模态模型领域的门槛,使得更多中小企业和开发者能够以较低成本使用先进技术。这种技术的普惠性不仅加速了AI技术的渗透率,也为整个行业的快速发展注入了活力。

 

同时,开源也体现了大厂的社会责任感。通过开源,大厂实际上在为未来的技术标准化铺路。这种开放的姿态不仅使技术更加透明,也有助于行业的健康发展。

 

Q:多模态模型开源,会走出多模态里面的DeepSeek吗?

崔楠

沙利文大中华区执行总监

 

在多模态大模型开源的趋势下,类似DeepSeek这样的企业有望脱颖而出。这些企业凭借其技术、成本效益、开源策略及生态建设等方面的优势,将在市场中崭露头角,推动整个多模态大模型领域的进步。

 

Q:多模态模型较文字生成有何特殊性?如何评价当前的多模态模型开源生态?

崔楠

沙利文大中华区执行总监

 

首先,相较于文字生成模型,多模态模型需要处理文本、图像、音频、视频等多种类型的数据,而文字生成模型则主要处理文本数据。这种数据处理多样性的特点,使得多模态大模型的应用场景更加广泛,例如在智能驾驶中的环境感知和决策、医疗影像的诊断辅助等方面。此外,多模态模型在技术实现上更为复杂,需要解决模态之间的对齐、融合等问题,例如,如何将图像中的视觉信息与文本中的语义信息有效结合,以实现准确的理解和生成。因此,多模态模型通常需要更大的计算资源和更复杂的训练策略。综上所述,相较于文字生成模型,多模态大模型具有数据处理多样性、应用场景广泛性和技术实现复杂性等特点。

 

当前,开源社区的对多模态模型的贡献日益增加。开发者和研究者通过社区平台分享代码、数据集和研究成果,加速了技术的迭代和优化。这种良性发展使得多模态大模型的性能不断取得突破,与闭源模型的差距逐渐缩小,甚至在某些方面已经超越。同时,其应用场景也在不断拓展,涵盖了图像生成、视频编辑、语音交互等多个领域。

 

Q:目前多模态大模型主要存在哪些亟需攻破的难题?开源如何推进技术的精进和成熟?

崔楠

沙利文大中华区执行总监

 

当前,多模态大模型面临数据处理与对齐的难题。由于多模态数据具有异质性,不同模态的数据在格式、维度及统计性质上存在差异,这使得数据融合与处理变得复杂。此外,不同模态的数据在时间、空间、语义层面可能存在复杂关联,从而在训练过程中引发模态对齐和融合的挑战,以及语言能力“灾难性遗忘”等问题。因此,多模态大模型的训练不仅需要大量计算资源,而且训练时间长、效率低。

 

然而,开源举措降低了多模态大模型的使用门槛,使更多开发者和企业能够接触并应用先进技术。这一变化不仅促进了技术的传播,还以此为契机丰富了数据资源并提升了数据质量。这些改进有助于训练出更优质的模型,进一步推动了技术的精进。

 

Q:多模态模型的开源可能惠及哪些行业?

崔楠

沙利文大中华区执行总监

 

模型的开源将极大地推动多个行业的发展,通过提供高质量的视频生成、语音交互、图像生成等能力,这些模型将为影视娱乐、智能汽车、教育、自动驾驶、金融、物流、医疗健康、娱乐创意、办公工具、社交娱乐、法律咨询等多个领域带来创新和效率提升。

*本采访已刊登于21世纪经济报道,记者为董静怡,原标题为:《撕掉闭源标签!OpenAI“试水”开源,是反击还是妥协?》


联系我们

×
×
微信二维码
联系我们
联系我们
电话

业务咨询热线

(021)54075836

微信
二维码

扫码关注官方微信公众号

返回顶部
返回顶部