NIE 2023丨商汤科技刘亮:大模型发展不可忽视的一面——评测与比较

NIE 2023丨商汤科技刘亮:大模型发展不可忽视的一面——评测与比较

发布时间:2023/11/17

NIE 2023丨商汤科技刘亮:大模型发展不可忽视的一面——评测与比较
9月27日,弗若斯特沙利文(Frost & Sullivan,简称:沙利文)第二届新投资博览会暨第十七届沙利文全球增长、科创与领导力峰会(简称“沙利文新投资大会”)数字经济分论坛在上海浦东香格里拉大酒店隆重举办。

 

本次论坛以“数字经济与产业融合:AI加速下的全行业变革”为主题,邀请到18位重磅嘉宾及行业专家,汇聚产业领袖、行业专家及投资机构,聚焦数字经济投融资新机遇,共同探讨企业穿越周期的资本和产业力量。

 

商汤科技战略研究主任 刘亮

 

在本次论坛上,商汤科技战略研究主任刘亮介绍了大型语言模型对企业的重要影响。他强调,这些模型正在逐渐改变企业的日常运营方式,推动着企业原有的AI战略发生转变,逐渐形成了以人工智能为核心的业务逻辑。这一变革正加速着企业的数字化转型,提高了运营效率和创新能力,为企业带来了巨大的潜力和机遇。

 

 

 

 

一、大模型带来的变化及影响

刘亮表示,大模型的发展几乎“歇斯底里”且充满“噪音”,目前已有100+大模型厂商、200+基础大模型、400+微调大模型、1000+生成式AI应用,并且仍处在炒作高峰,已经开始影响企业的日常运营。

 

ChatGPT发布后,45%企业表示增加了大模型相关技术投资,五分之一的企业已部署大模型相关技术应用。与此同时,大模型正在改变企业原有的AI战略,逐渐形成以AI为中心的业务逻辑。升级后的AI战略,将使用生成式AI增强人类的工作能力,做到生成文本、音视频、代码等。治理方面,企业需要明确商业责任,且建立统一治理组织,人才方面,企业需要教育所有人负责任的使用生成式AI。

 

二、大模型测评

刘亮表示,大模型评测格局是大模型市场生态发展的关键一环。从评测格局来看,分为学术评测集、市场化榜单。其中,学术评测集包括MMLU、OpenBookQA、HumanEval、GSM8K、RACE 等数十个任务评测集,市场化榜单包括媒体、社区/智库、分析师机构等。

 

从评测维度来看,大模型能力+厂商能力结合,力求全面、不断进化。

 

刘亮指出,从塑造评测格局的机构来看,包括评测大模型体系及开放平台,提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测;中文通用大模型综合性评测基准SuperCLUE,聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力进行评测;全球咨询公司沙利文,通过研究发现中国市场最早观察大模型市场,并进行了大模型厂商之间的评估,不仅考察大模型自身的能力,也全面纳入了厂商的综合竞争力。

 

三、大模型评测案例

据刘亮介绍,商汤基础大模型InternLM-123B,学术评测排名全球第二。与GPT-4、GPT-3.5-turbo、LLaMA-2-70B的比较来看,商汤基础大模型InternLM-123B生成的内容更加准确可靠,具备自主反思和修正错误能力,代码解释器和插件调用能力升级以及可灵活搭建AI智能体应用。目前,商汤开源大模型InternLM-20B已面向企业和开发者提供免费商用授权。

 

与此同时,沙利文大模型评估报告显示,凭借前瞻性的AI大装置的建设布局,及领先发布的日日新大模型体系,商汤在三个维度均保持领先,其中产品技术和生态开放两个维度拿到最高分,综合竞争力第一。

 
联系我们
联系我们
电话

业务咨询热线

(021)54075836

微信
二维码

扫码关注官方微信公众号

返回顶部
返回顶部

联系我们

×
×
微信二维码