NIE 2023丨商汤科技刘亮：大模型发展不可忽视的一面—

9月27日，弗若斯特沙利文（Frost & Sullivan，简称：沙利文）第二届新投资博览会暨第十七届沙利文全球增长、科创与领导力峰会（简称“沙利文新投资大会”）数字经济分论坛在上海浦东香格里拉大酒店隆重举办。

本次论坛以“数字经济与产业融合：AI加速下的全行业变革”为主题，邀请到18位重磅嘉宾及行业专家，汇聚产业领袖、行业专家及投资机构，聚焦数字经济投融资新机遇，共同探讨企业穿越周期的资本和产业力量。

商汤科技战略研究主任刘亮

在本次论坛上，商汤科技战略研究主任刘亮介绍了大型语言模型对企业的重要影响。他强调，这些模型正在逐渐改变企业的日常运营方式，推动着企业原有的AI战略发生转变，逐渐形成了以人工智能为核心的业务逻辑。这一变革正加速着企业的数字化转型，提高了运营效率和创新能力，为企业带来了巨大的潜力和机遇。

一、大模型带来的变化及影响

刘亮表示，大模型的发展几乎“歇斯底里”且充满“噪音”，目前已有100+大模型厂商、200+基础大模型、400+微调大模型、1000+生成式AI应用，并且仍处在炒作高峰，已经开始影响企业的日常运营。

ChatGPT发布后，45%企业表示增加了大模型相关技术投资，五分之一的企业已部署大模型相关技术应用。与此同时，大模型正在改变企业原有的AI战略，逐渐形成以AI为中心的业务逻辑。升级后的AI战略，将使用生成式AI增强人类的工作能力，做到生成文本、音视频、代码等。治理方面，企业需要明确商业责任，且建立统一治理组织，人才方面，企业需要教育所有人负责任的使用生成式AI。

二、大模型测评

刘亮表示，大模型评测格局是大模型市场生态发展的关键一环。从评测格局来看，分为学术评测集、市场化榜单。其中，学术评测集包括MMLU、OpenBookQA、HumanEval、GSM8K、RACE 等数十个任务评测集，市场化榜单包括媒体、社区/智库、分析师机构等。

从评测维度来看，大模型能力+厂商能力结合，力求全面、不断进化。

刘亮指出，从塑造评测格局的机构来看，包括评测大模型体系及开放平台，提供完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测；中文通用大模型综合性评测基准SuperCLUE，聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力进行评测；全球咨询公司沙利文，通过研究发现中国市场最早观察大模型市场，并进行了大模型厂商之间的评估，不仅考察大模型自身的能力，也全面纳入了厂商的综合竞争力。

三、大模型评测案例

据刘亮介绍，商汤基础大模型InternLM-123B，学术评测排名全球第二。与GPT-4、GPT-3.5-turbo、LLaMA-2-70B的比较来看，商汤基础大模型InternLM-123B生成的内容更加准确可靠，具备自主反思和修正错误能力，代码解释器和插件调用能力升级以及可灵活搭建AI智能体应用。目前，商汤开源大模型InternLM-20B已面向企业和开发者提供免费商用授权。

与此同时，沙利文大模型评估报告显示，凭借前瞻性的AI大装置的建设布局，及领先发布的日日新大模型体系，商汤在三个维度均保持领先，其中产品技术和生态开放两个维度拿到最高分，综合竞争力第一。

NIE 2023丨商汤科技刘亮：大模型发展不可忽视的一面——评测与比较

联系我们