2024年09月17日 星期二
上海发布大模型评测体系“司南” 脑机对接带来“长生不老”? “头雁”带队揭开生命发育之谜 “关键三招”让燃料电池更“高寿”
第8版:科创上海 2024-02-21

上海发布大模型评测体系“司南”

为大语言模型提供一站式评测服务

本报讯(记者 郜阳)遍地开花的大模型究竟谁更强?日前,上海人工智能实验室科学家团队正式发布大模型开源开放评测体系“司南”,可以为大语言模型、多模态模型等提供一站式评测服务。

据介绍,“司南”全面量化大模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地为大模型创新提供技术支撑。这些评测维度,不仅包括多语言翻译、汉语与中国传统文化、自然科学、人文社科、计算能力等20余项细分任务,还会考察大模型在综合运用知识、数学推理、代码工具等多种能力完成复杂任务的水平。

经“司南”对国内外主流大模型的全面评测诊断,中英双语评测前十名揭晓:OpenAI研发的GPT-4 Turbo位居第一。“大模型评测的最大意义并不在于榜单名次,而是通过评测结果来指导改进工作。”上海人工智能实验室领军科学家林达华教授说,“一些大模型研发机构通过‘题海战术’来提高评测成绩,无法真实反映大模型的实际能力。让模型处于这种‘高分低能’状态,最终伤害的还是研发机构本身。”

总体而言,“司南”评测结果显示:复杂推理相关能力是大模型普遍面临的难题,国内大模型与GPT-4相比还存在差距;中文场景下,国内最新的大模型已展现出独特优势,在部分维度上接近GPT-4 Turbo的水平;开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

放大

缩小

上一版

下一版

下载

读报纸首页