上海发布大模型评测体系“司南”

本版

第8版：科创上海

上海发布大模型评测体系“司南” 脑机对接带来“长生不老”？ “头雁”带队揭开生命发育之谜 “关键三招”让燃料电池更“高寿”
目录

第1版:一版要闻

第2版:要闻

第3版:要闻

第4版:要闻

第5版:焦点

第6版:综合新闻

第7版:上海新闻

第8版:科创上海

第9版:帮侬忙

第10版:国际新闻/广告

第11版:文体新闻

第12版:文体新闻/体育

第13版:夜光杯

第14版:夜光杯

第15版:康健园

第16版:新民健康专版/医技/

第8版：科创上海 2024-02-21

上海发布大模型评测体系“司南”

为大语言模型提供一站式评测服务

本报讯（记者郜阳）遍地开花的大模型究竟谁更强？日前，上海人工智能实验室科学家团队正式发布大模型开源开放评测体系“司南”，可以为大语言模型、多模态模型等提供一站式评测服务。

据介绍，“司南”全面量化大模型在知识、语言、理解、推理和考试等五大能力维度的表现，客观中立地为大模型创新提供技术支撑。这些评测维度，不仅包括多语言翻译、汉语与中国传统文化、自然科学、人文社科、计算能力等20余项细分任务，还会考察大模型在综合运用知识、数学推理、代码工具等多种能力完成复杂任务的水平。

经“司南”对国内外主流大模型的全面评测诊断，中英双语评测前十名揭晓：OpenAI研发的GPT-4 Turbo位居第一。“大模型评测的最大意义并不在于榜单名次，而是通过评测结果来指导改进工作。”上海人工智能实验室领军科学家林达华教授说，“一些大模型研发机构通过‘题海战术’来提高评测成绩，无法真实反映大模型的实际能力。让模型处于这种‘高分低能’状态，最终伤害的还是研发机构本身。”

总体而言，“司南”评测结果显示：复杂推理相关能力是大模型普遍面临的难题，国内大模型与GPT-4相比还存在差距；中文场景下，国内最新的大模型已展现出独特优势，在部分维度上接近GPT-4 Turbo的水平；开源模型进步很快，以较小的体量达到较高性能水平，表现出较大的发展潜力。