源1.0大模型登顶中文语言能力评测基准CUGE榜首

麻省理工科技评论-源1.0大模型登顶中文语言能力评测基准CUGE榜首

近日，浪潮“源1.0”大模型登顶中文语言能力理解和生成评测基准CUGE总榜榜首，并获得语言理解（篇章级）、语言生成、对话交互、多语言、数学推理等5项评测最佳成绩。

CUGE（Chinese Language Understanding and Generation Evaluation）智源指数，是由清华大学、北京大学、北京智源研究院等高校机构共同建立的中文机器语言能力评测基准，该基准针对当前自然语言处理和人工智能发展新范式，面向具有“通用语言能力”的预训练模型，全面系统、多层次、多维度地评测大模型能力。

源1.0领跑多类综合语言场景

在语言理解(篇章级)评测中，源1.0用时11分钟完成数千篇阅读理解回答4000多个问题，以86.9高分的成绩位居榜首。基于源1.0大模型的阅读理解能力及高速处理大量样本的特点，未来将加速劳动密集型文本处理等行业变革，如应用于智能客服根据用户提供的信息在产品文档中快速找到解决方案及智能司法、智能招聘系统等。

在语言生成评测中，源1.0用时70秒完成近800条摘要内容的生成，登顶该项榜单。源大模型的文本生成能力可提升智能问答与对话、新闻摘要、报告生成等场景中AI智能化水平，如从长篇幅的新闻资讯等文本中提取出简明扼要的文字描述，便于及时、高效地获取有价值的信息及智能文案、协助写作等场景。

在多语言机器翻译评测中，基于源1.0大模型蒸馏出来的翻译模型在完成近4000千对中英文互译后登顶榜首。翻译模型在基于源1.0大模型阅读的海量高质量数据集基础上，采用维基百科、书籍、联合国文件及字幕组等近80G高质量数据集进行强化训练，因此翻译不仅专业准确，同时更符合中文表述。未来可广泛应用于新闻、哲学、小说等日常的语言翻译场景中。

在对话交互评测中，基于源1.0大模型蒸馏出来的对话模型回答了电影、音乐、旅行3个领域共近万个主题对话，成绩位居榜首。在继承源1.0大模型能力的基础上，对话模型采用了2660万条医疗、法律、保险等不同行业，历史、电影、娱乐等不同场景的对话语料数据进行强化训练，在知识问答、高频闲聊等开放式任务上表现突出，此前已获得业界权威测评WebQA开放问答数据集榜单冠军。

当前，智能对话普遍存在内容乏味、主题不连贯等问题，往往几轮对话后，回答便空洞重复，大大降低用户体验。知识驱动的对话模型直接连接到广泛的知识库，大大增加对话内容的丰富度，在一定知识背景下也不会偏题，更趋向于人类之间的交谈。不久前，源开发者社区的一位开发者基于源的对话模型创建了一位能与人类玩剧本杀的AI虚拟玩家，一位人类玩家与AI虚拟玩家聊天到深夜凌晨仍兴趣盎然。以知识驱动的对话模型，可广泛应用于各类虚拟人、智能助手、智能客服等场景，并极大提升对话的智能水平和用户体验。

源1.0在数学推理锋芒初露

当前业界各类大模型在自然语言处理领域展示出了强大的能力，但在数学领域却还存在盲区。数学对逻辑和推理能力有极强的要求，Open AI开发出多种方法训练GPT-3的数学推理能力，但在挑战小学数学应用题时，GPT-3也尚未及格，数学推理能力甚至低于9-12岁儿童。

为更好评测大模型逻辑推理能力，CUGE专门设立了数学推理能力榜单，主要考察模型数值计算能力，即考察对应用情景和任务的理解抽象能力以及数值计算能力，类似于小学数学应用题。数学推理能力榜单数据库内的数学题来自在线教育网站提供的小学数学应用题。

在CUGE数学推理评测中，源1.0大模型完成1000道小学数学应用题，以76.9的高分大幅领先高居榜首。

为应对大模型在数学推理方面的挑战，浪潮为源1.0开发了一套相似启发式数据增强的方案，给每一个要求解的数学问题从数据库中检索并匹配一个相似的题目并与原题目进行拼接，通过类比学习，启发大模型能够根据两道相似问题更好地学习如何给出解题表达式，进而学会每一类题目的解法，类似于人类在学习过程中会通过连续学习同一类型的题目来提高对这一类型题目的理解能力；同时，浪潮在源1.0改进了算法掩码策略，使得模型在学习过程中只关注于连续的相似的题目，不受同一个输入序列中不相关题目的影响，这样模型可以更专注于学习同一类型的题目，极大地提升了解题准确度。

源1.0开源开放计划收效显著

目前，浪潮“源1.0”已经将模型API、高质量数据集、模型训练代码、推理代码和应用代码等等工具和能力开源开放，超过300家行业用户和开发者，通过“源1.0”提供的数据和API显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度。浪潮源1.0将持续助力行业用户和开发者，携手推动技术创新、场景融合、应用开发，共同促进大模型的健康发展与产业落地，加速AI产业化和产业AI化发展。

Recommend

Democrats Are Weighing Whether Biden Should Forgo 2024 Reelection: NYT

Variation of a standard heap problem

As startup layoffs continue, some perspective

Redmi 红米 Note9 5G智能手机 8GB+256GB 909元（需用券）-聚超值

要说睡觉，这届品牌脑洞很大…

RAPOO 雷柏 VT950C 无线双模游戏鼠标 139元（需用券）-聚超值

贤合庄遭“退股”？凭设计和明星效应的网红餐厅们，如今焦头烂额

How to ensure your customer panel is a world-class yawn festival

HUAWEI 华为 nova 9 4G手机 8GB 128GB 9号色 2109元-聚超值

What Ever Happened To The Mercedes 220SE From The Hangover?

About Joyk