CMMLU 开源数据集怎么用?助力 AI 研究与垂类模型中文性能优化指南

2025-06-27| 4792 阅读

? 一文搞懂 CMMLU 开源数据集:从入门到实战的 AI 研究利器


在 AI 研究领域,数据就是模型的 “燃料”,而 CMMLU(Chinese Multi-task Language Understanding)开源数据集凭借其丰富的中文专业知识储备,成为优化垂类模型的重要资源。它到底是什么?怎么用?今天就来详细拆解。

? 什么是 CMMLU 数据集?


CMMLU 是由 MBZUAI、上海交通大学和微软亚洲研究院联合推出的中文多任务基准数据集。它涵盖了 67 个主题,从自然科学到人文社科,从基础常识到专业领域,比如中国饮食文化、民族学、驾驶规则等具有中国特色的内容都包含在内。数据集包含 11,528 个问题,每个问题都是带 4 个选项的多项选择题,仅有一个正确答案,结构清晰,非常适合用于评估大模型在中文语境下的知识储备和推理能力。

CMMLU 的独特之处在于它专门针对中文环境设计,很多问题的答案和语境都具有中国特色,这是其他国际数据集无法替代的。比如 “中国传统节日的习俗”“中国法律条文的具体应用” 等问题,能让模型更好地理解和适应中国的语言文化背景。

? 如何获取 CMMLU 数据集?


获取 CMMLU 数据集非常方便。你可以直接访问其 GitHub 仓库(https://github.com/haonan-li/CMMLU),里面提供了详细的数据集文件,包括各个学科的 CSV 文件。此外,阿里云的计算巢平台也提供了 CMMLU 数据集服务,用户不仅可以直接使用,还能反馈自己的需求,方便定制化使用。

需要注意的是,CMMLU 遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 协议,这意味着你可以自由使用、修改和分享数据集,但不能用于商业目的。

?️ 数据预处理:让数据更 “干净”


拿到 CMMLU 数据集后,第一步就是数据预处理。这一步的目的是去除噪声、统一格式,让数据更适合模型训练。具体步骤如下:

  1. 数据清洗:检查数据中是否有重复、缺失值或格式不一致的情况。比如,有些问题可能存在错别字,或者选项顺序混乱,需要手动修正。对于 CMMLU 中的专业术语,要确保其准确性,避免因术语错误影响模型的学习效果。

  2. 文本分词:中文分词是自然语言处理的基础。你可以使用 jieba、THULAC 等工具对文本进行分词,将句子拆分成词语序列。例如,“中国传统节日” 可以分词为 “中国 / 传统 / 节日”。

  3. 去除停用词:停用词如 “的”“了”“在” 等对模型的语义理解帮助不大,可以将其过滤掉,减少数据量,提高训练效率。

  4. 数据标注:CMMLU 的问题已经标注了正确答案,但为了更好地进行模型评估,你可以进一步标注问题的难度等级、学科类别等信息,方便后续分析。


? 模型训练:让模型 “吃透” 专业知识


预处理完成后,就可以开始模型训练了。CMMLU 适用于多种模型架构,以下是一些常见的训练方法:

  1. 微调(Fine-tuning):以 BERT、ChatGLM 等预训练模型为基础,在 CMMLU 数据集上进行微调。通过调整模型的参数,让其更好地适应中文专业知识的推理任务。例如,度小满的 “轩辕 70B” 金融大模型就是在 CMMLU 上进行微调,大幅提升了金融领域的知识理解能力。

  2. 提示学习(Prompt Learning):通过设计特定的提示模板,引导模型关注问题的关键信息。比如,对于法律问题,可以设计提示 “根据中国法律,以下哪种行为属于侵权?”,让模型更准确地提取法律条文知识。

  3. 数据增强:为了增加数据的多样性,可以使用回译、同义词替换等方法对文本进行扩充。例如,将 “驾驶机动车时需要系安全带” 回译为英文再译回中文,生成不同的表达方式。


在训练过程中,要注意调整超参数,如学习率、批次大小等。腾讯混元团队在训练模型时,通过调整学习率和权重衰减值,显著提升了模型的稳定性和性能。

? 模型优化:提升性能的关键策略


要让模型在 CMMLU 上表现更出色,还需要一些优化策略:

  1. 学科均衡训练:CMMLU 涵盖多个学科,不同学科的难度和数据量可能存在差异。可以对数据量较少的学科进行过采样,或者对数据量较多的学科进行欠采样,确保模型在各个学科上都能均衡发展。

  2. 多任务学习:将 CMMLU 与其他中文数据集结合,进行多任务学习。例如,同时训练模型进行文本分类、问答等任务,提升模型的综合能力。

  3. 知识蒸馏:将复杂的大模型知识迁移到轻量级模型上,既能保持性能,又能提高推理速度。猎户星空的 Orion-14B 模型通过知识蒸馏和量化技术,在千元级显卡上也能流畅运行。

  4. 强化学习(RLHF):通过人类反馈强化学习,让模型生成更符合人类偏好的回答。夸克大模型在医疗领域的应用中,就通过 RLHF 降低了幻觉率,提升了回答的准确性。


? 应用场景:CMMLU 的实战价值


CMMLU 在多个领域都有广泛的应用价值:

  1. 金融领域:度小满的 “轩辕 70B” 金融大模型在 CMMLU 上的表现位居榜首,能够准确理解金融知识,为金融从业人员提供专业的问答和分析支持。

  2. 医疗领域:夸克健康助手通过 CMMLU 评测,提升了医学知识推理能力,能够准确诊断疾病、提供治疗建议,甚至在实际病例中与医院检查结果一致。

  3. 法律领域:CMMLU 包含 “法律与道德基础” 等学科,模型可以通过学习这些内容,辅助法律条文理解、案例分析等任务。

  4. 通用领域:CMMLU 的多学科覆盖使其适用于通用大模型的评估和优化。例如,vivo 自研大模型在 CMMLU 上的表现远超同级别模型,提升了其在人文、社科等领域的综合能力。


? 总结


CMMLU 开源数据集是优化中文垂类模型的重要资源,它的多学科覆盖、专业知识储备和中国特色内容,为 AI 研究提供了强大的支持。通过合理的数据预处理、模型训练和优化策略,CMMLU 能够帮助研究者提升模型的性能,推动 AI 技术在各个领域的应用。

如果你也想让自己的模型在中文专业知识理解上更上一层楼,不妨试试 CMMLU 数据集。记得访问其 GitHub 仓库获取数据,结合实际需求进行训练和优化。相信在 CMMLU 的助力下,你的模型一定能在中文 AI 研究中取得更好的成绩!

【该文章由dudu123.com嘟嘟 ai 导航整理,嘟嘟 AI 导航汇集全网优质网址资源和最新优质 AI 工具】

分享到:

相关文章

创作资讯2025-05-15

如何快速找到自己的公众号定位?别再凭感觉,科学方法在这里

🎯 先搞懂:公众号定位到底有多重要?​​做公众号,定位就像船的罗盘。没有它,你写的内容可能今天是情感随笔,明天是科技评测,后天又变成了美食推荐。读者关注你,是因为某一类内容吸引了他们,可你这样东一榔

第五AI
创作资讯2025-02-28

朱雀AI检测的“数据承诺”:输入即检测,响应即清除

📊 为什么 AI 检测工具的数据安全比检测 accuracy 更重要 现在用 AI 工具的人越来越多,但有个问题一直没人敢掉以轻心 —— 你输入的内容到底去哪了?尤其是 AI 检测工具,用户往往要上

第五AI
创作资讯2025-03-14

选择适合自己的AI写作工具,你需要考虑这三个核心要素

现在 AI 写作工具真的太多了,打开应用商店一划能看到十几个,价格从免费到几千块不等。但用过的人都知道,不是贵的就一定好用,免费的也未必不能用。关键是怎么选到适合自己的?这两年我测试过不下 30 款同

第五AI
创作资讯2025-01-01

AI写的论文怎么改才能通过检测?2025最新版降重攻略来了

现在各平台对于原创作品要求极高,简单的 AI 写作已经不能够通过原创检测,因此写作方法要全面升级,既要兼顾文章的吸引力、有流量属性,又要能够通过朱雀大模型平台的 Ai 味检测。减少感叹号或问号,使文本

第五AI
推荐2025-08-07

力扣模拟面试防作弊指南:双机位 + 实时代码审查策略揭秘

?双机位布置:打造360°无死角面试环境力扣模拟面试的双机位要求让不少同学犯难,其实把它想象成给电脑装个「监控搭档」就简单了。主机位就是咱们平时用的电脑摄像头,记得调整到能露出整张脸和桌面的角度——下巴别藏在阴影里,键盘也别只露出半个。副机位一般用手机支架固定,放在身体侧后方45度角,这个位置既能拍

第五AI
推荐2025-08-07

Examify AI 是一款怎样的考试平台?2025 最新个性化学习计划解析

?精准提分黑科技!ExamifyAI如何重塑2025考试备考模式?一、核心功能大揭秘:AI如何让考试准备更高效?ExamifyAI作为新一代智能考试平台,最吸引人的地方就是它的自适应学习引擎。这个系统就像一个贴心的私人教练,能根据你的答题数据自动调整学习路径。比如你在数学几何题上错误率高,系统会优先

第五AI
推荐2025-08-07

公众号注册的“蝴蝶效应”:一个选择,可能影响未来三年的运营 - 前沿AIGC资讯

你可能觉得公众号注册就是填几个信息的事,殊不知,这里面的每个选择都像蝴蝶扇动翅膀,未来三年的运营轨迹可能就被悄悄改变了。很多人刚开始没当回事,等到后面想调整,才发现处处受限,那叫一个后悔。今天就跟你好好聊聊,注册时那些看似不起眼的选择,到底能给未来的运营带来多大影响。​📌账号类型选不对,三年运营路难

第五AI
推荐2025-08-07

AI写作如何进行事实核查?确保头条文章信息准确,避免误导读者 - AI创作资讯

上周帮同事核查一篇AI写的行业报告,发现里面把2023年的用户增长率写成了2025年的预测数据。更离谱的是,引用的政策文件号都是错的。现在AI生成内容速度快是快,但这种硬伤要是直接发出去,读者信了才真叫坑人。今天就掰开揉碎了说,AI写作怎么做好事实核查,别让你的头条文章变成 误导重灾区 。​📌AI写

第五AI
推荐2025-08-07

10w+阅读量爆文案例拆解分析:高手都从这5个维度入手 - AI创作资讯

🎯维度一:选题像打靶,靶心必须是「用户情绪储蓄罐」做内容的都清楚,10w+爆文的第一步不是写,是选。选题选不对,后面写得再好都是白搭。高手选选题,就像往用户的「情绪储蓄罐」里投硬币,投对了立刻就能听到回响。怎么判断选题有没有击中情绪?看三个指标:是不是高频讨论的「街头话题」?是不是藏在心里没说的「抽

第五AI
推荐2025-08-07

135编辑器会员值得买吗?它的AI模板库和秀米H5比哪个更丰富? - AI创作资讯

📌135编辑器会员值不值得买?AI模板库和秀米H5谁更胜一筹?🔍135编辑器会员的核心价值解析企业级商用保障与效率提升135编辑器的企业会员堪称新媒体运营的「合规保险箱」。根据实际案例,某团队通过企业会员节省了大量设计费用,完成多篇内容创作,单篇成本从千元降至百元内。这得益于其海量正版模板和素材库,

第五AI
推荐2025-08-07

新公众号被限流怎么办?粉丝增长影响分析及 2025 恢复指南 - AI创作资讯

新公众号被限流怎么办?粉丝增长影响分析及2025恢复指南🔍新公众号限流的核心原因解析新公众号被限流,往往是多个因素叠加的结果。根据2025年最新数据,超过70%的限流案例与内容质量直接相关。比如,有些新手喜欢用“震惊体”标题,像“惊!某公众号三天涨粉十万”,这类标题在2025年的算法里已经被明确标记

第五AI
推荐2025-08-07

AI内容重复率太高怎么办?掌握这些技巧轻松通过AIGC检测 - AI创作资讯

⚠️AI内容重复率高的3大核心原因现在用AI写东西的人越来越多,但很多人都会遇到同一个问题——重复率太高。明明是自己用工具生成的内容,一检测却显示和网上某些文章高度相似,这到底是为什么?最主要的原因是AI训练数据的重叠性。不管是ChatGPT还是国内的大模型,训练数据来源其实大同小异,都是爬取的互联

第五AI
推荐2025-08-07

135编辑器让排版更简单 | 专为公众号运营者设计的效率工具 - AI创作资讯

🌟135编辑器:公众号运营者的效率革命做公众号运营的朋友都知道,排版是个费时费力的活。一篇文章从内容到排版,没几个小时根本搞不定。不过现在好了,135编辑器的出现,彻底改变了这一现状。135编辑器是提子科技旗下的在线图文排版工具,2014年上线至今,已经成为国内新媒体运营的主流工具之一。它的功能非常

第五AI
推荐2025-08-07

用对prompt指令词,AI内容的原创度能有多高?实测效果惊人 - 前沿AIGC资讯

现在做内容的人几乎都离不开AI,但最头疼的就是原创度。平台检测一严格,那些模板化的AI文很容易被打回,甚至判定为“非原创”。但你知道吗?同样是用AI写东西,换个prompt指令词,原创度能差出天壤之别。我最近拿不同的prompt测了好几次,结果真的吓一跳——好的指令能让AI内容原创度直接从“及格线”

第五AI