先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app
如何透明化评测大模型的各项数学能力如今成了大家的难题,因为开源数据集往往评测角度较为局限,如常用的 GSM8k 专注日常计算,MATH 只专注于高中数学竞赛。
推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top
再加上,负责大模型数学部分的产品经理往往对新训练的模型有下面的小小期待:
🏠想要全面知道从小学,初中到大学每个阶段模型数学表现各怎么样
📚中英文能力都要体现
🏷要是每道题都有知识点标签就好了
🤔emmm,能不能再考下理论题,天天做应用题也不知道是不是模型基础没打好
✈️测试出的结果要鲁棒,真实反映模型能力
😊不想收集一大堆数据集,最好上面的内容能一次测试完(-v-)
.....
在最新的 ACL2024 中,由上海人工智能实验室联合香港中文大学,北京航空航天大学和南京大学提出的 MathBench 打破了大模型数学评测不透明的现状,且已经被 ACL2024 Findings 接收。
Paper:
https://arxiv.org/abs/2405.12209
Github:
https://github.com/open-compass/MathBench
MathBench LeaderBoard: https://open-compass.github.io/MathBench
相比传统的数学评测集,MathBench 有以下特点:
多维度的知识框架:MathBench 配有一个多层次知识体系,具有从基础计算,小学到大学的 5 阶段的丰富题目,每阶段都配有相应的3层细粒度知识点,一次评测即能从广度和深度两个维度上掌握模型能力,不留遗憾。
理论与应用兼顾:“基础不牢,地动山摇”。MathBench 分为 MathBench-A(应用能力)和 MathBench-T(理论能力)两个子集,不仅包含实际应用问题,还包含相关领域专家精心收集的基础数学概念和推论题。
双语支持:对于上述的所有知识层次,以及理论应用题,MathBench 都提供中英文题目,且中英题目根据语境学习现状独立收集,拒绝机翻,以保证评测结果的合理性。
鲁棒评测:针对数学评测难以抽取答案的现状,MathBench 中的大部分题目为经过专家标注的选择题,保证了选项合理且有一定的干扰度,并且采用循环评测(CircularEval)作为基础评测方式,模型需要多次答对打乱选项顺序的同一题目才认为该题目被模型所掌握。
来源可靠:MathBench 中约 80% 题目为新收集的题目,来源大部分为专业考试,如高考、中考等,且经过专门校验。
(小学与基础运算因有相同知识点体系而合并)
总体结果,GPT-4o 优势明显,国产模型紧随其后
(A代表应用题结果,T代表理论题目)
在应用题上:
GPT-4o领先较大,在高学段尤为明显
部分国产模型,如 Qwen-Max-0428 和 DeepSeek-V2-API 都已经有着超越 GPT4-0125-Preview 的表现,但离最新版的 GPT-4o 仍有不小差距。通过 MathBench 的多阶段细分结果可以发现,差距在较高学段,如高中和大学的题目上尤为明显。如 GPT-4o 在大学阶段的应用题目上虽然只有 54.0的CircularEval 分数,但相对 Qwen-Max-0428 已经有着接近翻倍的表现。 部分开源模型实力强劲
如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有着超过 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表现。DeepSeek-Math-7B-RL 作为 7B 量级的开源数学模型表现亮眼,在应用题目上甚至超过了 Qwen-72B-Chat。
GPT-4o 各学段全面领先,展现扎实的基本数学功
作为基本数学理论能力的展现,MathBench-T 中不仅考察模型基本数学知识,还加入常用的推论,以及精心设计的干扰项来迷惑模型,所以模型难以通过简单背诵来得到高分。GPT-4o 在此阶段全面领先各 API 模型,拿下应用理论双第一名🏆,证明了其不仅基础扎实,且会熟练运用。
理解理论并不代表能够熟练应用
如 Qwen-1.5-110B-Chat 虽与 GPT-4o 在理论阶段有着相似的分数,但在应用阶段两者差距较大,可能因为在较高阶段的数学知识上,运用要比理论需要更多的技巧,比如在高中和大学阶段,两者的应用分数差距越来越大,而理论上却没有相似的明显差距。
MathBench 应用题在各学段上的平均模型结果,呈现自然梯度趋势
GitHub:
https://github.com/open-compass/
OpenCompass榜单:
https://opencompass.org.cn/home
只需下面一行代码,即可支持百种大模型一键化评测!如 Llama2-7B-Chat 模型进行 MathBench 评测只需要:
# Inference MathBench with hf_llama2_7b_chat modelpython run.py --models hf_llama2_7b_chat --datasets mathbench_gen
本文链接:https://yeziwang.cc/openai_270.html
chatgpt4.0怎么才能使用chatgpt新功能或与人一致chatgpt主要的插件chatgpt有搜索限制吗ipad chatgptchatgpt检索本地数据chatgpt可以自己培养么手机如何高效使用chatgptchatgpt4.0申请后多久可用注册chatgpt不支持电子邮件