GPT-4o mini 登榜遭质疑,Chatbot Arena 怒而公开数据!

chatgpt中文网2024-07-29 12:09:1189

先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app

GPT-4o mini 这个OpenAI 最新发布的"小鲜肉",居然在Chatbot Arena排行榜上杀出重围,排名高得让人直呼有内幕!

GPT-4o mini 登榜遭质疑,Chatbot Arena 怒而公开数据!推荐使用ChatGPT中文版,国内可直接访问:https://ai.p6p6.cn 

人们一直在问为什么 GPT-4o mini 在 Arena 上的排名如此之高?看着此起彼伏的质疑声和赞叹声,那到底GPT-4o mini 是"实力派"还是"注水选手"?咱们来扒一扒这它的底细!

实力派还是注水选手?

面对质疑声,lmsys.org(Large Model Systems Organization)这个Chatbot Arena 的主儿可不干了。他们直接放话:

想知道GPT-4o mini为啥这么能打?别光嘴上说,来Arena亲自试试

看来是要让大伙儿亲自下场PK一番啊。

不过他们也提醒大家,别光看总榜,要看看各个分类的表现(见下图👇)。毕竟AI也是有专攻的嘛,有的擅长数学,有的擅长写代码,有的可能擅长讲段子(咳咳)。

数据公开,实力见真章

为了平息众怒,lmsys.org决定来个大招:公开数据

他们承诺要放出20%的GPT-4o mini对战数据,让大家自己瞅瞅到底咋回事。这波操作可以说是相当透明了,连"键盘侠"们都不得不竖起大拇指。

不过别高兴太早,他们还留了一手:

剩下的80%数据我们先藏着,免得你们过度拟合,把我们的benchmark玩坏了。

这波操作简直6,可以说是既开放又保守,既要让大家看到真相,又不想被人趁机钻了空子扒了底裤。

实在是高!

1000条对战数据,等你来挖宝

而就在今天,Wei-Lin Chiang(UC Berkeley的CS博士生)宣布:GPT-4o mini的1000条对战数据已经发布!

他强调:

这可不是挑三拣四的结果,而是真真儿的随机样本,让你看到最真实的分布。

更绝的是,他们还搞了个Gradio demo(一种可交互的AI应用界面),你可以:

  1. 挑语

  2. 对手

  3. 筛胜

想看GPT-4o mini在哪些方面特别牛,哪些方面还有待提高?

自己动手,丰衣足食!

用户们的花式问题

lmsys.org的小伙伴们看了这些数据,称:

我们看到用户们提出了各种各样的问题,从编程、数学、创意写作到信息搜索,应有尽有。这些真实场景下的提问,真是让我们大开眼界啊!

看来是被用户们的脑洞和创意给震惊到了。也是,AI模型嘛,就得经得起各种刁难才行。

碎碎念

lmsys.org最后还不忘感恩一波:

从第一天起,我们就超级感谢社区的支持。那些黑子们是阻止不了我们的,我们对科学评估的承诺坚如磐石!

不过他们也承认:

显然我们还在学习中,就像其他所有人一样。但我们会继续努力,为大家提供服务和洞察。

这自我反思和谦虚态度,也算是不卑不亢。

One More Thing

最后留个彩蛋:

有细心的网友发现,如果你想让AI在"9.11和9.9哪个大"这种问题上犯傻,可以试试把选项放在问题前面。反之,如果问题在前,AI就不会出错。

这告诉我们,AI的理解能力还是很依赖于问题的表述方式的。所以在使用AI的时候,记得要使用正确的姿势哦!

那么问题来了,你觉得这个GPT-4o mini到底几斤几两?

GPT-4o mini 登榜遭质疑,Chatbot Arena 怒而公开数据!

本文链接:https://yeziwang.cc/openai_296.html

chatgpt目前面临的现状chatgpt 可以用于机械设计吗chatgpt有搜索限制吗chatgpt 号码验证chatgpt正在颠覆互联网手机端chatgpt发送不了消息新必应比chatgpt好在哪里怎么解锁chatgpt各项技能如何看待chatgpt写论文chatgptplus可以试用几次

相关文章