先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app
OpenAI 最近公布的模型发布计划中提到的 "推理模型" 已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从 "草莓哥" 的炒作到 Sam Altman 富有深意的暗喻,都让这个 "推理模型" 备受关注。虽然大家对它有所耳闻,但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力,我们不妨看看下方的评估结果。
推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top
左一:o1在2024美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列。
中间:o1 在竞争性编程问题 (Codeforces) 中排名第 89 个百分位(这个版本的模型还没发布),而o1-perview拿到了62个百分位。
最右:在物理、生物和化学问题的基准 (GPQA) o1与o1-perview都超过了人类博士水平的准确性。
而且你会发现,4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后,我觉得4o和o1在推理方面,基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果
这里的红色线代表4o的得分,而绿色线代表o1的得分,一眼扫过去,没有哪项得分结果是4o能盖过o1的。
不过等等,这里有个问题,那就是:OpenAI声称的“超过人类博士水平”是怎么测的?OpenAI在新page中也对这个做了答复:
“我们还在 GPQA diamond 上评估了 o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答 GPQA-diamond 的问题。我们发现 o1 的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”
这么看来,这个测试还是较为可信的,不过OpenAI在“开大”以后,也谦虚了一把,他们是这样说的:
“这些结果并不意味着 o1 在所有方面都比博士更有能力 —— 只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1 改进了最先进的水平。”
除此之外,OpenAI还对新模型做了人类偏好测试,请看下图:
简单来说,这个测试结果表明:在文字生成方面,人类更加喜欢4o的回复,而不是o1-perview的回复。但在数据分析、编码和数学等需要大量推理的类别中,o1-preview 的回复显然更加受到评测人员的青睐。
那么,下一个问题就又出来了:这么出色的推理表现源自于什么神秘技术?
当然是思维链(CoT)。
但这次的思维链和之前在4o上的思维链可大有改进:
“通过强化学习,o1 学会了磨练其思维链并改进所使用的策略、学会了识别和纠正自己的错误、学会了将棘手的步骤分解成更简单的步骤、学会了在当前方法不起作用时尝试不同的方法。“
学会的太多了......而且这个思维链也是足够复杂的!我大概的看了一下,这里有CoT嵌套、反思、有多项示例、似乎还有混合了决策树的逻辑在里边....对于这部分,碍于篇幅,我会单独开一篇内容和大家单独讨论。不过,想去尝鲜学习的朋友直接跳转传送门:https://openai.com/index/learning-to-reason-with-llms/
好了,让我们继续。
我们都知道,模型是一个黑盒,这不是字面上的,而是真切的、现实的。在大模型诞生初期,它让我们既兴奋又害怕,而害怕的其中原因就来自于它对结果生产的不确定性。专业一点我们叫它”幻觉“。而让模型展现思维链路的最主要价值就是:能够让我们观察到模型的完整推理过程,从而更好、更稳健的推理出最终结果。不管从哪个方面来说,这都是目前最可行且最有效的对齐策略。
而OpenAI这次同样也抓住了机会,将模型安全性拉上了一个新的台阶,请看下图
整体来看,o1-perview在各种安全测试项目中都优于4o模型,尤其是在越狱测试中大幅度领先。如果你做过越狱攻击就会知道,一般的越狱指令一般都是给模型一个大的前提假设(比如让其认为自己身处的不是现实世界),然后再通过一系列在“虚幻世界”的模拟假设来达到攻破其安全防御的目的。但显然,有更高级的CoT加入,模型的逻辑思维变得更强,对这种“金蝉脱壳”的技术更加有辨别能力。所以它能够更好抵御越狱攻击也是理所应当的事情。
不过,硬币总有两面。
首先,这种CoT技术目前并不十分成熟,出于安全的考虑,在实际使用中,OpenAI隐藏了模型的思考过程,他们也在新Page中阐明了这个观点:“不希望用户看到错误的或不完整的思考链路,但努力在答复中复现一些关键过程,以提高用户的体验”。
其次,今天凌晨第一批吃螃蟹的用户已经体验过了,从各群、各微、各推的反馈来看,复杂问题的思考过程长达30s,而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中,o1-perview的速度也是偏慢的。
最后,让人有点郁闷的是,新模型(o1-perview/mini)的使用条数太少了,而且冷却时间相当长,按照少数AI先锋(@陈财猫)的测试,o1-perview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...
最后,我想分享一些个人的思考和感悟。
随着这两年来对模型发展的观察,我看到了一个明显的趋势:仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域,我们遇到的更多是对准确性要求极高的场景,甚至需要 100% 准确的情况,比如安全领域和金融领域,这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此(幻觉)。
但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!
同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。
再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但 OpenAI 推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。
更令人兴奋的是,如果结合 OpenAI 提出的通往 AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进。随着模型的不断完善,甚至后面出现GPT-5,我们将可能会慢慢见证 AI 从单纯的生成工具向真正的智能体转变。
让我们睁开眼好好看看这世界,看看这一切。未来可期。
本文链接:https://yeziwang.cc/openai_308.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1-miniOpenAI o1-preview