OpenAI o3 发布:突破 AGI 基准,博士级解题能力,但高计算成本惊人

chatgpt中文网2024-12-21 09:25:5760

先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gptchongzhi

OpenAI 为期 12 天的发布会终于落下帷幕,而压轴登场的正是备受瞩目的 o3 系列模型——包括 o3 和 o3-mini。作为 o1 系列的继任者,o3 模型不仅在推理能力上有了质的飞跃,更是在 AGI(通用人工智能)的道路上迈出了重要一步。然而,其高昂的计算成本也引发了人们的关注。

OpenAI o3 发布:突破 AGI 基准,博士级解题能力,但高计算成本惊人推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top 

o3:突破 ARC-AGI 基准,展现博士级解题能力

o3 模型最大的亮点在于其在 ARC-AGI 基准测试中取得的突破性进展。ARC-AGI 基准由 ARC Prize Fundation 提出,旨在测试 AI 模型的通用智能水平。一直以来,该基准都被认为是 AI 领域的一大难题,而 o3 模型成为了首个突破这一基准的 AI 模型。

在 ARC-AGI 基准上,o3 模型最低性能可达到 75.7%,如果使用更多计算资源进行长时间思考,甚至可以达到 87.5% 的水平。这表明 o3 模型在理解和解决抽象问题、适应新任务方面已经达到了一个全新的高度,其能力已经接近人类水平。

ARC-AGI 基准测试要求 AI 模型根据配对的“输入-输出”示例寻找规律,然后基于一个输入预测输出。这类图形推理问题,对于人类来说可能并不陌生,但对于 AI 模型来说却是一个巨大的挑战。o3 模型的成功突破,充分证明了 OpenAI 在 AI 推理能力方面的巨大进步。

高计算成本:o3 的“阿喀琉斯之踵”

尽管 o3 模型在性能方面表现出色,但其高昂的计算成本也让人望而却步。在低计算量模式下,o3 模型每个任务需要 17-20 美元,而在高计算量模式下,每个任务则需要花费数千美元。

尽管如此,OpenAI 强调,o3 模型的成功并非简单的暴力计算,而是代表了人工智能适应新任务的能力的重大飞跃。它能够适应以前从未遇到过的任务,这与以往的 LLM 相比,是一次真正的质的转变。

o3 模型的核心机制:程序合成与蒙特卡洛树搜索

对于 o3 模型的工作原理,OpenAI 并没有给出明确的解释。不过,研究人员推测,o3 模型的核心机制可能是在 token 空间内进行自然语言程序搜索和执行。在测试时,模型会在可能的思维链空间中搜索,这些思维链描述了解决任务所需的步骤,这种方式可能与 AlphaZero 风格的蒙特卡洛树搜索(Monte-Carlo tree search)颇有相似之处。

这种程序合成的能力,使得 o3 模型能够将已有的知识重新组合,创造出新的解决方案,从而适应新的任务,这是以往的 LLM 模型所不具备的。

o3-mini:高性能低成本,专注编程领域

与 o3 模型相比,o3-mini 是一个更经济高效的版本。它在提升推理速度、降低推理成本的同时,兼顾了模型性能。o3-mini 提供了三种不同的推理时间选项——低、中、高,以适应不同的应用场景。

与 o1 模型相比,o3-mini 在 Codeforces 上的性能具有显著的成本效益,这使其成为一个非常适合用来编程的模型。在数学问题上,o3-mini (low) 实现了与 gpt-4o 相当的低延迟。

OpenAI 的研究人员还现场演示了 o3-mini 的强大之处。他们使用 o3-mini 编写了一个本地服务器,可以根据用户给出的文本消息,调用 o3-mini 的 medium 选项,然后获取得到的代码,将其保存到桌面的一个临时文件中,最后在一个新的 Python 终端中执行该文件。整个过程仅用时 38 秒,充分展现了 o3-mini 的高效性。

此外,他们还使用 o3-mini 对自身进行了测试,让模型编写了一个测试该模型自身的脚本,并在 GPQA Diamond 数据集上进行了测试,得到了 61.62% 的准确度。

安全测试:o3 模型发布前的最后一道关卡

OpenAI 对 o3 系列模型的安全测试非常重视。他们表示,已经做了大量的内部安全测试,而现在他们正在推进外部安全测试。

从即日起,想要参与的测试者可以申请测试 o3-mini,至于 o3,就连测试员也还得继续等待。早期访问申请现已在 OpenAI 网站上开放,并将于 2025 年 1 月 10 日关闭。

此外,OpenAI 还介绍了一种新的安全评估方法:deliberative alignment,即审议式对齐。这是一种直接教授模型安全规范的新范式,并可训练模型在回答之前明确回忆规范并准确地执行推理。

结语:AI 发展的新篇章

OpenAI o3 模型的发布,标志着 AI 发展进入了一个新的阶段。它不仅在性能上有了质的飞跃,更是在 AGI 的道路上迈出了重要一步。

尽管 o3 模型的高昂计算成本限制了其广泛应用,但 o3-mini 的出现为我们提供了一个更经济高效的选择。相信在不久的将来,随着技术的不断进步,AI 将会更好地服务于人类,解决更多的问题。


OpenAI o3 发布:突破 AGI 基准,博士级解题能力,但高计算成本惊人

本文链接:https://yeziwang.cc/openai_1571.html

保姆级chatgpt注册教程chatgpt怎样提取视频内容GPT4.0与3.5有哪些区别GPT-3.5模型GPT-3.5GPT的3.5和GPT4.0区别Chat GPT3.5GPT3.5GPT4.0GPT写论文

相关文章