OpenAI o1 有多强?我们用逻辑推理,24 点,中国象棋和《黑神话》来评测下

chatgpt中文网2024-09-17 21:22:288

先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app

介绍 OpenAI o1-preview

OpenAI o1 有多强?我们用逻辑推理,24 点,中国象棋和《黑神话》来评测下推荐使用ChatGPT中文版,国内可直接访问:https://ai.yeziwang.cc 

OpenAI 从 9 月 12 日开始提供一系列新的推理模型,用于解决困难问题。新的 AI 模型在回应前花更多时间思考。它们能够推理复杂任务,并解决比以前模型在科学、编码和数学方面更难的问题。OpenAI 在 ChatGPT 和 API 中发布了这个系列的第一个预览版模型,预计会有定期的更新和改进。

作为一个早期模型,它还没有许多使 ChatGPT 有用的功能,比如浏览网络获取信息以及上传文件和图像。但对于复杂的推理任务,这是一个重大进步,代表了 AI 能力的新水平。鉴于此,OpenAI 将计数器重置回 1,并将这个系列命名为 OpenAI o1。

OpenAI o1工作原理

OpenAI 训练这些模型在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会了完善思考过程、尝试不同策略和认识自己的错误。OpenAI o1 是一个通过强化学习训练来执行复杂推理的新型大语言模型。o1 在回答前会思考——它能在回应用户之前产生一个长的内部思考链。

OpenAI 的大规模强化学习算法在高效的训练过程中教会模型如何利用其思考链进行富有成效的思考,并发现 o1 的性能随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。这种方法的扩展限制与大语言模型预训练的限制有很大不同,我们正在继续研究这些限制。

在 OpenAI 的测试中,下一个模型更新在物理、化学和生物学具有挑战性的基准任务上表现类似于博士生。OpenAI 还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而推理模型得分为 83%。它们的编码能力在比赛中得到评估,在 Codeforces 竞赛中达到了 89% 的百分位。在美国数学奥林匹克(AIME)资格赛中位列美国前 500 名学生之列,并在物理、生物和化学问题基准测试(GPQA)上超越了人类博士级的准确率。

OpenAI o1安全性


作为开发这些新模型的一部分,OpenAI 推出了一种新的安全训练方法,利用它们的推理能力使它们遵守安全和一致性指南。通过能够在上下文中推理安全规则,它可以更有效地应用这些规则。

衡量安全性的一种方式是测试模型在用户试图绕过安全规则时(称为"越狱")能够继续遵守这些规则的程度。在最难的越狱测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84。

OpenAI o1逻辑推理实测


我们先使用经典的小学奥数逻辑推理题目对 OpenAI o1 进行评测。

推理过程和结果完全正确。更早期的模型(GPT-3.5 和 GPT-4、GPT-4o)在不借助外部工具的情况下结果都不正确,有兴趣的同学可以试试其他模型的表现。

24 点游戏实测



思考过程:


寻找组合我正在探索如何使用四个7和基本运算符号,推导出等于24的组合。探讨不同方式我正在探讨如何运用 7、7、7、7 这四个数字以及四则运算来得到 24。尝试了加法和减法,但结果超出了预期。可能需要更多创意。探索不同方法计算 (7 × 7) - (7 × 7) = 0,尝试其他选项发现无效,没有找到有帮助的结果。测试不同方法我正在尝试使用四个7来组合成24。通过加法、减法、乘法和除法的不同组合,虽然还没有找到一个有效的办法,但我仍然在继续尝试更多的可能性。尝试不同方法正在思考各种数学表达式,包括乘法、加法、除法和减法,来找到符合特定条件的解。尝试不同组合我正在尝试各种数学表达式,包括乘法、除法和括号等,来找到一个等于24的组合。虽然目前还没有找到成功的组合,但我正在继续探究。探索数字结合我尝试将数字组合起来,进行乘法和除法运算,帮助得出24的结果。还在继续寻找有效的解决办法。尝试不同的方法先是试了整数运算,然后尝试了分数运算,但都没有带来好的结果。继续探索不同的可能性。探索新的方法我在计算不同的方式,试图找到满足条件的解。通过各种运算,我逐渐在每一步中找到新的可能性。检查多种方案我正在仔细审核所有可能的解法,每一个步骤都充满了探讨与试验。每个选项都在为找到正确的答案铺平道路。尝试各种方法渐渐地,我在探索如何使用四个 7 组合等于 24。试验了加、减、乘、除和分数,找到了一些可能性,但仍需要更多创意。探索运算方式好奇不同运算方法之间的关系。比如,计算复杂表达式时,我会尝试结合乘法、除法和加法,看看是否能得到新的见解。解决数学方程我在尝试不同的方法来解决这个数学方程。通过替换值和重新分配操作,我发现类似的策略可以用于其他问题。这让我觉得数学问题的多样性和创造性真的很有趣。方案139-150: 继续探索使用四个7和基本运算的其他组合。尝试了各种四个7和基本运算的组合,都未能成功得到24。计算之间的关系我正在探讨多种计算式,以解决这道难题。尝试了加法、乘法和除法等运算,并进行了不同形式的组合,仍未找到解。探讨方法我在考虑不同的操作组合来达到目标数字。例如,使用基本的算术运算,如加减乘除,可能需要使用分数或其他高级运算。计算不同选择我正在计算不同的数学选择,涉及乘法、除法和加法。每个选择都一些变式,结果和方法有所不同。探寻解决方案正在检查几个数字计算选项,期望找到合适的公式来解决问题。探讨可能性我正在挖掘不同的数学组合和运算方式,包括乘法、加法、减法、除法和平方根。最终,发现仅使用四个7无法达到所需的结果。尝试不同方法我正在尝试使用四个7和基本运算符生成24。探索了以上的组合,但都不足以生成24或必须使用额外的数字。探索新思路在尝试使用整数进行四则运算的过程中发现,无法得到24。于是,考虑到可能需要更复杂的运算,或许可以借助阶乘来解答。筛选方案我在寻找用四个7和四则运算得到24的办法。尝试了加法、减法、乘法和除法,但目前没有找到有效的组合。探索数字拼接考虑将数字拼接起来,如何使用四个7来进行计算。尝试了多个组合,发现符合条件的组合并不多。
从上面例子可以看到 o1 非常擅长 24 点游戏,分析计算过程十分严谨,结果也准确无误,相比 GPT-4o 有了显著进步。


中国象棋实测


笔者:你是一个中国象棋大师,擅长对弈。我执红先手,你执黑后手。下面是我们已经对弈的棋谱:炮二平五,马八进七,炮五进四,请问接下来你应该走哪步?OpenAI o1:【思考 59 秒】分析棋盘布局将棋盘布局重建起来,我在想黑方接下来的最佳走法。了解棋盘排位在中国象棋中,棋盘结构宛如棋盘上的人生,纵横各个角落,红方从右至左编号,黑方则从左至右编号。这些编号为我们揭示了棋盘的布局。观察棋盘动态红炮从2平5,黑马从8进7,红炮从5进4。我正在重构棋盘状态。审视棋局布局我正在查看棋盘上的兵器位置,红方和黑方的车、马、相、仕、帅、炮、兵都各自占据了不同的位置。战斗即将打响!炮二平五 - 红方炮从文件2平移到文件5。马八进七 - 黑方马从文件8走到文件7,向前左走。考察棋局我在检查黑棋的初始位置,确认车、马、象、士和将的位置,特别注意到了黑马的移动情况。然后,我观察红炮的移动,确保其正确推进4步。分析棋路障碍炮的移动受阻于在棋盘上列(5,3)上的卒子。炮无法直接前进到(5,6)列,除非卒子位置发生变化。重新审视中心位置在一些版本中,红方的中央兵并不在(5,3),但在中国象棋中,红方的中央兵确实从(5,3)开始。这使得炮也不能从(5,2)直接移到(5,6)。這雖然讓我思考是否應該將炮五进四解讀為炮向4檔進一步。静态判断我在思考炮移动的具体情况,如果炮从5号文件推进了4步,那么它的目标文件和前方的棋块都必须是明确的,这让我觉得这个过程中可能有误解的地方。理解表示在中国象棋符号中,‘进’或‘退’后面的‘数’表示目的地的文件或阶级,不是步骤数量。这样理解清楚了发送炮的位置。理解步伐和方向我正在分析兵和炮的行进规定。兵的行进以文件为单位,炮的行进以步数和方向为核心。这让我想到,理解棋子的行进规则非常关键。检查局势红炮(5,2)信号被红卒(5,3)挡住,无法移动至(5,6)。太厉害了,类似情况下可能会有变种规则。确认移动范围考虑炮五进四的移动范围。红方的炮位于第5列,第4列的移动感觉合适。需要验证目标列是否正确。确认位置发现炮无法跳跃过棋子,仅在捕子时才能跳跃。确定起始位置红方兵是:(1,4),(3,4),(5,4),(7,4),(9,4)。解释棋子位置红方的马是在第1列的第4行,而黑方的马是在第3列的第7行。红方的炮在第5列的第4行被自己的马阻挡,因此,炮5进4是将炮向前推进一步至第5列的第3行。标准起始位置理解棋盘移动在分析“炮五进四”(C5+4)时,我考虑了炮的移动路径,但发现红方的兵已在该位置,炮无法前进到那里。重新定位起始位置在考虑中国象棋的起始位置时,发现在标准棋局中,将骑兵放在红方的第三行,而不是第四行。这让我思考了棋盘布局的变化。移动棋子红方的兵布局在1,3; 3,3; 5,3; 7,3; 9,3,黑方的兵在1,6; 3,6; 5,6; 7,6; 9,6。从5,2到5,4没有走法照应兵,5,4应指列号变化。炮不能斜着走。解析与推测我正在考虑'炮五进四'的意思,或许是炮从第5列移动到第4行。然后,我想到棋子可能位于第4列,而不是第3列,这样炮可以移动到第3列。解析“炮五进四”我在想,“炮五进四”可能指炮兵从(5, 2)移动到(5, 6),移动4步。若棋盘上没有障碍物,它就能顺利前进。可能炮兵起始位置是4号线。移动过程的观察炮6走6,炮走6就不起了。梳理棋局红方炮从(5,2)走到(5,5),捕黑方兵。但黑方兵在(5,7),或许记谱存在误差。审视黑方后续动作红方走了炮从2平5,黑马从8进7,红炮从5进4。接下来的可能是黑方的走法。调整炮的位置红方的炮从 (5,2) 移动到 (5,6),目前位于河边。黑方需要及时做出应对。选择棋步我在评估不同的策略来阻挡红方炮的进攻。推进中心卒或移动右方炮都是可行的选择,具体取决于当前局势。【回答】我走炮八平五。

棋盘分布分析不错,走子的规则也略懂一二,但没有理解中国象棋的炮可以跳过己方兵吃对方的卒子,因此得出了错误的结论。o1 相比 GPT-4o 在分析过程已经有了进步,仍需努力。

《黑神话·悟空》实测

用最近大火的国产 3A 游戏《黑神话·悟空》来提问,看看模型表现如何。

显然,o1 模型训练数据截至 2023 年 10 月,其知识储备还不足以回答游戏内容相关的问题。我们换个问法。


笔者:以西游记为背景,设计一款游戏,有哪些思路?OpenAI o1:【思考 9 秒】设计游戏概念我正在构思一款以《西游记》为背景的游戏。首先,我想到了角色扮演游戏的可能性,然后渐渐地扩展到移动游戏的可能性。最后,我的思绪回到了冒险游戏的可能性。考察游戏可能性我正在探讨基于《西游记》的游戏设计理念,包括动作RPG、团队冒险、开放世界探索和战略游戏。考虑多种方式来增加游戏的创新性和趣味性。结合经典与现代我正在探讨如何将经典小说《西游记》与现代游戏设计结合,创造出既富有故事性的单人游戏元素,又包含多人在线合作的多样性和互动性。这样,玩家可以在体验深厚文化背景的同时,享受现代游戏的多样性和互动性。探索游戏类型我们正在打造几款游戏,包括角色扮演游戏、策略游戏、谜题游戏、大型多人在线游戏和叙事驱动游戏,以及让玩家参与西游世界的各种玩法。【回答】以《西游记》为背景设计一款游戏,可以从以下思路入手:
动作冒险游戏:-角色扮演:玩家扮演孙悟空,使用金箍棒和七十二变等技能,与各种妖魔鬼怪战斗。-关卡设计:根据原著中的九九八十一难,设计丰富多样的关卡和挑战。-装备系统:收集仙丹、法宝,提高角色能力。
团队合作游戏:-多角色切换:玩家可以在孙悟空、猪八戒、沙悟净和唐僧之间切换,每个角色有独特的技能和作用。-合作解谜:利用不同角色的能力,解决路途中的机关和谜题。
开放世界游戏:-自由探索:打造一个庞大的古代神话世界,玩家可以自由探索名山大川和神秘地点。-支线任务:除了主线的取经之旅,还可以接取各类支线任务,了解不同的故事和人物。
策略模拟游戏:-资源管理:玩家需要管理团队的资源,如食物、法力和装备。-路线选择:根据不同的路线选择,遭遇不同的事件和挑战。
卡牌收集游戏:-角色收集:收集原著中的各路神仙和妖怪卡牌,组建强大的卡组。-策略对战:通过卡牌对战,挑战其他玩家或AI。
MMORPG(大型多人在线角色扮演游戏):-自定义角色:创建属于自己的角色,选择门派和技能。-社交互动:与其他玩家组队,完成副本和世界事件。
教育益智游戏:-文化传承:通过游戏了解中国古典文学和神话故事。-知识问答:在游戏过程中穿插与《西游记》相关的知识问答,加强学习趣味。
虚拟现实(VR)游戏:-沉浸式体验:利用VR技术,让玩家身临其境地感受取经之旅。-体感操作:通过体感设备,模拟孙悟空的打斗动作。
音游或节奏游戏:-音乐元素:结合经典的《西游记》音乐和现代元素,设计音乐节奏关卡。-角色互动:随着音乐节奏,完成角色的动作和剧情推进。
互动电影式游戏:-剧情选择:玩家的选择会影响故事的发展和结局,增加游戏的可重玩性。-高品质画面:采用电影级别的画质和动画,增强视觉体验。
在设计过程中,可以充分挖掘《西游记》中的神话元素、人物性格和故事情节,结合现代游戏机制,创造出既有传统文化内涵又具备娱乐性的游戏作品。

我们会发现 o1 回答的内容和《黑神话·悟空》游戏里面很多元素都出奇一致,甚至还提出更多可能性。

继续追问。



笔者:以动作冒险游戏为例,需要做哪些工作才能实现完整的游戏?OpenAI o1:【思考 15 秒】概述项目需求用户正在询问关于西游记的动作冒险游戏开发步骤。例如:制定游戏规则、设计故事情节、创建角色和敌人、设置场景、梳理物品库存、编写游戏代码、进行游戏调试和测试等。构思与策划我正在探索基于《西游记》的动作冒险游戏开发步骤,涵盖概念规划、故事创作、角色设计、环境和关卡设计、游戏机制、编程和技术实现、艺术和图形、声音和音乐以及测试和质量保证。我正在为回答准备一个中文答案。构思和设计我正在进行《西游记》背景的动作冒险游戏的概念和策划,涉及游戏类型、风格、目标受众、故事情节和世界观设定。完成这一步后,我会继续进行角色设计、美术与动画、场景与关卡设计等,最终发行和推广。【回答】要实现一款完整的以动作冒险为类型、以《西游记》为背景的游戏,需要经过以下主要工作步骤:
项目策划与概念设计:游戏定位:明确游戏的核心玩法、目标受众和平台(如PC、主机、移动端)。故事情节:编写主线剧情,决定是忠于原著还是进行创新改编。世界观设定:构建游戏世界的历史、文化和地理环境。玩法机制:确定战斗系统、解谜元素、角色成长等核心玩法。
角色设计:主角形象:设计孙悟空等主要角色的外观、性格和技能。敌人和NPC:设计各类妖怪、神仙和普通人物的形象和能力。角色动画:为角色制作行走、战斗、互动等动作动画。美术设计:
概念美术:绘制游戏中的场景、角色、道具的概念图。3D建模与贴图:根据概念图制作三维模型,并进行材质和纹理的贴图。UI设计:设计游戏的用户界面、菜单和图标。场景与关卡设计:
地图制作:构建游戏世界的整体地图,包括各个场景和地区。关卡布局:设计每个关卡的地形、敌人分布、机关和谜题。环境氛围:通过光影、音效等元素营造场景的氛围和情感。程序开发:
引擎选择:选择合适的游戏引擎(如Unity、Unreal Engine)。核心系统开发:编写角色控制、战斗系统、AI行为等核心代码。工具开发:为美术和设计人员开发关卡编辑器、资源管理器等工具。性能优化:优化游戏的加载时间、帧率和内存占用。音频设计:
背景音乐:创作符合游戏情节和场景的音乐。音效制作:为角色动作、环境、战斗等制作音效。配音录制:为角色和旁白录制专业的配音。测试与质量保证:
功能测试:确保游戏的各项功能正常运行,没有明显Bug。平衡性测试:调整游戏的难度和角色能力,确保游戏平衡。兼容性测试:在不同设备和平台上测试游戏的兼容性。用户体验测试:通过玩家测试收集反馈,改进游戏体验。法律与版权:
版权确认:确保使用《西游记》素材的合法性,处理相关版权事宜。知识产权保护:为游戏的原创内容申请版权和商标保护。市场与推广:
品牌设计:设计游戏的Logo、宣传海报和周边产品。营销策略:制定宣传计划,包括预告片、试玩版、媒体报道等。社区运营:建立官方网站、社交媒体账号,与玩家互动。发行与维护:
发布准备:在各大平台提交审核,准备服务器和技术支持。上线运营:监控游戏运行状况,及时处理问题和玩家反馈。更新迭代:根据玩家反馈和市场需求,持续更新游戏内容和功能。团队组建与管理:
人员配置:招聘游戏策划、美术、程序、音频、测试等各领域的专业人才。项目管理:制定项目计划,分配任务,跟进进度,控制预算。沟通协作:建立有效的沟通机制,促进团队协作。资金与资源管理:
预算规划:制定项目的整体预算,包括人力、设备、软件、营销等费用。资金筹措:通过投资、众筹、合作等方式获取项目资金。具体实施要点:
深度挖掘原著:在尊重原著的基础上,创造性地解读和扩展故事情节。创新的游戏机制:结合现代玩家的喜好,设计有趣且富有挑战性的玩法。高品质的美术和音效:提升游戏的视觉和听觉体验,增强沉浸感。用户反馈循环:重视玩家的意见,不断优化游戏。注意事项:
文化敏感性:处理好传统文化元素的呈现方式,避免不当使用。技术难点攻克:提前预估可能的技术挑战,预留时间和资源解决。风险管理:制定应急预案,处理可能的项目延误或突发问题。通过以上全面而细致的工作,才能成功打造一款以《西游记》为背景的优秀动作冒险游戏。

继续追问,这次是 BOSS 设计。


笔者:如果金池长老是游戏的 boss,试着帮忙设计符合他人物特点的技能OpenAI o1:【思考 8 秒】设计角色技能核实角色身份我正在确认《西游记》中金池长老的角色和作用,确保他的贪婪特征是否与 Boss 设定相符。设计角色技能我在思考如何为游戏角色金池长老设计技能时,确保技能契合其人物特点,避免任何攻击性或排他性描述。【回答】如果将金池长老设定为游戏的BOSS,需要设计符合他人物特点的技能。金池长老在《西游记》中是一个表面慈悲为怀、实则贪婪成性的角色,他觊觎唐僧的锦襕袈裟,最终因贪欲而堕落。因此,以下是一些基于他性格特点的技能设计:
贪欲之手:
技能描述:金池长老伸出贪婪的手掌,试图夺取玩家的装备或能力。效果:暂时封锁玩家的一项技能或降低玩家的防御力,持续一定时间。幻影佛光:
技能描述:利用虚假的佛光制造幻觉,迷惑玩家的感官。效果:使战斗场景扭曲,玩家的移动方向反转或技能目标偏移。金池护法:
技能描述:召唤寺庙中的护法神僧或妖怪协助战斗。效果:召唤小怪围攻玩家,需要玩家优先清理召唤物。贪念爆发:
技能描述:金池长老被贪欲支配,力量骤增。效果:在生命值降低到一定程度时,进入狂暴状态,攻击力和攻击速度提升。宝物引诱:
技能描述:展示珍贵的宝物,引诱玩家上当。效果:在战场上生成虚假的回血道具或增益道具,诱使玩家进入陷阱区域。腐化禅音:
技能描述:诵念被腐化的经文,对玩家施加负面影响。效果:对范围内的玩家造成持续伤害,并可能附加减速或沉默效果。金身护体:
技能描述:激活自身的金色护体佛光,暂时免疫伤害。效果:在短时间内免疫所有攻击,但行动速度降低。欲望之镜:
技能描述:召唤一面魔镜,反射玩家的攻击。效果:在一定时间内,将玩家造成的部分伤害反弹回去。黑暗结界:
技能描述:创建一个黑暗结界,限制玩家的行动。效果:结界内的玩家移动速度大幅降低,且无法使用位移技能。伪善面具:
技能描述:伪装成慈悲的形象,试图麻痹玩家的警惕性。效果:短暂进入无敌状态,同时降低玩家的攻击欲望(降低玩家的暴击率或攻击力)。夺命佛珠:
技能描述:抛出念珠作为武器攻击玩家。效果:念珠飞出后会追踪玩家,造成范围爆炸伤害。心魔侵蚀:
技能描述:利用玩家内心的弱点进行精神攻击。效果:使玩家进入混乱状态,短暂无法分辨敌我或随机释放技能。瞬移遁法:
技能描述:利用遁术快速移动位置,躲避攻击或进行偷袭。效果:瞬间移动到战场的另一位置,并可能对路径上的玩家造成伤害。贪婪之焰:
技能描述:释放内心的贪婪之火,焚烧一切。效果:在自身周围产生火焰领域,持续对范围内的玩家造成火焰伤害。宝藏诱惑:
技能描述:在战场上散落大量的金银财宝,分散玩家注意力。效果:降低玩家的视野范围,宝藏可能阻挡视线或干扰自动锁定。设计思路:
体现贪欲:许多技能都围绕金池长老的贪婪本性,试图夺取或影响玩家的能力。心理战:通过幻觉、诱惑等手段,影响玩家的判断,增加战斗的难度和策略性。召唤和控制:利用召唤物和结界等技能,增加战斗的层次感,需要玩家应对多种威胁。状态变化:在战斗过程中,金池长老会根据自身的生命值或战斗情况改变策略,增加挑战性。玩家应对策略:
谨慎行事:避免被诱惑技能所迷惑,保持警惕。优先击杀召唤物:减少场上的压力,专注对付BOSS。打断技能:对于需要吟唱或准备的技能,尝试使用控制技能进行打断。团队配合:如果是团队战斗,合理分工,有人负责控制,有人负责输出。通过这些技能设计,金池长老将成为一个具有挑战性且富有特色的最终BOSS,既符合他在《西游记》中的人物形象,又能为玩家带来丰富的战斗体验。

和游戏中的设计相比,存在诸多相似,说明 o1 具备从原著中提取人物特征,并结合动作冒险游戏的一般规则生成游戏角色的能力。


总结


通过本文几个任务实测,我们体验了 OpenAI o1 强大的推理能力,其思考过程也向我们揭示了更多模型生成答案过程的细节。尽管 o1 还存在一些不足,相信在不久的将来会一一克服。


OpenAI o1 有多强?我们用逻辑推理,24 点,中国象棋和《黑神话》来评测下

本文链接:https://yeziwang.cc/openai_316.html

chatgpt 服务器无法使用chatgpt怎么突然用不了了chatgpt苹果电脑好用吗chatgpt4.0会取代美工吗chatgpt如何培养孩子[程序员] chatgpt 付费付款chatgpt能确定字数吗chatgpt4.0可以联网了嘛chatgpt体验版与正式版有什么不同chatgpt为什么不能自动登录

相关文章