OpenAI发布OpenAI-o1新模型:变强了,也变慢了

chatgpt中文网2024-09-14 19:59:2112

先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app


作者 | 孙麟飞

OpenAI发布OpenAI-o1新模型:变强了,也变慢了推荐使用ChatGPT中文版,国内可直接访问:https://ai.p6p6.cn 

来源 | 智合研究院

OpenAI发布新模型:变强了,也变慢了

大语言模型能力还在向上突破。昨天,OpenAI正式发布了全新的AI大模型OpenAI-o1。新模型的特点被概括为:“变强了,也变慢了”。

新模型上限显著提升,从高中生水平跃升至博士水平。可以实现复杂逻辑推理,擅长解决复杂问题。甚至具备了奥数金牌能力:在国际数学奥林匹克资格考试(AIME)的基准测试中,o1的正确率高达83%,成功跻身美国前500名学生行列,而其前身GPT-4o的正确率仅为13%。

最新大模型对律师行业的影响能有多大?

根据官方公布的信息,初步看来,OpenAI-o1的诞生可能至少会有以下三大或直接、或间接的影响:

· 短期内,对律师行业的直接影响有限;但从长远来看,则有望进一步推动法律服务的供给方式发生变革;

· o1在“慢思考”原理上使其具备了“法学思维”的核心基础,为法律AI行业发展注入了一剂强心针。

· o1的诞生进一步佐证了“AI将对律师行业带来颠覆式变革”的观点,未来律师(至少是精英律师)将越来越注重法律服务与人工智能的结合。

短期内直接影响逊于GPT-4o

根据官方资料,o1模型主要聚焦于复杂任务推理,并在竞赛级别的编程和数学领域表现尤为出色。在其擅长的物理、生物、化学等基准测试(GPQA)中,o1的表现和该领域的博士生水平不相上下。

目前来看,OpenAI-o1更像是一个理工科的“偏科生”。例如,在数据分析、编程和数学等需要强推理能力的领域,o1的表现明显优于GPT-4o。但在处理自然语言任务时,o1模型的效果还不如GPT-4o。



而这种竞赛级的编程和数学能力与律师的实际工作关联不大。同时,在律师常用的法律文件的写作和生成方面,o1不仅会浪费很长时间来“思考”,得出的结果也并不尽人意。由此来看,短期内o1在律师行业可能不会像GPT-4或GPT-4o那样,成为那个“一石激起千层浪”的里程碑产品。但并不妨碍它代表了人工智能能力的新水平。

o1的定位,从技术产品名称来说,不是GPT5,所以它并不是GPT系列的下一代产品,而是推理系列里首发队员,并且目前还只是一个预览版——o1-preview。作为该系列的第一款模型,o1在复杂推理方面的表现已提升到一个全新水平,它的发布或许为众多法律AI产品布局“慢思考”的竞赛打响发令枪。

一剂行业加速发展的强心针

《思考,快与慢》作者丹尼尔·卡尼曼认为,我们的大脑有“快”与“慢”两种决定问题的方式:第一种依赖情感、记忆和经验迅速作出判断,它使我们能够迅速对眼前的情况作出反应,但会有错觉;

二是种通过调动注意力来分析解决问题并作出决定,这比较慢,但不容易出错。


“慢思考”是此次OpenAI发布新模型的一个重要特征。与以往大模型不同,o1不是立即脱口而出答案,而是在回答问题之前,像人类一样“深思熟虑”,通常用时约10-20秒。

在开始回答之前,o1内部会产生一个非常长的思维链(Chain of Thought, CoT)。这是一种帮助AI模型进行推理的技术,过让模型在回答复杂问题时,逐步解释每一步的推理过程,而不是直接给出答案。这也是o1在逻辑推理能力上更为突出的原因。

o1会反复的思考、拆解、理解、推理,然后给出最终答案。就像是人类在解题时那样,先思考每一步的逻辑,再逐步推导出最终的结果。在这个过程中,O1还会完善思维过程,尝试不同策略,并自主识别错误。当一种方法无效时,它会尝试另一种方法。这个过程极大地提高了模型的推理能力, 从而可以解决复杂的任务。


举一个不完全贴切的例子,就像高考数学的最后一道大题,需要多花多点时间解题。通常大语言模型(LLM)在训练、对齐和推理三个阶段的耗时比例是7:2.5:0.5,而在o1的模型中,o1的推理耗时会更长。大量计算从预训练/后训练,转移到推理服务。

在简单的Prompt下,用户可能不会注意到太大的差异,但如果问一些棘手的数学或者代码问题,区别就开始明显了。更重要的是,未来技术的方向已经开始显现。

在过去有一种声音说,大模型只能解决相关性问题,解决不了因果性问题。像ChatGPT等模型虽能根据训练数据生成看似合理的回答,其实更像是“随机鹦鹉”(stochastic parroting),它们往往无法真正理解背后的复杂逻辑或执行高级推理任务。这也成为目前律师在运用大模型进行法律研究等工作时面临的最大痛点。

这一次,o1模型终于踏出了坚实的一步。它拥有了人类最核心的思考方式——慢思考的特质。这种增强的推理能力在处理复杂的法律研究问题时无疑极为有用。可以说,O1的出现使得“AI”已经具备了拥有真正的“法学思维”的核心基础。

根据上海市黄浦区人民法院党组成员、副院长、三级高级法官玄玉宝文章,法律思维是一种独特的思考方法和思维模式,它既是律师等法律职业群体所特有和必备的技能素养,也是法律专业性、职业性、科学性的重要体现。

一方面,法律本身是不断变化、优化的,律师需要不断跟踪、判断,虽然法律思维十分复杂,但其首先是一种规范思维,从是否具有适当的法律依据出发,因此许多复杂推理任务都是结构化的。

参考上海高院的文章中的举例:“张三用刀砍刺了李四,李四在送医途中发生交通事故后死亡,对张三应当如何定罪处刑?”法律思维则会透过犯罪构成理论的分析方法:

1、是否符合刑法所规定的犯罪构成要件;2、是否存在违法阻却事由;3、是否应追究刑事责任等方面进行综合评价。

左右滑动查看


这里来看一下O1的思维链,o1的“思维”虽然还远远达不到“完美”,但目前的版本还不具备曾经的网页搜索等功能,只有一个可以对话的裸模型。同时,在没有设置任何前置指令的情况下进行第一次回答,虽然仍显不足,但其系统性解决问题的能力已经有了不小的进步。况且,从OpenAI技术日志中的附录来看,目前发布的o1-preview只是一个功能相对有限的“初级版”。

也如OpenAI创始人奥特曼的发帖中所说,它不完美,仍有缺陷,但在工作机理上却足够颠覆。全新的o1系列在复杂推理上的性能又提升到了一个全新级别。长期来看,新模型将为“法律领域多步骤复杂任务执行”难题的破解提供一个可资探索的路径。预计后续国内外各大法律AI公司会快速跟进实验此方向。

重大变革可能在半年后到来

o1的诞生对律师行业真正的影响在于,它让大模型能够解决以前无法解决的问题,并将对于复杂逻辑的推理能力直接提升到优秀水平。

这进一步佐证了“AI将对律师行业带来颠覆式变革”的观点。未来,法律服务与人工智能的结合将越来越受到重视,对律师(至少是精英律师)提供服务的方式产生变革性的推力。

从用户角度感知AI能力,华泰证券将其总结为:具备连续、复杂、多步骤、多任务的执行能力。


我们或将看到AI能力有望逐步实现:

1)单一简单任务执行;

2)单一复杂任务执行;

3)多步骤简单任务执行;

4)多步骤复杂任务执行;

5)连续多步骤复杂任务执行。


关于人工智能改造法律行业的讨论一直未曾平息,以OpenAI此前划分的等级来看,当前的AI已经实现了L2级别的推理能力。




随着国外以Harvey AI为代表的法律AI产品逐渐成熟,律师、律所服务客户时基于“基本框架+即时响应+按年计费”的模式之一,可能将逐步丧失吸引力和竞争力。律师将不得不深入学习AI技术,依赖此类工具极大简化工作流程、提供即时服务。律所甚至可能需要改组和变革团队、从根本上思考改变律所的服务方式,从而更高效地处理现有业务。


OpenAI发布OpenAI-o1新模型:变强了,也变慢了

本文链接:https://yeziwang.cc/openai_315.html

chatgpt中文指令大全从chatgpt看教育chatgpt加速器还是用不了chatgpt训练数据来源中文chatgpt能写调研报告吗chatgpt登录后出现身份验证错误chatgpt在英语教学中存在的问题chatgpt4.0 何时发布手把手教你注册chatgpt如何用chatgpt写一篇本科论文

相关文章