先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gptchongzhi
昨天,OpenAI如传言一样发布了最新的“GPT-4o mini”模型,更小,更快,更便宜,只是没有如大家预期一样,“开放权重”。
推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top
当然,模型足够有看点,首先是表现:保守一点说,表现显著超过同等参数规模的模型,当然,这是OpenAI自己评测的结果。
其次,模型推理速度明显加快,API调用费用大幅下降:直接从4o的$15/百万tokens,下调到$0.6/百万tokens,等于原来的二十五分之一。
成本大幅下降,才是这次OpenAI发布新模型的最大动力。平均下来,即使与Google和Anthropic同等定位模型(Gemini Flash,Claude Haiku)的成本相比,也还是更便宜的。
然而,问题也随之而来,首先是技术层面的问题,就是GPT-4o mini模型是怎么来的?
虽然OpenAI没有披露任何细节,但是基本可以确定,是从GPT-4o模型知识蒸馏(也叫教师-学生模型)而来的,简单的说,就是把GPT-4o的问题与答案用来训练规模远小于自身的模型(教师),使得小规模的模型(学生)也能达到原模型(教师)大概八九成的知识覆盖。等于是老师在考前给学生一套押题的题库,如果考试题目在题库范围里,学生可以答个八九十分,如果遇到不在题库里的问题,可能成绩就惨不忍睹了。
这样做的好处是可以极大的降低模型规模,初步估计GPT-4o mini的参数规模很可能不超过30B,单GPU都可以加载好几个模型,而且在这个规模下,其实老的例如A100这类GPU也可以利用,即使使用H100,卡间互联和机器间互联的速度要求也大幅下降。这些都可以大幅降低实际的推理成本。对于使用API的用户而言,二十五分之一的价格,达到百分之八九十的效果,“理论上”具备吸引力(一会儿说)。
这可能是OpenAI在目前状态下,为了吸引客户创造收入的一个“小妙招”,但问题是,这个“小妙招”背后,可能反而显示出的是OpenAI正在失去“光环”。
1、同一代的模型,发布不同规模的几个,面向不同定位,这是Google发布Gemini开始的打法,后来Anthropic的Claude3跟进。Google的做法很容易被市场解释为面向强大的端侧应用生态,Anthropic属于抢市场的角色,有样学样也没问题。但是,OpenAI不可以,市场对OpenAI的期待就是模型一定要领先,本身下一代模型(暂且叫GPT-5)没有在今年上半年发布已经远低于市场的期待了,GPT-4o发布时惊艳的语音互动和视觉互动模型演示的功能到如今正式推送还遥遥无期,却突然看起来被牵着鼻子走,发布一个奇奇怪怪的mini,只能给市场带来更多的质疑。太多的例子证明,竞争中,失去第一名,就可以失去第二、第三名,可以无底线的往下掉;
2、OpenAI可能认为用户需要的是更便宜的API调用价格,是的,用户当然需要,越便宜越好,但是这是相对最好的模型而言,再好的“学生”也还是学生。在mini的这个级别上,市场上可以有的选择非常多,llama3家族既能本地部署,还可以放心利用私有数据进行精调,还有很多在不同领域(例如代码,例如数学)精调过的变体可以使用。更灵活的使用方式,更低的使用和维护成本,都会使得用户在“不使用最好模型之外”的选择天平倒向一系列开源;
3、即使评测结果看起来GPT-4o mini依然显著胜过主流开源模型,但是,市场上几乎一致认为下周(7月23日)Meta会正式发布llama3-405B多模态模型(在llama3发布时meta给出的评分结果里,该模型表现超过GPT-4),虽然现在依然不很确定meta是否会开源(开放权重)该模型,但是至少开放一个参数规模略小的模型是最低结果了。这意味着GPT-4o mini很可能在下周失去对开源的微弱优势;
4、所以,问题的症结都集中到:下一代GPT到底什么时候发布?在之前我一直预期是今年6月底之前,虽然我现在依然认为有很大可能会在三季度(因为Claude3.5 sonnet实际上已经在很多方面超越了GPT-4o,Anthropic也明确表示会在Q3推出Claude3.5 Opus,最大最好的那个,同时,Gemini的1.5 Ultra也近了,甚至Google突然发布一个下一代模型也不是小概率事件),但是我也承认,留给OpenAI的时间已经很少了;
5、不过OpenAI进度的延缓,并不代表这一轮hyper cycle的终点。从模型可以大量生成“准确”的代码,可以“看懂”、“听懂”人类世界和语言时,超越我们任何人想象的快速变革时代,就已经开始了。虽然OpenAI正在失去技术层面的“光环”,但是管理团队的商业嗅觉和产品口味依然是最顶级的存在。GPT-4o mini依然至少会是一个重要的趋势的确认信号:更低的云端推理成本,更广阔的端侧推理场景落地,带来更快,成本更低的代码和信息生成能力,变革的链式反应,或许当我们到年底回看时,依然会感到震惊。