ChatGPT重磅升级,GPT-4V前景震撼,当下仍有缺陷

chatgpt中文网2024-01-19 02:45:44278

先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app

这段时间OpenAI发布了几个重磅消息。

ChatGPT重磅升级,GPT-4V前景震撼,当下仍有缺陷推荐使用ChatGPT中文版,国内可直接访问:https://ai.yeziwang.cc 

        一个是,美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级,实现看图、听声音、输出语音内容三大功能。其中带有视觉功能的GPT-4(简称为GPT-4V)目前发布了一篇论文,且该功能在一款名为“ Be My Eyes”的APP(一款帮助视弱群体或盲人了解周围环境的应用程序)中被使用。

      另一个是,美东时间9月27日,OpenAI在X(前身为推特)上宣布,ChatGPT可以在对话过程中通过微软的必应搜索引擎进行网络搜索,意味着内容不再局限于2021年9月之前的数据。OpenAI称:“现在ChatGPT Plus和Enterprise(企业版) 用户可以使用浏览功能,将很快扩展到所有用户。要启用,请在GPT-4下的选择器中选择“使用必应浏览( Browse with Bing)” 。

        这意味着,ChatGPT的多模态能力,使其拥有自己的大脑、眼睛、耳朵和嘴巴。同时,通过与Bing的对接,它还拥有了互联网的能力。可以说ChatGPT已具备实时的感知、认知、决策和语言表达能力,它是越来越接近人类了

        在以上的消息当中,GPT-4V的表现着实给人留下深刻印象,实际上视觉功能在OpenAI内部已经研发一段时间了,这次能够发布,一定是取得了一些进展。越来越相信大模型、多模态必定是未来社会更加智能化的重要技术支撑,但我们也可以看到GPT-4V还有待提高。

下面列举一些网友使用GPT-4V做的各种测试:

01

识别图片内容


(1)识别食物

你可以让它识别一个图片,GPT-4V能够成功地描述图像的内容,介绍图像的各个组成部分以及它们的关系。但GPT-4V犯了一个错误,炸鸡被标记为“NVIDIA BURGER”而不是“GPU”


(2)识别硬币

用货币来测试GPT-4V,运行了几个不同的测试。首先,上传了一张硬币的照片。GPT-4V能够成功识别硬币的来源和面额:

另外,再上传了一张带有多个硬币的图片,并提示GPT-4V:“我有多少钱?”

GPT-4V能够识别硬币的数量,但无法确定货币类型。通过后续进一步多轮交流,GPT-4V成功识别了货币类型。


(3)识别电影

网友还测试上传了一张电影中的照片,并提问:“这是一部好电影吗?“,GPT-4V对这个电影做出了描述以及相应地回答了网友的问题。GPT-4V提供电影的高级描述以及与被认为是正面和负面的电影相关联的属性的概要。进一步询问电影的IMDB评分,GPT-4V回应了截至2022年1月的评分。这表明,在一些基于知识积累的内容上,目前的GPT模型仍然有一个知识截止点,在此之后模型并没有更新知识。

(4)识别城市图片

通过上传了一张城市照片,并提问“这是哪里?“GPT-4V成功地回答了图片点为“弗朗西斯科”,并指出“美金字塔”

(5)识别植物

向GPT-4V提供了一张和百合花的照片,并提问:“那是什么植物?我应该如何照料它?”。

模型成功地识别出该植物是百合花,并提供了如何照料植物的一些建议。说明将文本和视觉相结合多模态应用非常实用。

02

文本识别(OCR)


(1)识别字符
通过两项测试来探索GPT-4V的OCR功能:一个是对带有文本的汽车轮胎图像进行OCR识别,另一个是对包含有文字的照片进行OCR识别。目的是了解GPT-4V在OCR中的表现。

GPT-4V无法完全正确识别轮胎图像中的序列号。在另外的文档识别测试中,用户要求GPT-4V读取网页的文本截图中的文本。模型能够成功识别图像中的文本。

GPT-4V出色地将图像中的单词翻译为文本中的单个字符。

(2)识别数字

使用一个道数学题的文档截图,向GPT-4V提问。这个问题涉及到在给定两个角度的情况下计算滑索的长度。并且提示词为:“解决它”。

模型的回答表示可以用三角法解决问题,确定了要使用的函数,并提供了如何解决该问题的步骤。然后,GPT-4V提供了问题的正确答案。这个证明了GPT超强逻辑能力,但是,有赖于对图文的识别能力,如果是手写体可能就不一定准确。

03

目标检测

目标检测是人工智能CV领域中的一项基本能力。这个例子是测试GPT-4V识别各种物体的位置,以评估其执行目标检测的能力。通过GPT-4V检测图像中的狗,并提供与狗的位置相关的x_min、y_min、x_max和y_max值。但最终GPT-4V返回的边界框坐标与狗的位置并不匹配。

04

检测验证码

经过这个测试,GPT-4V能够识别验证码中的一些图像,但最终通常无法完全通过测试。在识别交通灯示例中,GPT-4V错误地识别了一些包含交通灯的方块。


05
游戏

这个测试是让GPT-4V来完成填字游戏,观察模型的表现。首先,给GPT-4V发送游戏图片以及提示词:“解决它”。GPT-4V判断图像为填字游戏,并试图提供填字游戏的解决方案。这次测试模型正确地理解了提示词和图片内容,但错误地识别了棋盘的结构。最终,提供了错误的答案。



通过以上的这些测试,我们可以了解到GPT-4V的过人之处,未来可期。但也看到模型还是存在很多不足。例如:

  • 漏识别图像中的文本或字符
  • 遗漏识别某些数学符号
  • 无法识别空间位置和颜色


在9月25日OpenAI发布的GPT-4V论文中,也承认GPT-4V 有时很难做出正确的推断,例如,它会错误地将图像中的两串文字组合在一起,创造出一个虚构的术语。与基础 GPT-4 一样,GPT-4V 也容易产生幻觉或捏造事实。此外,它还会遗漏文字或字符、忽略数学符号,以及无法识别相当明显的物体和地点设置。

另外,在论文中,OpenAI 声称在涉及伦理道德与法律法规方面,模型已经采取了保障措施来防止GPT-4V 被恶意使用,比如破解验证码、识别一个人或评估其年龄或种族,以及根据照片中不存在的信息得出结论。OpenAI 还表示,它已经努力抑制 GPT-4V 中的偏见和有害信息,尤其是那些与人的外貌、性别或种族有关的偏见。

总之
大模型在很短时间能够取得如此大的发展已经不容易,GPT-4V的出现让人看到了多模态的潜力,但也还存在一些问题。关于GPT-4V更多的信息可以看下《GPT-4V(ision) System Card 》论文。


ChatGPT重磅升级,GPT-4V前景震撼,当下仍有缺陷

本文链接:https://yeziwang.cc/openai_100.html

相关文章