先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app
哪一个AI功能最令你期待?肯定有不少小伙伴都会回答GPT-4o
的实时语音(OpenAI官方称这个功能为:Advanced Voice Mode)功能。
推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top
实时语音功能最早亮相于OpenAI 5月13日的直播发布会上,主持人Mira Murati和两位OpenAI的研究员在直播中展示了这个极其“拟人化”的实时语音功能。在实时语音对话模式下,GPT-4o
能够快速响应用户的问题,甚至能够理解、感知用户对话时的情绪,更为重要的是,用户可以随时打断GPT-4o
的讲话,就像是人类之间的对话一样。
不出意外,凭借这个“王炸”级别的功能,OpenAI成功吸引了所有人的好奇心。然而,发布会上提到的“将会在未来几周内上线”变成了漫长的等待。直到6月25日,OpenAI才发布了一则长文,表示由于安全方面的原因,将推迟一个月发布GPT-4o
实时语音功能的alpha版本。
如今,一个月过去了,这个令人期待的功能终于要来了。7月25日,OpenAI CEO Sam Altman在社交媒体平台回复网友的问题时亲自确认,实时语音功能的alpha版本将于下周开始向Plus订阅用户推送!
不得不说,在这个强敌环伺的AI领域,OpenAI慌了。OpenAI画了太多的饼,包括昨天我在文章里提到的SearchGPT这个AI搜索引擎,也只是处于产品原型阶段。反观其他竞争对手Anthropic和谷歌,不断地推出新模型和新功能,比如前几天介绍过的Anthropic推出的一套完整的提示词工具,是真的好用。
关于实时语音功能
其实很多AI工具,比如现在的ChatGPT和Kimi都有语音对话功能,那么为什么还这么推荐GPT-4o
的实时语音功能?
首先需要指出的是,GPT-4o
的实时语音功能并不仅仅是简单的语音转文字再转回语音(这是目前主流的AI语音对话的实现方式)。相比之前的版本,GPT-4o
集成了更强的语音处理技术,使得语音对话更加自然流畅。用户可以像与真人对话一样,随时打断GPT-4o
的讲话,这种互动方式大大提升了用户体验。该功能不仅可以识别用户的语音,还能感知和回应用户的情绪变化,提供更加个性化和人性化的对话体验。
实时响应: GPT-4o
能够在几乎无延迟的情况下对用户的语音输入作出回应。这使得对话变得更加顺畅,仿佛是在与真人交谈。情感识别:该功能可以检测用户语音中的情感变化,并相应地调整回应的语气和内容。这种能力使得互动更加贴近人类的沟通方式。 多模态处理: GPT-4o
不仅能处理语音,还能结合文本、图像和视频信息,提供更加全面的互动体验。例如,在演示中,ChatGPT支持直接通过摄像头捕捉当前画面并发送给GPT-4o
,以此作为上下文信息进行进一步对话。多语言支持: GPT-4o
模型支持多语言实时翻译和对话,这对于全球用户来说是一个巨大的优势,可以轻松跨语言进行交流。
结语
Sam Altman的确认其实和ChatGPT app中关于实时语音功能的解释说明是一致的。在ChatGPT app的语音模式下,点击右上角的说明
按钮,就会弹出这样一则公告:We are taking additional time to reach our bar for launch and will begin the alpha with a small group of Plus users in late July. We plan for all Plus users to have access in the fall, and will let you know when you have access.
从公告里可以看出,即使是7月底开始推送alpha版本,也只是向“少部分用户”开放体验。对于不是天选之子的普通用户,我们还是等等看吧
本文链接:https://yeziwang.cc/openai_295.html
chatgpt创始人父母chatgpt会取代渗透测试工程师吗chatgpt出现后哪些专业不能取代chatgpt怎么接入chatgpt提问技巧心得体会chatgpt怎样和搜索引擎结合chatgpt账号可以用什么登录chatgpt建筑设计效果图chatgpt 怎么通过文案变现chatgpt出现错误怎么解决