15秒样本完成声音克隆!OpenAI再掀人工智能浪潮

chatgpt中文网2024-04-17 09:21:52117

先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gpt-app

▲关注中国信息化周报

15秒样本完成声音克隆!OpenAI再掀人工智能浪潮推荐使用ChatGPT中文版,国内可直接访问:https://ai.p6p6.cn 

新视界、新思维、新洞察

日前,Open AI宣布推出全新的人工智能模型——“语音引擎(Voice Engine)”。继人工智能聊天机器人ChatGPT引领文字生成领域浪潮,人工智能文生视频大模型Sora开启文生视频新纪元,Open AI又一次向传统数字媒体发起挑战。这一次,Open AI颠覆的是音频领域。

语音克隆颠覆想象

早在2022年,语音引擎被立项开发,用来支持文本转语音API(应用程序编程接口)及ChatGPT的语音和朗读功能。同时,语音引擎还具备语音克隆功能,用户只需要输入15秒的音频样本及文字片段,语音引擎就能生成与原声高度相似的自然语音。无论是哪种文本,语音引擎都能近乎完美克隆原声。

OpenAI分享了语音引擎的五大应用场景。

第一,为不具备阅读能力的读者和儿童提供阅读辅助。语音引擎的声音自然且富有情感,不局限于预设选项,而是涵盖了广泛的说话方式,使得阅读体验更为贴近真实。例如,致力于儿童教育的科技公司Age of Learning,借助语音引擎生成预先编写的画外音内容,同时综合利用GPT-4,为受众创造更为实时、个性化的使用体验。

第二,保留母语口音的翻译。语音引擎能翻译视频和播客等内容,让创作者和企业能够流利地利用自己的声音接触世界各地的更多受众。人工智能视觉叙事平台Heygen(与企业客户合作,为产品营销、销售演示等场景创建定制的人形化身)是这一功能的早期实践者。借助语音引擎,Heygen进行视频翻译,将视频中说话者的声音翻译成多种语音,覆盖全球受众。翻译过程中,语音引擎会保留说话者的母语口音,例如将法语母语者的音频样本生成英语时,会呈现带有法语口音的语音效果。

第三,帮助创作者触达全球用户。通过改善偏远地区的基本服务,创作者借助语音引擎覆盖全球社区。Dimagi为社区卫生工作者提供各种基本服务的工具,例如为坚持母乳喂养的母亲提供咨询。为了帮助工作人员们提升服务体验,Dimagi使用语音引擎和GPT-4,以每位工作人员的主要语言(包括斯瓦希里语或更非正式的语音,如在肯尼亚流行的代码混合语言Sheng)提供交互式反馈,从而确保有效沟通。

第四,赋能残障人士沟通。语音引擎为没有语音能力的用户提供支持,包括用于患有语音障碍人士的治疗,以及增强有学习需求的人的教育体验。Livox作为一款人工智能替代通信应用程序,为辅助和替代通信(AAC)设备提供强大动力,使得残障人士能够进行沟通。通过运用语音引擎,Livox为不具备语言能力人士提供独特且非机械化的多种语言的声音。用户可以选择最能代表他们的语音,对于多语言用户而言,能在每种语言中保持一致的口语特性。

第五,帮助病患恢复声音。对于患有突发性或退行性言语疾病的人群,语音引擎能发挥重要作用。非营利性卫生系统诺曼王子神经科学研究所Lifespan,是布朗大学医学院的主要教学附属机构,一直积极探索人工智能在临床环境中的应用。他们正在试行一项计划,利用语音引擎为患有肿瘤或神经系统语言障碍病因的患者提供支持。由于语音引擎仅需要极短的音频样本,医生们成功帮助一位因血管性脑肿瘤而失去流利语言能力的年轻患者恢复声音。

OpenAI产品负责人Jeff Harris表示:“如果你能正确地设置音频,基本上就能生成人口径的声音,这是一种相当令人印象深刻的技术。”

警惕人工智能    

福兮祸之所倚,祸兮福之所伏。赞叹语音引擎强大能力的同时,我们也不得不警惕其藏在背后的风险。

OpenAI写道:“我们认识到,生成声音的功能存在严重风险,这一点在大选年尤为突出。”2024年1月,美国就出现过“AI拜登”事件,由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。CNN(美国有线电视新闻网)随后报道称,追查后发现,71岁的男子沃尔特·蒙克和其总部位于得克萨斯州的“生命”公司是“AI拜登”事件幕后黑手。

针对安全和隐私问题,OpenAI强调明确禁止未经授权冒充任何个人或组织,必须获得原始说话者的知情同意,并向用户明确披露他们所听到的声音是AI生成的。同时OpenAI开发了一系列安全措施,包括对语音引擎生成的音频加水印,主动监控其使用方式。合成语音技术的任何广泛部署都应伴随语音身份验证体验,以验证原始说话者是否同意将其声音添加到服务中,以及检测和防止创建与知名人物过于相似的声音的禁止语音列表。

同时,语音引擎的问世,无疑将对以声音为谋生介质的人群产生重大影响,包括配音演员、流媒体主播、播客等等。

前不久,音乐剧《妈妈咪呀》的主演萨拉·波伊泽在社交平台发文称,她收到一封邮件,内容是“我们已经获得BBC的批准,可以使用Al生成的声音,所以我们不再需要萨拉了。”据悉,该邮件是一家制片公司的回复,该公司正与BBC合作一个项目,希望能聘请萨拉。辞退事件引发众怒,BBC回应称,替换萨拉的原因非常特殊,正在制作的纪录片主角是一位生命即将走到尽头、无法说话的投稿人,考虑到其家人的意愿,我们同意使用AI来重现声音,并将在影片中清楚标明。BBC的回应并未平息怨言,反而AI攻陷配音界的恐慌进一步蔓延。

语音引擎暂未大规模推广应用,目前只开放给少部分合作伙伴参与测试。OpenAI并未公布语音引擎的定价信息,但据新闻网站 TechCrunch 消息,语音引擎的定价为每一百万字符15美元,音频每小时价格不足1美元,远低于配音演员的平均薪资。等到语音引擎大规模开放使用,配音演员们又将何去何从?

无敌有偶,前不久爆火出圈的音乐生成模型Suno,被称为音乐界的“ChatGPT”,用户仅需在“创作”页面,使用自然语言描述想要生成的音乐,包括主题、风格、情绪等,一首结构完整、朗朗上口的音乐作品就诞生了,创作门槛趋近于零。

从文字到图像到视频再到音频,人工智能的触角逐渐触及审美层面。中央美术学院教授周博写道:“人工智能技术的发展正在使学院派的创作模式日益普通且廉价。”人类能控制好人工智能吗?这是生成式人工智能时代必须时刻警惕的问题。

作者:于帆


15秒样本完成声音克隆!OpenAI再掀人工智能浪潮

本文链接:https://yeziwang.cc/openai_246.html

chatgpt会泄露论文内容吗chatgpt怎样实时翻译chatgpt科技进步英语阅读chatgpt中文版使用办法chatgpt账号注册没收到邮件chatgpt对人类生活影响chatgpt app 安卓 下载chatgpt一共有几个版本怎么添加chatgpt语音功能如何向chatgpt 发送图片

相关文章