先做个广告:如需代注册GPT帐号或代充值ChatGPT4会员,请添加站长客服微信:gptchongzhi
AI大模型的“进化”离不开大量的数据训练,而在这个领域,一些大公司为了获取高质量的训练数据,甚至不惜涉足“灰色地带”。最近,《纽约时报》就披露了一些AI巨头们在数据获取方面的一些做法。
推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top
OpenAI为了训练其最先进的大模型GPT-4,此前开发了一个名为Whisper的音频转录模型。据报道,OpenAI转录了超过一百万小时的YouTube视频,以此来训练GPT-4。《纽约时报》指出,虽然公司知道这样做在法律上可能有问题,但他们认为这属于合理使用。OpenAI的总裁Greg Brockman甚至亲自参与了视频的收集工作。
OpenAI的发言人Lindsay Held在给《Verge》杂志的一封电子邮件中表示,公司为每个模型策划“独特”的数据集,以“帮助它们理解世界”,并保持其全球研究的竞争力。Held补充说,公司使用“多种来源,包括公开可用的数据和非公开数据的合作伙伴关系”,并且正在研究生成自己的合成数据。
《纽约时报》的文章提到,公司在2021年就用尽了有用的数据资源,并在耗尽其他资源后,讨论了转录YouTube视频、播客和有声读物的可能性。到那时为止,它已经训练了其模型,使用了包括来自Github代码、Quizlet的作业内容等数据。
谷歌的发言人Matt Bryant在给《Verge》的电子邮件中表示,公司“看到了未经证实的关于OpenAI活动的报告”,并补充说,“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容”,这与公司的使用条款相呼应。YouTube的首席执行官Neal Mohan本周在谈到OpenAI可能使用YouTube来训练其Sora视频生成模型的可能性时也发表了类似的看法。Bryant表示,谷歌会在“有明确的法律或技术依据时”采取“技术和法律措施”来防止这种未经授权的使用。
除了OpenAI,谷歌也从YouTube收集了转录文本。Bryant表示,公司已经“根据与YouTube创作者的协议”在一些YouTube内容上训练了其模型。
谷歌的法务部门要求公司的隐私团队调整其政策文件,以扩大其可以使用消费者数据的范围,比如Google Docs这样的办公工具。
Meta也遇到了优质训练数据可用性的限制,其AI团队讨论了在努力赶上OpenAI时未经许可使用受版权保护的作品。在浏览了“几乎互联网上所有可用的英语书籍、文章、诗歌和新闻文章”之后,该公司显然考虑过采取一些措施,比如支付书籍许可费或者直接购买大型出版社。
参考:
https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google