OpenAI CTO说不知道sora训练数据出处

OpenAI 的 Sora 在今年 2 月横空出世,把文生视频带向了新阶段。它能够根据文字提示生成超现实场景。Sora 的可适用人群受限,但是在各媒体平台上,Sora 的身影无处不在,大家都在期待着使用它。

在前几天的访谈中,三位作者透露出 Sora 的更多细节,包括它处理手部时仍然存在困难,但正在优化。他们也对 Sora 更多的优化方向进行了阐述,要让用户能够对视频画面有更加精准的控制。不过,短期内,Sora 并不会对公众公开。毕竟 Sora 能够生成与现实十分接近的视频,这会引发很多问题。而正因如此,它还需要更多的改进,人们也需要更多时间来适应。

不过不用气馁,这个短期可能不会太久。OpenAI 首席技术官 Mira Murati 在谈到 Sora 何时推出时,透露道 Sora 将于今年推出,大家可能要等几个月,一切都取决于红队的进展情况。

OpenAI 还计划在 Sora 中加入音频生成的功能,让视频生成效果更加逼真。接下来,他们也会继续优化 Sora,包括帧与帧之间连贯性、产品的易用性以及成本。OpenAI 也希望添加用户编辑 Sora 生成视频的功能。毕竟 AI 工具的成果并不是百分百准确。如果用户能够在 Sora 的基础上进行再创作,想必会有更好的视频效果和更准确的内容表达。

当然,技术解读上的深入浅出只是采访的一部分,另一部分始终围绕着安全、担忧这样的大众话题。比如,一段 20 秒的 720p 视频,不需要几个小时的生成时间,只要几分钟,Sora 在安全方面又将采取怎样的举措?

采访中,主持人还刻意将话题引到 Sora 训练数据上,Mira Murati 表示,Sora 接受过公开可用和许可数据的训练。当记者追问是否用到了 YouTube 上的视频时,Mira Murati 表示自己不是很确定。记者又追问是否用到了 Facebook 或者 Instagram 上的视频?Mira Murati 回答道如果它们是公开可用的,可能会成为数据地一部分,但我不确定,我不敢打包票。

此外她还承认 Shutterstock(是一家美国图片库、图片素材、图片音乐和编辑工具供应商) 是训练数据的来源之一,也强调了他们的合作关系。

不过看似一场普通的采访,但也引来了众多争议,很多人指责 Mira Murati 不够坦诚:

OpenAI CTO说不知道sora训练数据出处

还有人从微表情推测 Murati 在说谎,表示道「记住不要让自己看起来像是在说谎。」

OpenAI CTO说不知道sora训练数据出处

我只是好奇,作为 OpenAI 的 CTO 居然不知道使用了什么样的训练数据。这不是在明目张胆的撒谎吗?

OpenAI CTO说不知道sora训练数据出处

作为这样一家公司的首席技术官,她怎么能不准备好回答这么基本的问题呢?让人摸不着头脑...

OpenAI CTO说不知道sora训练数据出处

还有人认为 Murati 并没有说谎,也许 Facebook(FB)真的允许 OpenAI 使用部分数据。

OpenAI CTO说不知道sora训练数据出处

但这种说法立马遭到反驳Facebook 是疯了吗?这些数据对 Facebook 来说绝对是无价的。为什么他们要把数据卖给或授权给他们最大的竞争对手,这实际上是他们在 GenAI 竞赛中唯一的竞争优势。

OpenAI CTO说不知道sora训练数据出处

显然,很多人都认为 Murati 没有说实话:「作为 OpenAI 的首席技术官,当被问及 Sora 是否接受过 YouTube 视频的训练时,她却表示自己不确定,并拒绝讨论有关训练数据的进一步问题。要么是她对自己的产品相当无知,要么是在说谎 —— 无论哪种方式都非常可恶。」

这就不得不将话题引入到另一个层面:版权问题。一直以来,OpenAI 深受数据版权的困扰,前段时间,《纽约时报》一纸诉状将 OpenAI 告到法庭,起诉书中《纽约时报》列出了 GPT-4 输出「抄袭」《纽约时报》的「证据」,GPT-4 的许多回答与《纽约时报》的报道段落几乎完全一致。

数据监管问题该如何解决?斯坦福教授曼宁表示「目前最简单但最有用和最合适的 AI 监管之一是要求模型提供者记录他们使用的训练数据。欧洲议会刚刚通过并批准的《人工智能法案》也强调了这一点。」

OpenAI CTO说不知道sora训练数据出处

OpenAI 到底使用了什么数据来训练 Sora,现在看来,这座巨大的冰山已经露出了一角。这次采访除了大家关心的数据问题,还有更多信息值得大家一看。

版权声明:阿里导航 发表于 2024-03-18 11:25。
转载请注明:OpenAI CTO说不知道sora训练数据出处 | 阿里导航

相关文章