Notebookcheck Logo

泄露的内部通信显示,Nvidia 每天都在搜索价值一生的 YouTube 视频,以训练视频人工智能模型,詹森对进展很满意

Nvidia 工程师正在从 YouTube 和其他来源抓取视频,以训练公司的 Cosmos 视频基础模型。(图片来源:Nvidia)
Nvidia 工程师正在从 YouTube 和其他来源抓取视频,以训练公司的 Cosmos 视频基础模型。(图片来源:Nvidia)
404 Media 获得的 Nvidia Slack 内部通信显示,该公司研究 Cosmos 视频基础模型的员工迄今已从各种来源(主要是 YouTube)收集了 3850 万小时的视频。员工们强调了可能存在的版权问题,但上级主管显然 "伞式批准 "了继续搜刮内容。
AI Cyberlaw Nvidia

404 Media的一项调查显示,Nvidia正在根据从YouTube和其他来源 "每天80年的视频 "中获取的数据训练其Omniverse、自动驾驶汽车和 "数字人类 "汽车。

404 Media获得的泄露的内部通信显示,Nvidia正在利用这些数据训练其名为Cosmos的人工智能视频世界模型(不要与该公司现有的Cosmos深度学习服务混淆)。).Cosmos在内部计划成为一个模型,为Nvidia的其他产品线提供动力,包括GeForce 、GPU架构、DGX、深度学习框架、Omniverse、Avatar、Project GR00T和自动驾驶汽车。

Nvidia 高层将 Cosmos 称为最先进的基础模型,"它将光传输、物理和智能的模拟封装在一个地方,以解锁对 Nvidia 至关重要的各种下游应用"。

404 Media访问了内部员工的 Slack 消息,其中披露了员工如何使用命令行yt-dlp程序使用 20 到 30 台刷新 IP 地址的 AWS 虚拟机下载 YouTube 视频,以避免被 YouTube 屏蔽。该视频共享网站是搜刮视频的主要来源,员工还考虑了 Netflix 和 Discovery Channel 等其他来源。

Slack 通信显示,员工们在讨论利用受版权保护的内容来训练人工智能的法律后果时,项目经理却认为这是一项行政决定,他们无需担心。

Nvidia员工入围的YouTube热门频道包括MKBHD、PickUpLimes、Architectural Digest、Expedia、Mediastorm6801、8kEarth和The CriticalDrinker等。

404 Media 联系 YouTube 和 Netflix 时,两家公司都表示,在其平台上搜刮内容来训练人工智能模型显然违反了其服务条款。

使用受版权保护的数据来训练人工智能模型仍然是一个法律灰色地带。公共数据集如InternVid-10MHD-VG-130M等基于数百万 YouTube 视频的公开数据集,但这些数据集仅用于学术研究而非商业目的。虽然 Nvidia 有学术研究人员,但其成果最终会转化为商业产品。

在这方面,https://beyer.house.gov/uploadedfiles/one-pager_ai_foundation_model_transparency_act_.pdf在这方面,已经有一些立法规定了透明度标准,并要求研究基础人工智能模型的公司与美国联邦贸易委员会和版权局合作。但公司并不一定会披露其源数据集,这就增加了审计的难度。

随着大型人工智能公司继续利用所有可用的公共数据来训练更有效的模型,迫切需要进行立法改革,以确保消费者安全并保护创作者的知识产权。

去年,《纽约时报》)起诉 OpenAI 和微软起诉 OpenAI 和微软未经授权使用该出版物受版权保护的文章来训练人工智能模型。今年 5 月,视觉艺术家提起诉讼起诉Stability AI、Midjourney、DeviantArt和Runway AI未经许可使用其作品副本训练人工智能模型。

对于人工智能公司来说,YouTube 正成为一座数据金矿。最近,《连线报道称Apple 、Nvidia、Anthropic 和 Salesforce 等重量级公司从超过 48000 个频道的 173536 个 YouTube 视频中截取字幕来训练它们的人工智能。

截至 5 月底,Nvidia 工作人员在内部宣布,他们已经编制了 3850 万个视频 URL,其中大部分是电影内容。工程师们还添加了一些数据集,如Ego-Exo4D,Ego4DHOI4D以及来自GeForce Now 的游戏数据。

Ego-Exo4D 和 Ego4D 可以授权用于学术和商业用途,而 HOI4D 则以 CC BY-NC 许可发布,明确禁止用于商业用途。

该团队目前正在训练一个1B模型,每个模型有16个节点,并计划将其扩展到10B。

Nvidia 通过电子邮件告诉404 Media"我们的模型和研究工作完全符合版权法的文字和精神"。

与此同时,Nvidia 首席执行官黄仁勋(Jensen Huang)似乎对其员工取得的进展感到高兴。

据报道,他感叹道:"很好的更新。许多公司都必须建立视频 FM(基础模型)。我们可以提供完全加速的管道。"

Nvidia 首席科学家 Francesco Ferroni 为 Cosmos 培训提供的数据集(来源:404 媒体)
Nvidia 首席科学家 Francesco Ferroni 为 Cosmos 培训提供的数据集(来源:404 媒体)
Nvidia 工作人员推荐的用于培训 Cosmos 的热门 YouTube 频道。(来源:404 媒体)
Nvidia 工作人员推荐的用于培训 Cosmos 的热门 YouTube 频道。(来源:404 媒体)
根据 3850 万个 URL 编辑的视频分布图。(来源:404 Media)
根据 3850 万个 URL 编辑的视频分布图。(来源:404 Media)

资料来源

Please share our article, every link counts!
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 08 > 泄露的内部通信显示,Nvidia 每天都在搜索价值一生的 YouTube 视频,以训练视频人工智能模型,詹森对进展很满意
Vaidyanathan Subramaniam, 2024-08- 6 (Update: 2024-08- 6)