埃隆-马斯克称人工智能已耗尽真实世界的训练数据

埃隆-马斯克：人工智能已经吞噬了人类的知识；合成数据才是未来（图片来源：Dall-E 3）

埃隆-马斯克（Elon Musk）声称，自 2024 年以来，人工智能已经耗尽了现实世界中可用的训练数据，并主张将合成数据生成作为人工智能发展的未来。大型科技公司已经开始采用这种方法，不过研究人员警告说，这种方法存在模型崩溃和偏差放大等潜在风险。

Nathan Ali (translated by Ninh Duy), Published 01/14/2025 🇺🇸 🇫🇷 ...

埃隆-马斯克（Elon Musk）最近在美国消费电子展（CES）上接受采访时提到，人工智能基本上已经，用完了所有可用的真实世界训练数据。所有可用的真实世界训练数据，并指出生成合成数据是未来的主要发展方向。这一观点与 OpenAI 前首席科学家伊利亚-苏茨基弗（Ilya Sutskever）关于人工智能发展达到 "数据峰值 "的说法不谋而合。

马斯克认为，我们早在 2024 年就耗尽了人类生产的数据。作为特斯拉的首席执行官和 xAI 的所有者，他强调，让人工智能创建自己的训练数据是推动人工智能发展的最实用的解决方案。这种方法可以让人工智能系统自我检查，边学边做。

许多大型科技公司已经搭上了合成数据的列车。例如，微软新近开源的 Phi-4 模型就依赖于合成信息和真实世界信息的组合，而谷歌则在其 Gemma 模型中采用了类似的策略。Anthropic 的 Claude 3.5 Sonnet 和 Meta 最新的 Llama 系列也依赖于人工智能生成的数据。

同时，Gartner 公司的分析师预测，到 2024 年，人工智能和分析项目中使用的数据将有 60% 左右是合成的。这种转变的一个重要原因是成本。人工智能初创公司 Writer 表示，它开发 Palmyra X 004 模型的成本约为 70 万美元，比建立一个类似的 OpenAI 模型估计需要的 460 万美元便宜得多。

但合成数据并非没有问题。研究人员警告说，人工智能可能会出现 "模型崩溃 "的风险，在这种情况下，人工智能的创造性会降低，偏见会增加。如果原始数据集中的任何偏差在人工智能开始自行生成新数据时被放大，这个问题就可能出现。