在近期于国际消费电子展(CES)上的一次访谈中,特斯拉及SpaceX的创始人埃隆·马斯克透露了一个引人深思的观点:他认为,现实世界可用于训练人工智能(AI)模型的数据资源已接近枯竭。
马斯克强调,到2024年,AI训练几乎已经吸纳了人类历史上累积的全部知识数据。这一观点与OpenAI的前科学主管伊利亚·苏茨克维在同年12月于“NeurIPS”机器学习会议上提出的看法不谋而合,苏茨克维当时也指出,AI行业所能利用的数据量已达到极限。
面对这一挑战,马斯克提出了一个解决方案:未来应转向利用合成数据(synthetic data)来推动AI的发展。他解释说,合成数据将成为补充现实世界数据短缺的关键途径,即AI通过自我生成训练数据,从而开展自我评估与学习。
事实上,这一趋势已经初现端倪。包括微软、meta、OpenAI及Anthropic在内的多家科技巨头,已经开始在AI模型训练中广泛应用合成数据。据科技市场研究机构Gartner的估算,2024年,AI及分析项目所使用的数据中,约有60%为合成数据。
例如,微软于今年1月8日开源的AI模型“Phi-4”,便是结合了合成数据与现实世界数据进行训练的成果。谷歌的“Gemma”模型也采取了类似的方法。Anthropic利用部分合成数据开发的“Claude 3.5 Sonnet”系统表现尤为出色,而meta则运用AI生成的数据来微调其最新推出的Llama系列模型。
这一系列动向表明,随着现实世界数据资源的日益紧张,合成数据正逐渐成为AI领域发展的新引擎。科技巨头们正积极探索这一新路径,以期在AI技术的未来发展中占据先机。