近期,科技界巨头马斯克在CES展会的一次访谈中透露,当前现实世界可用于人工智能(AI)模型训练的数据资源已接近枯竭。
马斯克强调,到2024年,AI训练已几乎消耗完人类累积的全部知识资源。这一观点与OpenAI前任首席科学家Ilya Sutskever在“NeurIPS”机器学习会议上的预测不谋而合,Sutskever也曾表示AI产业可用的数据已达峰值。
面对这一数据枯竭的困境,马斯克提出了一个解决方案:合成数据(synthetic data)将成为AI未来的训练方向。他解释说,合成数据是由AI自行生成,用于自我训练的材料。通过这种方式,AI不仅能为自己打分,还能展开自我学习,弥补现实世界数据的不足。
事实上,科技巨头们已经开始积极探索这一领域。微软、meta、OpenAI和Anthropic等企业已经在AI模型训练中广泛应用合成数据。据科技市场研究机构Gartner预测,2024年AI及分析项目使用的数据中,合成数据将占据约60%的比例。
微软在最近开源的AI模型“Phi-4”中,便结合了合成数据与现实世界数据进行训练,取得了显著成效。谷歌的“Gemma”模型也采用了类似策略。Anthropic则利用部分合成数据开发了表现优异的“Claude 3.5 Sonnet”系统。meta则通过AI生成数据来微调其最新的Llama系列模型,进一步提升了模型性能。
随着科技的不断进步,合成数据的应用前景愈发广阔。这一创新方法不仅解决了现实世界数据稀缺的问题,还为AI的自我发展和优化提供了全新的途径。