在科技界的深夜较量中,Google DeepMind悄然放出了大招,其最新研发的基础世界模型Genie 2横空出世,为虚拟世界的创造开启了新篇章。
想象一下,未来只需一张图片,便能踏入一个栩栩如生的游戏世界。Genie 2作为新一代的基础世界模型,能够仅凭一张初始图片,生成可操作、可玩性极高的3D环境。用户将在这些环境中自由探索,体验前所未有的互动乐趣。
Genie 2的出色之处在于,它不仅能实时生成连贯画面,还能准确预判角色行为。这意味着它已超越了简单模仿的层面,开始真正“理解”世界的运作规律。这一突破性的进步,得益于其在海量视频数据集上的深度训练,以及多项涌现能力的展现。
与此同时,OpenAI也不甘示弱,在凌晨时分正式官宣了为期十二天的圣诞惊喜活动。两大AI巨头在年终之际的这场对决,无疑让十二月的硅谷更加热闹非凡。OpenAI的这场活动,每天都会带来新内容或演示,从文本到视频AI工具Sora的发布,到ChatGPT的节日声音引入,再到视觉功能的增强,每一项都让人充满期待。
然而,在这场科技盛宴中,DeepMind的Genie 2无疑更加引人注目。相较于第一代Genie创造的2D世界,Genie 2迈出了关键一步,成功生成了丰富多彩的3D世界。它能够智能响应键盘输入,准确识别并移动目标角色,同时保持长达一分钟的场景连贯性,动态生成新的合理内容。
Genie 2还支持多种视角切换,能够呈现复杂的3D视觉场景和多样化的对象交互。无论是气球爆炸、开门动作,还是炸药桶爆炸效果,它都能轻松模拟。Genie 2还拥有强大的“记忆力”和“创造力”,能够记住并重现用户未曾看到的场景。
对于艺术家和设计师来说,Genie 2无疑是一个强大的工具。他们只需简单地画个草稿,Genie 2就能将其变成可以实际体验的3D环境,极大地节省了制作时间和成本。同时,Genie 2还能作为AI的“训练场”,快速创造出各种各样的“考试场景”,来训练和测试AI智能体。
尽管目前这项研究仍处于初期阶段,且存在一些需要改进的地方,但DeepMind研究团队相信,Genie 2将是解决训练具身智能体结构性问题的关键,也是迈向通用人工智能(AGI)的重要一步。随着技术的不断进步和完善,我们有理由相信,未来的“拍照”行为将被重新定义,每张照片都可能成为一个通向完整虚拟世界的入口。