天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

Gemini Omni引领AI视频新变革:动动嘴就能剪视频,开启世界生成新纪元

2026-05-21来源:快讯编辑:瑞雪

在今日凌晨的Google I/O大会上,谷歌DeepMind团队正式推出了革命性的AI模型Gemini Omni,这款被视为视频生成领域"Banana时刻"的新产品,正在重新定义人工智能与数字内容创作的边界。

不同于传统视频生成工具,Gemini Omni实现了从"生成内容"到"生成世界"的跨越。该模型不仅具备对动能、重力等物理规律的深刻理解,更能将复杂概念转化为直观的可视化场景。通过整合Gemini系列强大的推理能力与生成技术,新模型在多模态交互、视频编辑和世界模拟方面展现出突破性进展。

技术团队透露,Gemini Omni的训练方式与传统模型存在本质差异。其采用"多模态输入-多模态输出"架构,将图像、音频、视频和文本数据作为理解世界的原始素材,而非简单的附加条件。这种训练范式使模型能够自主掌握风格迁移、场景续写等未显式训练的能力——当用户要求将视频转换为蜡笔画风格时,模型能自动生成符合要求的版本;面对"走廊怪物出现"的开放式指令,系统可自然延续场景几何结构与人物特征。

产品负责人Nicole Brichtova在发布访谈中强调,这不是对Veo系列的常规升级,而是"从地基开始的重建"。团队耗时数月构建五条并行评估管线,在视频生成、编辑、图像生成、文本对齐和音频同步等维度进行综合优化。研究总监Shlomi Fruchter透露,模型展现出的"涌现能力"多次超出预期,例如通过音乐生成训练提升视频时间连贯性,利用绘画训练增强物理空间感知。

硅谷风投机构a16z合伙人Justine Moore指出,Gemini Omni的对话式编辑功能与数字分身技术具有颠覆性意义。用户现在可通过自然语言指令修改视频元素,甚至将个人形象植入历史场景。该模型在生物学解释、人体特写处理等领域表现尤为突出,例如能清晰展示蒙娜丽莎从颜料分子到原子结构的缩放过程。

DeepMind联合负责人Demis Hassabis坦言,这款模型代表着通往通用人工智能的重要一步。当被问及为何打破延续三年的命名体系时,团队成员表示:"这标志着技术路径的根本转变,我们正在构建能够理解并模拟真实世界的系统。"目前,谷歌已开放部分功能的体验申请,全球创作者正等待见证这场数字内容革命的全面到来。

阿里千问Qwen3.7-Max发布:国产模型登顶,35小时自主完成硬核硬件优化
【太平洋科技】在2026阿里云峰会上,阿里巴巴正式推出千问大模型最新旗舰版本Qwen3.7-Max,凭借全面提升的智能体能力与推理性能,在Arena全球大模型盲测总榜中位列国产模型第一,综合水平接近GPT…

2026-05-21

阿里Qwen3.7-Max发布:国产模型新标杆,Agent时代竞争再升级
因此,Qwen3.7-Max 的发布是阿里把模型、云、MaaS、开发者工具和真实业务场景连接起来,参与 Agent 时代竞争的一个重要节点。它既是千问模型能力的一次更新,也是阿里把模型、云服务、MaaS、应…

2026-05-21