谷歌Gemini 2.5音频模型来袭：实时翻译还能捕捉情绪，开启交互新时代-天脉财经

谷歌近日发布了一项突破性技术——Gemini 2.5 Flash原生音频模型，将AI语音交互推向了全新高度。这项技术不仅实现了实时语音翻译，还能精准捕捉并复刻说话者的语调、节奏和情感，让AI对话更加自然流畅，仿佛与真人交流一般。

想象一下这样的场景：你漫步在异国街头，周围是陌生的语言和嘈杂的环境。一位当地人突然用方言向你问路，语速急促且带着焦虑。过去，你可能需要手忙脚乱地打开翻译软件，等待机械化的语音输出。而现在，只需佩戴耳机，就能立刻听到用母语流畅翻译的问候，甚至能感受到对方急切的情绪。更神奇的是，你的回答也会被自动转换成对方的语言，并保留你的语气和表达方式。这种无缝的跨语言交流体验，正是谷歌最新推出的Gemini 2.5 Flash原生音频模型带来的变革。

与传统语音交互技术不同，Gemini 2.5 Flash原生音频模型跳过了“语音转文字-AI处理-文字转语音”的繁琐流程，直接实现“听-想-说”的无缝衔接。这种原生处理方式不仅大幅提升了响应速度，还能完整保留人类交流中的微妙细节，如语气、停顿和情感。例如，当对方用欢快的语调提问时，翻译后的声音也会充满活力；若对方语气低沉犹豫，回复中也会自然流露出迟疑。这种情感层面的精准传递，在商务谈判或敏感对话中尤为重要。

目前，这项技术的实时语音翻译功能已在美国、墨西哥和印度的安卓设备上开启Beta测试，iOS版本也将陆续推出。其核心优势包括：支持70多种语言和2000多个语言对，覆盖全球主流语言；具备多语言混输能力，可同时处理对话中的多种语言；针对嘈杂环境优化，具备强大的噪声过滤能力；以及独特的风格迁移功能，能完美复刻说话者的情绪和表达方式。双向对话模式可自动识别说话者，无需手动切换，真正实现“无感”翻译。

对于开发者而言，Gemini 2.5 Flash原生音频模型同样带来了重大突破。在函数调用方面，新模型能更精准地获取实时信息，并将数据无缝融入对话，避免打断交流流畅性。在指令遵循测试中，其准确率从84%提升至90%，可更可靠地执行复杂指令。同时，多轮对话能力显著增强，能更有效地记忆上下文，保持对话连贯性和逻辑性。这些提升使得构建企业级AI客服的门槛大幅降低，开发者可轻松创建能听、能说、能办事的智能助手。

除了原生音频模型，谷歌还推出了一项实验性工具——Disco。这款来自Google Labs的产品内置了基于Gemini 3打造的GenTabs功能，可主动理解用户需求，将杂乱的标签页和聊天记录转化为交互式网络应用。例如，用户只需简单描述需求，如“制定周餐计划”或“教孩子认识行星”，Disco就能自动生成专属工具，无需编写代码。目前，macOS版本已开放排队体验，尽管仍处于早期阶段，但已展现出将“浏览”升级为“创造”的潜力。