天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

谷歌Gemini 2.5音频模型来袭:实时翻译还能捕捉情绪,开启交互新时代

2025-12-15来源:快讯编辑:瑞雪

谷歌近日发布了一项突破性技术——Gemini 2.5 Flash原生音频模型,将AI语音交互推向了全新高度。这项技术不仅实现了实时语音翻译,还能精准捕捉并复刻说话者的语调、节奏和情感,让AI对话更加自然流畅,仿佛与真人交流一般。

想象一下这样的场景:你漫步在异国街头,周围是陌生的语言和嘈杂的环境。一位当地人突然用方言向你问路,语速急促且带着焦虑。过去,你可能需要手忙脚乱地打开翻译软件,等待机械化的语音输出。而现在,只需佩戴耳机,就能立刻听到用母语流畅翻译的问候,甚至能感受到对方急切的情绪。更神奇的是,你的回答也会被自动转换成对方的语言,并保留你的语气和表达方式。这种无缝的跨语言交流体验,正是谷歌最新推出的Gemini 2.5 Flash原生音频模型带来的变革。

与传统语音交互技术不同,Gemini 2.5 Flash原生音频模型跳过了“语音转文字-AI处理-文字转语音”的繁琐流程,直接实现“听-想-说”的无缝衔接。这种原生处理方式不仅大幅提升了响应速度,还能完整保留人类交流中的微妙细节,如语气、停顿和情感。例如,当对方用欢快的语调提问时,翻译后的声音也会充满活力;若对方语气低沉犹豫,回复中也会自然流露出迟疑。这种情感层面的精准传递,在商务谈判或敏感对话中尤为重要。

目前,这项技术的实时语音翻译功能已在美国、墨西哥和印度的安卓设备上开启Beta测试,iOS版本也将陆续推出。其核心优势包括:支持70多种语言和2000多个语言对,覆盖全球主流语言;具备多语言混输能力,可同时处理对话中的多种语言;针对嘈杂环境优化,具备强大的噪声过滤能力;以及独特的风格迁移功能,能完美复刻说话者的情绪和表达方式。双向对话模式可自动识别说话者,无需手动切换,真正实现“无感”翻译。

对于开发者而言,Gemini 2.5 Flash原生音频模型同样带来了重大突破。在函数调用方面,新模型能更精准地获取实时信息,并将数据无缝融入对话,避免打断交流流畅性。在指令遵循测试中,其准确率从84%提升至90%,可更可靠地执行复杂指令。同时,多轮对话能力显著增强,能更有效地记忆上下文,保持对话连贯性和逻辑性。这些提升使得构建企业级AI客服的门槛大幅降低,开发者可轻松创建能听、能说、能办事的智能助手。

除了原生音频模型,谷歌还推出了一项实验性工具——Disco。这款来自Google Labs的产品内置了基于Gemini 3打造的GenTabs功能,可主动理解用户需求,将杂乱的标签页和聊天记录转化为交互式网络应用。例如,用户只需简单描述需求,如“制定周餐计划”或“教孩子认识行星”,Disco就能自动生成专属工具,无需编写代码。目前,macOS版本已开放排队体验,尽管仍处于早期阶段,但已展现出将“浏览”升级为“创造”的潜力。

百度萝卜快跑迎新突破:速腾聚创助力 或将首次上车千线级激光雷达组合
观点网讯:3月12日,百度旗下无人驾驶出行服务平台萝卜快跑,或将首次实现千线级激光雷达的上车应用,该独家前装定点已由速腾聚创获得。据介绍,速腾聚创将为萝卜快跑新一代前装量产Robotaxi车型提供“千线级EM…

2026-03-13

英伟达豪掷20亿美元牵手Nebius,共筑AI超大规模云服务新未来
【环球网科技综合报道】3月12日消息,据RTTNews报道,英伟达与Nebius集团近日宣布达成深度战略合作,双方将联合开发并部署面向人工智能市场的新一代超大规模云计算服务,精准对接AI原生企业及各类机构的…

2026-03-13

一加15T官宣来袭:全白配色搭配小屏设计,性能续航影像全面升级!
正是因为新技术的应用,促使一加15T这款智能手机不仅实现了玻纤后盖与金属中框在色彩上的高度一体化,还做到了白度和耐用度的完美平衡。 在机身规格上,根据互联网上的最新爆料信息显示,一加15T这款智能手机采用金属…

2026-03-12