天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

谷歌Gemini Embedding 2登场:全模态融合,开启AI嵌入技术新篇章

2026-03-11来源:快讯编辑:瑞雪

谷歌DeepMind近日宣布推出Gemini Embedding 2,这一原生多模态嵌入模型实现了文本、图像、视频、音频及文档五种媒体形式的统一嵌入,标志着人工智能嵌入技术进入全模态融合的新时代。该模型突破了传统嵌入模型仅支持单一模态的局限,通过将不同类型的数据映射至同一向量空间,为多模态应用开发提供了更高效的解决方案。

在技术架构上,Gemini Embedding 2基于Gemini框架构建,支持多种输入格式:文本处理能力提升至8192个token,图像可同时处理6张PNG或JPEG格式文件,视频支持最长120秒的MP4/MOV格式,音频可直接生成嵌入向量无需转录,文档则支持6页以内的PDF文件。该模型最显著的创新在于支持交错输入,允许开发者在单次请求中混合多种模态数据,从而捕捉不同媒体类型间的复杂语义关联。

性能表现方面,谷歌披露的基准测试数据显示,Gemini Embedding 2在文本、图像及视频任务中均超越当前主流模型。特别值得关注的是其原生语音处理能力,这项此前同类模型普遍缺失的功能,使音频数据可直接生成嵌入向量,省去了语音转文字的中间环节,显著提升了处理效率。为平衡性能与成本,模型延续了Matryoshka表示学习技术,允许开发者根据应用场景将输出维度从默认的3072灵活调整至1536或768。

对于企业用户而言,该模型的发布具有重要实践价值。通过统一嵌入空间的设计,开发者构建多模态检索增强生成(RAG)、语义搜索及数据分类系统的技术门槛大幅降低。以往需要分别处理不同模态数据的复杂管道,现在可通过单一模型简化实现。谷歌特别强调,维度压缩技术使大规模部署嵌入向量的企业能够在控制基础设施成本的同时,保持较高的模型精度。

目前,Gemini Embedding 2已通过Gemini API和Vertex AI平台开放预览,开发者可立即接入使用。据谷歌透露,部分早期合作伙伴已基于该模型开发出多模态应用,这些实践案例正在验证其在高价值场景中的实际效能。随着嵌入技术在上下文工程、大规模数据管理及传统搜索分析等领域的广泛应用,这款新模型有望推动相关技术生态的进一步发展。

多领域国家标准发布 助力新兴产业与安全保障高质量发展
从国家市场监督管理总局获悉,市场监管总局(国家标准委)批准发布一批重要国家标准,涉及新兴领域、安全生产等方面。在新兴领域,发布智能网联汽车、半导体器件、脑机接口、北斗芯片等18项国家标准,助力前沿技术领域高质…

2026-04-12

市场监管总局发布新标准:涵盖新兴与传统领域,助力生活品质与安全双提升
该批标准发布后将在提升人民群众生活品质、保障生命财产安全等方面发挥重要作用。发布机车车辆空气调节系统等9项国家标准,为提升轨道交通产品质量、保障运行安全、促进技术创新、增强国际竞争力提供坚实技术支撑。 发布…

2026-04-12

网梯科技新专利:AI智能体数字员工系统,为教育管理智能化添动力
国家知识产权局信息显示,北京网梯科技发展有限公司申请一项名为“一种AI智能体数字员工教育管理工作站系统及方法”的专利,公开号CN121836988A,申请日期为2025年12月。通过天眼查大数据分析,北京网梯…

2026-04-12

无人机助力清明祭祖:江南大家族以整猪整羊显诚意与团结
无人机吊运猪羊上山祭祖#好家伙,这为了祖宗也是豁出去了!这哥们竟然专门用来祭祖,你说这是多大的场面?开个玩笑,可能是江南的大家族,每年祭祖都非常的盛大,今年为了省事儿,就用上了高科技无人机!华人不也有每年清明…

2026-04-12

东土科技新专利:精准确定机器人手臂不可达区域 助力运动规划优化
国家知识产权局信息显示,北京东土科技股份有限公司申请一项名为“机器人手臂可达球的不可达区域确定方法、装置及介质”的专利,公开号CN121821355A,申请日期为2025年12月。企业注册资本61489.28…

2026-04-11