天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

HiMo-CLIP来袭:让AI精准捕捉长文本关键,图像检索准确率大幅提升

2025-12-03来源:快讯编辑:瑞雪

在图像检索领域,传统模型处理复杂文本描述时常常力不从心。以CLIP为代表的现有技术面对"白色福特F250皮卡配备有色车窗和超大轮胎"这类包含多个细节的查询时,往往难以精准匹配目标图像。这种"描述越详细匹配越差"的现象,成为制约技术发展的关键瓶颈。

中国联通数据科学与人工智能研究院团队推出的HiMo-CLIP模型,通过创新性的动态语义指纹技术破解了这一难题。该模型搭载的HiDe模块采用统计学方法,能在海量文本中自动识别最具区分度的特征。例如在汽车检索场景中,系统会优先捕捉"超大轮胎"这类核心特征,而非泛化的"有色车窗"描述,使匹配准确率提升至89.3%。

研发团队设计的MoLo损失机制构建了双重保障体系,既确保整体语义匹配,又强化核心特征对齐。这种设计使模型在处理长文本时得分随信息量增加而提升,彻底改变了"多说多错"的行业痛点。在MSCOCO-Long测试集上,新模型的mAP指标较前代提升近20%,同时在Flickr30K短文本测试中保持98.3%的原始性能。

技术落地应用已显现显著成效。京东商品搜索系统接入该模型后,用户使用"黑色连帽卫衣带白色抽绳和刺绣logo"等复杂描述时,搜索转化率提升27%。自动驾驶领域正探索将其用于解析"前方施工区域有黄色警示牌和穿橙色背心的工人"等场景描述,帮助车载系统更精准识别环境要素。

这个开源项目在GitHub上线半年即获得2.3k星标,字节跳动、商汤科技等企业已开展技术验证。当前版本在处理"碳纤维车身包围"等专业术语时仍存在局限,研发团队计划2026年第三季度推出多语言版本,届时将支持外语描述的精准匹配。该成果标志着中国团队在AI基础研究领域取得重要突破,其模拟人类认知逻辑的创新思路,为多模态智能发展提供了新方向。

谷歌AI强势崛起:模型性能用户数双超OpenAI,OpenAI万亿投入承压
智东西12月1日消息,据英国《金融时报》报道,OpenAI在AI领域的主导地位正在受到谷歌的威胁,包括谷歌最新模型性能超OpenAI、GeminiApp月活用户、用户交互时长赶超ChatGPT。 今年5月…

2025-12-03

一加Ace 6T明日发布:原神神里绫华定制机亮相,功能配置亮点多
同时,一加Ace6T原神神里绫华定制机还有专属珍藏礼盒,采用旅行手提箱式设计,质感高级。 除此之外,一加Ace 6T配备165Hz 超高刷电竞屏,还带来了全新“明眸护眼”,不仅在低蓝光、低频闪、低亮度这三大…

2025-12-03

三星三折叠手机亮相,苹果折叠屏iPhone传闻频传,市场新角逐开启
据多方消息源透露,苹果预计将在 2026 年秋季推出其首款折叠屏机型 "iPhoneFold",该产品采用书本式内折设计方案,与三星 Z Fold 系列产品设计理念相似。作为传闻中苹果折叠屏屏幕的供应商,三…

2025-12-03

优必选科技携手卓世科技,共绘“大模型+机器人”商用新蓝图
双方将围绕联合研发攻关、场景应用落地、产业生态合作、资本合作、业务开拓与联合创新五大维度推进合作,计划共建联合研究实验室,聚焦“行业模型+具身智能”方向,优先在工业制造、企业服务、康养服务、文教传媒四大领域…

2025-12-03

众擎T800全尺寸人形机器人上市,固态电池突破续航瓶颈助力高效作业
为解决人形机器人长时间、高强度作业的能源需求,T800引入了关键的电池技术革新。 • 续航表现:该电池可支持T800实现4至5小时的稳定续航。• 系统协同:为保障持续作业下的性能稳定,机器人腿部配备了全关…

2025-12-03