京东探索研究院近日宣布,其自主研发的图像编辑模型JoyAI-Image-Edit正式开源,成为全球首个深度融合空间智能技术的开源模型。该模型突破传统AI图像处理的平面局限,通过三维空间理解与编辑能力,重新定义了AI在复杂场景中的图像生成与修改方式,为开发者提供了可直接应用的完整推理代码框架。
传统图像模型常因空间逻辑缺失导致物体变形、光影错乱等问题,而JoyAI-Image-Edit通过构建完整的空间认知体系,从相机视角、物体位移、几何结构等多维度建模,实现了三大核心突破:其一,支持通过自然语言精准控制相机偏航角、俯仰角及缩放比例,生成符合几何规律的新视角图像;其二,可连续生成逻辑连贯的多视角图像序列,模拟三维空间中的动态漫游效果;其三,在保持场景整体结构稳定的前提下,对特定物体进行位移、缩放等操作,并自动调整遮挡与光影关系,确保视觉效果自然合理。
实验数据显示,该模型在物体移动精度、空间一致性等关键指标上已达到国际领先水平。其创新之处不仅在于空间编辑技术的突破,更在于将15类通用图像编辑能力(如物体替换、风格迁移、细节精修等)与空间理解深度融合,形成覆盖全场景的创作工具链。例如,在电商领域,商家可通过文本指令快速调整商品展示角度或场景布局;在创意设计中,艺术家能高效生成多视角概念图;在3D重建领域,模型可基于单张图像推导三维结构信息。
尤为值得关注的是,该模型为具身智能(Embodied AI)研发提供了关键技术支撑。在机器人视觉感知系统中,空间理解能力是实现环境交互的基础,JoyAI-Image-Edit通过解析图像中的深度信息与物体关系,为机器人构建"空间认知大脑"提供了底层能力支持。目前,该模型已开放代码库与预训练权重,开发者可基于其空间编辑框架开发各类垂直领域应用,推动AI图像技术从平面创作向三维空间智能的跨越式发展。

