在开发领域,视觉信息占据着主导地位,超过80%的需求以视觉形式呈现。然而,许多国内代码大模型长期以来只能依赖文本描述来推测页面布局,难以直接处理视觉信息。近日,智谱推出的GLM-5V-Turbo模型打破了这一局限,为视觉编程带来了新的突破。
GLM-5V-Turbo是一款专为视觉编程设计的多模态模型,能够原生融合视觉与文本能力。它不再依赖文本转译来“猜测”世界,而是直接理解设计图、解析复杂界面并生成对应代码,实现了从视觉感知到代码实现的完整开发链路。这一创新在海外社区引起了广泛关注,主贴阅读量迅速突破百万。
该模型在推理速度和核心能力上均表现出色。在前端看重的Design2code评测中,GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分,展现了其在视觉UI转化为代码方面的精准度。在多模态工具调用方面,它在BrowseComp-VL评测中取得了48.7的成绩,领先于K2.5的42.9分,具备了“看图找工具办事”的实用能力。在Agent复杂任务评测中,其Pass³分数接近行业顶尖水平,显示出强大的综合规划与执行力。
GLM-5V-Turbo的能力不仅限于单一图像场景,还延伸至图文混合理解与生成任务。例如,在处理斯坦福大学《2025年人工智能指数报告》时,该模型能够提炼核心结论,并将其转化为精美的多页HTML演示文档,同时生成结构化大纲JSON和Markdown格式的摘要。这一过程展示了模型在“阅读—理解—抽象—表达—生成”多步流程中的卓越表现。
在更复杂的测试中,GLM-5V-Turbo被要求基于一张设计图复刻一个完整的网页。模型不仅实现了光标周围清晰、其他位置模糊的视觉效果,还使网页元素可点击,并将特定文字改为打字机特效展示。网页上的便利贴点击后会展开记事本,不同窗口可展示图片和视频素材,初步效果令人惊艳。
GLM-5V-Turbo的技术优势源于其独特的模型架构和训练方法。与大多数多模态模型“先语言后视觉”的工程化方法不同,该模型从预训练阶段就将文本和视觉信号深度融合。自研的CogViT视觉编码器在通用物体识别、细粒度细节理解等方面显著提升,配套的MTP结构则保证了推理效率。模型在强化学习阶段同步优化超过30种任务,覆盖STEM推理、视觉定位、视频理解等领域,实现了能力的均衡提升。
为解决Agent领域高质量多模态交互数据稀缺的问题,智谱构建了分层数据体系,利用合成环境自动生成大规模可控数据,并通过过程奖励模型(PRM)数据抑制幻觉生成。同时,模型工具链扩展至多模态搜索、区域框选标注等视觉交互类工具,将编程与任务执行的链路升级为“视觉-行动混合闭环”。
目前,GLM-5V-Turbo已开放API,Coding Plan用户可申请抢先试用。开发者可通过BigModel开放平台、AutoClaw(澳龙)和Z.ai等渠道访问该模型。随着API的开放和Agent生态的打通,智谱为开发者提供了“视觉感知+动作执行”的基础设施,开启了AI应用开发的新篇章。
