智谱GLM-5V-Turbo发布：视觉编程新突破，一眼识图生成代码-天脉财经

在开发领域，视觉信息占据着主导地位，超过80%的需求以视觉形式呈现。然而，许多国内代码大模型长期以来只能依赖文本描述来推测页面布局，难以直接处理视觉信息。近日，智谱推出的GLM-5V-Turbo模型打破了这一局限，为视觉编程带来了新的突破。

GLM-5V-Turbo是一款专为视觉编程设计的多模态模型，能够原生融合视觉与文本能力。它不再依赖文本转译来“猜测”世界，而是直接理解设计图、解析复杂界面并生成对应代码，实现了从视觉感知到代码实现的完整开发链路。这一创新在海外社区引起了广泛关注，主贴阅读量迅速突破百万。

该模型在推理速度和核心能力上均表现出色。在前端看重的Design2code评测中，GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分，展现了其在视觉UI转化为代码方面的精准度。在多模态工具调用方面，它在BrowseComp-VL评测中取得了48.7的成绩，领先于K2.5的42.9分，具备了“看图找工具办事”的实用能力。在Agent复杂任务评测中，其Pass³分数接近行业顶尖水平，显示出强大的综合规划与执行力。

GLM-5V-Turbo的能力不仅限于单一图像场景，还延伸至图文混合理解与生成任务。例如，在处理斯坦福大学《2025年人工智能指数报告》时，该模型能够提炼核心结论，并将其转化为精美的多页HTML演示文档，同时生成结构化大纲JSON和Markdown格式的摘要。这一过程展示了模型在“阅读—理解—抽象—表达—生成”多步流程中的卓越表现。

在更复杂的测试中，GLM-5V-Turbo被要求基于一张设计图复刻一个完整的网页。模型不仅实现了光标周围清晰、其他位置模糊的视觉效果，还使网页元素可点击，并将特定文字改为打字机特效展示。网页上的便利贴点击后会展开记事本，不同窗口可展示图片和视频素材，初步效果令人惊艳。

GLM-5V-Turbo的技术优势源于其独特的模型架构和训练方法。与大多数多模态模型“先语言后视觉”的工程化方法不同，该模型从预训练阶段就将文本和视觉信号深度融合。自研的CogViT视觉编码器在通用物体识别、细粒度细节理解等方面显著提升，配套的MTP结构则保证了推理效率。模型在强化学习阶段同步优化超过30种任务，覆盖STEM推理、视觉定位、视频理解等领域，实现了能力的均衡提升。

为解决Agent领域高质量多模态交互数据稀缺的问题，智谱构建了分层数据体系，利用合成环境自动生成大规模可控数据，并通过过程奖励模型（PRM）数据抑制幻觉生成。同时，模型工具链扩展至多模态搜索、区域框选标注等视觉交互类工具，将编程与任务执行的链路升级为“视觉-行动混合闭环”。

目前，GLM-5V-Turbo已开放API，Coding Plan用户可申请抢先试用。开发者可通过BigModel开放平台、AutoClaw（澳龙）和Z.ai等渠道访问该模型。随着API的开放和Agent生态的打通，智谱为开发者提供了“视觉感知+动作执行”的基础设施，开启了AI应用开发的新篇章。

谷歌Gemini 3.5 Flash亮相：编码智能体双突破，开启AI应用新篇章

Kavukcuoglu 表示，这种速度对于 Flash 的智能体工作设计至关重要，在智能体工作中，多个 AI智能体可以同时运行，执行长时间运行的任务。新模型还将为Gemini Spark提供支持，Gemi…

2026-05-20

逐际动力5月25日将推全尺寸人形机器人LimX Luna 优雅姿态或能舞动全场

月 20 日消息，逐际动力今日公布了一款 LimX Luna 全尺寸交互人形机器人，将在 5 月 25 日 16:00逐际动力夏季新品发布会上推出。从海报可以看到，这款 LimX Luna 机器人姿态优雅…

2026-05-20

科技赋能春耕路黑龙江“插秧专列”焕新启程农机课堂与智能服务同行

如今，大数据、人工智能设备深度赋能农业生产，特别是以北大荒农垦集团为代表的大型农业企业率先完成农业智能化升级，智能插秧机、农事无人机广泛投入田间，种植户依托手机APP便可全程监控农作物生长，农业全产业链数字化…

2026-05-20

苹果CEO换任前夕硬件体系大调整：新硬件官力推芯片产品团队融合

2026-05-20

雷军透露小米YU7 GT专为时代精英打造，定价稍高，明日发布会揭晓详情

2026-05-20

华为徐直军再访东风携手奕境深化合作共绘智能汽车产业新蓝图

2026-05-20

英伟达财报将至，期权市场暗涌：3550亿美元市值波动或成焦点

2026-05-20

SpaceX拟6月12日纳斯达克上市估值1.75万亿美元，xAI重组同步推进

2026-05-20