天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

GPT-4o生图秘密大揭秘:港中文博士发现真相,竟可手动改图?

2025-03-30来源:天脉网编辑:瑞雪

近期,人工智能领域再度掀起波澜,GPT-4o的图像生成能力引发了广泛关注与热议。这款由OpenAI推出的最新模型,不仅在网络上掀起了一股“吉卜力”风潮,还激发了众多技术爱好者对其背后技术的深入探索。

据多位技术专家分析,GPT-4o的图像生成过程可能并非用户所见的逐行生成动画那般简单。港中文博士Jie Liu通过深入研究,揭示了这一前端动画背后的真相:它实际上可能是一种原生自回归(AR)生成方式,且用户甚至可以在一定程度上手动调整生成的图像。Jie Liu的发现表明,用户在浏览器中看到的逐行生成效果,更多是出于提升用户体验的前端设计,而非图像生成的真实过程。

无独有偶,CMU博士Sangyun Lee也对GPT-4o的图像生成原理提出了自己的见解。他认为,GPT-4o可能首先生成视觉token,然后通过一种类似于Rolling Diffusion的分组式扩散解码器,将这些token解码为像素空间中的图像。这一过程中,解码器可能按照从上到下的顺序进行解码,从而实现了高效的图像生成。

谷歌DeepMind的研究者Jon Barron也加入了这场讨论。他推测,GPT-4o的图像生成可能是多尺度和自回归方法的结合体。在这种混合模式下,一个自回归Transformer可能首先生成“先验”的潜在代码,随后由一个扩散解码器负责渲染图像。这一推测为理解GPT-4o的图像生成过程提供了新的视角。

尽管OpenAI尚未公布GPT-4o图像生成技术的全部细节,但用户们已经通过实际体验感受到了其强大的能力。GPT-4o不仅能够生成风格多样的图像,还能根据用户的指令进行逼真的照片编辑。这一特性使得它在美术、设计等领域展现出了巨大的应用潜力。

更令人瞩目的是,GPT-4o在生成漫画时展现出的元上下文和元理解能力。它能够自主预测不同的情境,并生成与之相符的图像内容。这一特性让许多用户感到震惊,甚至有人担忧人工智能是否正在走向自我意识的觉醒。

除了漫画生成,GPT-4o在风格重绘、形象迁移、设计参考等方面也展现出了卓越的能力。用户可以通过简单的指令,让GPT-4o将照片风格替换为皮克斯、3D、黑白等不同风格,或者将原照片放置在新的场景中。这些功能不仅让美术生和设计师们感到“破防”,也激发了更多用户对于人工智能应用的无限想象。

随着GPT-4o的广泛应用和深入探索,人工智能领域的发展前景愈发广阔。然而,如何在享受人工智能带来的便利的同时,确保技术的安全性和可控性,也成为了摆在我们面前的重要课题。

新型NAND闪存亮相:高效处理AI任务,抗辐射性能超传统30倍可应对太空环境
5月22日消息,据媒体报道,美国佐治亚理工学院的研究团队成功研制出一款新型NAND闪存。该闪存不仅能够高效处理人工智能(AI)任务,还能承受太空环境中的极端辐射,其抗辐射能力达到传统NAND闪存的30倍。 …

2026-05-22

OpenAI Codex六项更新来袭:手机遥控锁屏Mac,开发效率再升级!
Appshots功能支持用户将前台最上方的应用程序窗口发送到Codex中,当用户正在使用另一个应用程序时,可以同时按左右Command键,Codex会自动截取当前窗口上的可见图像、提取可见文本以及可见区域之…

2026-05-22

Codex大更新解锁新功能:Mac用户迎利好,AI应用体验再升级
解锁窗口极短,仅限当前 Computer Use 操作期间有效 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁 这个路径只对 …

2026-05-22