在OpenAI最新发布的GPT Image 2技术分享中,研究科学家陈博远以独特视角揭秘了这场视觉盛宴背后的创作故事。作为模型核心训练成员,他不仅主导了中文渲染能力的突破性优化,更在发布会现场与CEO山姆·奥特曼共同演示了多语言文本生成功能。这位华裔科学家透露,团队在模型代号选择上颇费心思——"duct-tape"(布基胶带)的命名灵感源自现代艺术经典:用胶带将香蕉粘贴在墙面上的装置艺术,这一隐喻恰如其分地体现了技术突破的颠覆性。
在LMArena双盲测试中,该模型以显著优势领先第二名"小香蕉"代号团队。陈博远展示的测试图表显示,GPT Image 2在图像细节处理和语义理解维度形成断层式领先。这位科学家特别强调了中文环境的优化成果:"我们让模型在海报右下角生成了比头发丝还细的中文文本,这种多层级画中画结构都是一次性生成的。"他展示的漫画作品验证了这一能力——画面中不仅包含多国语言文本,更通过画中画结构嵌套了三层视觉信息,最终呈现效果与真实拍摄的漫画书别无二致。
技术团队在视觉推理能力的突破上另辟蹊径。陈博远设计的数学证明挑战题颇具匠心:要求模型在黑板上用图形而非代数方式证明奇数之和等于平方数。这个需要空间想象力的任务,成功验证了模型超越传统语言模型的视觉推理能力。更令人惊叹的是4K细节测试图——在堆叠的米粒中,某颗米粒表面刻有肉眼难辨的微型文字,这种级别的细节处理标志着生成式AI进入微观视觉时代。
发布会隐藏的彩蛋机制引发技术圈热议。当演示自动生成二维码功能时,首批扫描者意外获得了限量数字奖品,这种将技术演示与用户互动结合的创新形式获得广泛好评。陈博远特别感谢跨部门协作:"从市场团队的艺术设计到工程团队的细节打磨,每个环节都展现出惊人的执行力。"这场融合技术深度与艺术创意的发布会,不仅展示了AI生成技术的最新进展,更重新定义了人机协作的创作边界。


