GPT-4o原生图像生成大升级，奥特曼亲自演示，能否超越谷歌新模型？-天脉网

近日，人工智能领域的巨头OpenAI宣布了一项重大更新，其最新模型GPT-4o的原生图像生成功能迎来了重大升级。这一消息在科技界引起了广泛关注。

在深夜举行的直播活动中，OpenAI展示了GPT-4o在图像生成方面的多种新能力，包括制作梗图、文本渲染、多轮交互生成和指令遵循等。这些功能由OpenAI的负责人奥特曼亲自带队演示，展示了该模型从自拍变梗图到绘制相对论漫画的多样才华。

直播中最引人注目的演示之一，是GPT-4o将一张官方玩梗的表情包制作得栩栩如生。奥特曼表示，这一功能已经在ChatGPT和Sora中向所有Plus、Pro、Team和免费用户推出。

虽然新版Sora生成图像的时间比以往更长，但OpenAI认为，高质量的图像和模型所具备的世界知识让用户等待这几秒钟变得值得。OpenAI多模态研究的负责人Gabe回顾了项目启动时的好奇与期待，表示当模型完成训练时，他看到了令人兴奋的迹象，感受到了久违的创新激情。

在直播中，GPT-4o展示了其强大的图像生成能力。例如，当用户给出一个prompt时，模型能够迅速生成符合要求的图像。奥特曼和他的团队还展示了模型如何将自拍转换成动漫风格，并添加了一段“Feel The AGI”的文字，生成了一张表情包。

GPT-4o不仅限于简单的图像转换，它还能根据用户的复杂指令生成高度定制化的图像。例如，在直播中，模型被要求绘制一幅描述相对论的漫画，要求通俗易懂并加入幽默元素。生成的漫画不仅准确传达了相对论的概念，还融入了幽默元素，令人惊喜。

GPT-4o还能在上下文中生成图像和文本，确保它们之间的一致性。例如，用户可以要求模型设计一个信息图，解释牛顿的棱镜宽高比，并指定背景颜色。模型能够准确理解这些指令，并生成高质量的图像。

OpenAI表示，GPT-4o的图像生成功能注重细节和实用性，能够帮助用户更轻松地创建想象中的画面，并通过视觉进行有效沟通。这一功能的推出标志着OpenAI在多模态研究方面迈出了重要一步。