DeepSeek新年再发力，多模态模型Janus Pro能否领跑AI新赛道？-天脉网

在AI浪潮汹涌而至的当下，今年的春节见证了科技领域的一次重大变革。传统互联网巨头间的红包大战和春晚合作不再是焦点，取而代之的是AI公司的激烈角逐。

随着佳节的临近，各大AI大模型公司纷纷推出新品，而其中最引人注目的莫过于去年崭露头角的DeepSeek（深度求索）。1月20日晚，DeepSeek公司震撼发布了推理模型DeepSeek-R1正式版，该模型以低廉的训练成本实现了与OpenAI推理模型o1相媲美的性能，并且完全免费开源。这一举动在行业内引发了巨大震动，国产AI首次在全球范围内，尤其是美国科技圈，产生了深远影响。

开发者们对DeepSeek的热情高涨，纷纷表示正在考虑用其“重构一切”。在这一趋势下，DeepSeek移动端应用发布仅一月有余，便迅速登顶美国苹果应用商店免费App排行榜首，超越了ChatGPT及其他热门应用。DeepSeek的成功甚至影响了美股市场，其低成本的训练路径让投资者重新审视AI行业，导致AI第一股英伟达股价大幅下跌17%。

然而，DeepSeek的征程并未止步。1月28日凌晨，在除夕夜的前一晚，DeepSeek再次开源了其多模态模型Janus-Pro-7B，并宣布在Geneval和DPG-Bench基准测试中击败了来自OpenAI的DALL-E 3和Stable Diffusion。这一消息再次震撼了AI界。

DeepSeek此次发布的Janus-Pro系列模型包括Janus-Pro-7B和Janus-Pro-1B（1.5B参数量）。这一系列模型源自之前Janus模型的升级，采用了创新的架构，对理解（图生文）和生成任务（文生图）的视觉编码进行解耦，提升了模型训练的灵活性。DeepSeek将这一模型命名为Janus，寓意模型能像古罗马门神一样，用不同的眼睛看向视觉数据，分别编码特征，然后用同一个Transformer处理这些输入信号。

Janus Pro系列模型在指令跟随能力、多语言能力以及理解meme图像等方面表现出色，同时还能处理latex公式转换、图转代码等任务。DeepSeek还发布了Janus Flow新型多模态AI框架，旨在统一图像理解与生成任务。Janus Pro模型能够使用简短提示提供更稳定的输出，具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。

值得注意的是，Janus-Pro的新模型不仅在架构上具有创新意义，其参数量也引发了关注。与DALL-E 3的120亿参数量相比，Janus-Pro的大尺寸模型仅有70亿参数，却能在紧凑的尺寸下实现卓越效果。尤其是Janus-Pro的1B模型，仅使用15亿参数，已有用户将其支持添加到了transformers.js中，意味着模型现在可以在WebGPU上的浏览器中100%运行。这一进步意味着图片生成/图片理解的成本正在进一步降低，未来AI将在更多领域得到应用。

DeepSeek的崛起搅动了新年的科技界。去年春节前后，OpenAI的Sora模型曾引起轰动，而一年后，中国公司在视频生成方面已迎头赶上。今年，DeepSeek以其创新的模型和低廉的成本，让美国同行感受到了巨大压力。DeepSeek创始人梁文峰甚至以土耳其射击选手的梗来调侃这一成就，展现了其自信和幽默。

DeepSeek的成功不仅展示了中国AI的实力，也预示着AI行业未来的激烈竞争。在这个不平凡的春节，DeepSeek无疑成为了科技领域的焦点。