在AI浪潮汹涌而至的当下,今年的春节见证了科技领域的一次重大变革。传统互联网巨头间的红包大战和春晚合作不再是焦点,取而代之的是AI公司的激烈角逐。
随着佳节的临近,各大AI大模型公司纷纷推出新品,而其中最引人注目的莫过于去年崭露头角的DeepSeek(深度求索)。1月20日晚,DeepSeek公司震撼发布了推理模型DeepSeek-R1正式版,该模型以低廉的训练成本实现了与OpenAI推理模型o1相媲美的性能,并且完全免费开源。这一举动在行业内引发了巨大震动,国产AI首次在全球范围内,尤其是美国科技圈,产生了深远影响。
开发者们对DeepSeek的热情高涨,纷纷表示正在考虑用其“重构一切”。在这一趋势下,DeepSeek移动端应用发布仅一月有余,便迅速登顶美国苹果应用商店免费App排行榜首,超越了ChatGPT及其他热门应用。DeepSeek的成功甚至影响了美股市场,其低成本的训练路径让投资者重新审视AI行业,导致AI第一股英伟达股价大幅下跌17%。
然而,DeepSeek的征程并未止步。1月28日凌晨,在除夕夜的前一晚,DeepSeek再次开源了其多模态模型Janus-Pro-7B,并宣布在Geneval和DPG-Bench基准测试中击败了来自OpenAI的DALL-E 3和Stable Diffusion。这一消息再次震撼了AI界。
DeepSeek此次发布的Janus-Pro系列模型包括Janus-Pro-7B和Janus-Pro-1B(1.5B参数量)。这一系列模型源自之前Janus模型的升级,采用了创新的架构,对理解(图生文)和生成任务(文生图)的视觉编码进行解耦,提升了模型训练的灵活性。DeepSeek将这一模型命名为Janus,寓意模型能像古罗马门神一样,用不同的眼睛看向视觉数据,分别编码特征,然后用同一个Transformer处理这些输入信号。
Janus Pro系列模型在指令跟随能力、多语言能力以及理解meme图像等方面表现出色,同时还能处理latex公式转换、图转代码等任务。DeepSeek还发布了Janus Flow新型多模态AI框架,旨在统一图像理解与生成任务。Janus Pro模型能够使用简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。
值得注意的是,Janus-Pro的新模型不仅在架构上具有创新意义,其参数量也引发了关注。与DALL-E 3的120亿参数量相比,Janus-Pro的大尺寸模型仅有70亿参数,却能在紧凑的尺寸下实现卓越效果。尤其是Janus-Pro的1B模型,仅使用15亿参数,已有用户将其支持添加到了transformers.js中,意味着模型现在可以在WebGPU上的浏览器中100%运行。这一进步意味着图片生成/图片理解的成本正在进一步降低,未来AI将在更多领域得到应用。
DeepSeek的崛起搅动了新年的科技界。去年春节前后,OpenAI的Sora模型曾引起轰动,而一年后,中国公司在视频生成方面已迎头赶上。今年,DeepSeek以其创新的模型和低廉的成本,让美国同行感受到了巨大压力。DeepSeek创始人梁文峰甚至以土耳其射击选手的梗来调侃这一成就,展现了其自信和幽默。
DeepSeek的成功不仅展示了中国AI的实力,也预示着AI行业未来的激烈竞争。在这个不平凡的春节,DeepSeek无疑成为了科技领域的焦点。