在AI领域,一场技术革新正悄然进行。阿里最新发布的大模型Qwen 3,携手DeepSeek,正逐步构建中国开源生态的“双子星”格局,这一变化标志着Llama与Mistral为主导的开源生态正面临新的挑战。
Qwen 3发布之际,Founder Park深入采访了多家AI创业公司的代表,围绕开源与闭源的选择、模型微调、能力瓶颈及创业陷阱等话题展开了深入探讨。心言集团的开源布道师及高级算法工程师“左右”分享了他的见解,从实践角度剖析了中国开源模型的崛起之路,并畅谈了在开源生态下的业务探索与技术反思。
关于开源与闭源模型的选择,“左右”指出,心言集团的业务主要依赖本地部署的微调模型,以满足90%以上的需求。对于特定任务,如数据构造或需要特定大模型能力时,会调用如GPT、豆包或Qwen的API。本地部署的模型基于Qwen,根据业务不同,选用7B、32B、72B等不同量级版本,而具身智能业务则采用更小量级的多模态模型。
“左右”进一步解释选择Qwen的原因,包括其生态系统的成熟度与稳定性、与业务需求的契合度、模型系列的完整性以及开源的持续性与可信赖度。特别是Qwen对中文的良好支持及其在预训练数据中纳入的泛心理、情感陪伴相关内容,使其更适合心言集团的业务需求。
在谈及大模型的使用和微调面临的挑战时,“左右”表示,具身智能业务面临推理成本和生态适配的问题,而线上互联网业务则主要关注模型能力和推理成本/延迟。在情感陪伴业务中,对情感细粒度理解的高要求使得多模态理解能力至关重要。
针对当前模型能力是否满足业务需求的问题,“左右”强调,心言集团专注于情感、情绪化的泛心理应用场景,这部分数据在预训练阶段往往被忽视。因此,他们坚持进行后训练(Post-training),以提升模型在核心领域的表现,同时控制对其他通用能力的损害。
在谈到对开源模型发展的看法时,“左右”表示,期待开源模型能够追平闭源顶尖模型,并希望它们能分享更多的技术细节。他认为,DeepSeek、Qwen和Llama等开源模型在定位上存在差异,DeepSeek更激进、理想化,而Qwen和Llama更注重社区和通用性。
“左右”指出,当前大模型创业中最容易被忽视的坑是模型与产品的适配度,以及对AI在产品中角色的理解。他认为,AI更多是作为后端能力,用于深度处理用户输入,实现个性化,而不是直接交付结果的前端界面。很多开发者追求简单的“端到端”,但在情感等领域,原本需要复杂处理的环节依然需要,直接用AI替代可能导致产品缺乏深度和个性化。
随着Qwen、DeepSeek等中国开源模型在国际舞台上崭露头角,技术生态驱动的全球化进程正在加速。心言集团的实践表明,开源不仅为中国企业提供了弯道超车的技术路径,更创造了“全球协作-垂直创新-生态反哺”的良性发展模式。在情感计算领域,心言集团将继续以开源为舟,以创新为帆,探索无限可能。