大模型小模型联手，破解AI数据标注低资源难题！-天脉网

在科技日新月异的今天，人工智能领域的每一次飞跃都离不开科研的持续投入与对前沿技术的不断探索。2023年，网易伏羲携手中国计算机学会（CCF）共同设立了“CCF - 网易雷火联合基金”，旨在利用多方资源优势，深化与国内外青年学者的科研合作，推动中国人工智能及相关尖端技术产业的进步，并加速校企合作与技术成果转化。

自成立以来，CCF-网易雷火联合基金一直致力于科研成果的转化与应用，吸引了众多学者的关注与支持。在2024中国计算机大会（CNCC2024）上，该基金的首批优秀成果正式揭晓。浙江大学软件学院百人计划研究员王皓波老师作为杰出代表，分享了其在基金资助下取得的课题成果——《基于大小模型协同的低资源标注技术》。该技术通过结合大模型与小模型的优势，为低资源条件下的数据标注难题提供了全新的解决方案，有望大幅提升标注效率与质量，推动人工智能产业更高效的数据驱动发展。

王皓波老师的演讲引起了广泛关注。他比喻道，如果将AI算法比作推动科技进步的“火箭”，那么数据标注就是为其提供动力的“燃料”，对训练模型、提高准确率至关重要。在AI市场竞争日益激烈的当下，数据标注的效率与质量直接影响着AI应用的效果与企业的竞争力。随着OpenAI发布的ChatGPT等大模型的出现，超大规模模型、数据和算力的结合使得通用智能初步显现，为众多行业带来了广泛的应用潜力，也为数据标注带来了新的机遇与挑战。

面对垂直领域产业对数据标注的迫切需求，通用大模型往往难以直接输出标注结果，仍需大量人类知识进行数据标签、校验与修复。在此背景下，王皓波老师的研究团队聚焦于如何利用大模型的强大能力，结合小模型的优势，实现低资源条件下的高效、精准数据标注。这一研究得到了CCF - 网易雷火联合基金的大力支持。

研究团队在数据标注技术领域的探索经历了多个阶段。首先是鲁棒噪声标签学习阶段。在机器学习中，噪声标签问题广泛存在，如机器生成标注数据的不准确性及众包标注者的经验不足等。传统的噪声标签学习算法存在局限性，难以达到理想效果。为此，研究团队在IJCAI 2023上提出了ProMix算法，通过创新的渐进选择方式，充分利用干净样本，解决了样本不平衡问题，并在多个数据集上取得了卓越成绩。

随着大模型时代的到来，研究团队进一步思考如何将大模型与小模型协同应用于数据标注领域。在EMNLP 2023上发表的FreeAL框架，旨在实现无人工主动学习的数据标注。FreeAL框架充分发挥大模型（LLM）和小模型（SLM）各自的优势，通过大模型生成初始标注，小模型进行鲁棒蒸馏，两者协同训练，不断优化标注结果。实验结果表明，FreeAL在多个任务上表现优异，甚至在某些数据集上超越了人类标注结果。

基于FreeAL框架，研究团队进一步研发了CORAL框架，相关成果入选VLDB 2024。CORAL框架提供了一种协作式自动标注原型系统，旨在减少人工参与并确保高质量的数据标注。CORAL结合了大小模型的协同工作，实现了初步的自动化标注流程，并引入了人机协同的标注范式。通过网易有灵众包平台的用户界面，用户可以对标注结果进行审查，针对低置信度样本进行人工校正，从而在有限的人工参与下有效提升标注数据的质量。

目前，研究团队正在探索将大小模型协同标注系统与网易有灵平台的AOP体系深度集成，以构建一个更高效、智能的人机协同Agent调度体系。这一体系将精准定位尚未得到妥善解决的样本，由网易有灵众包平台引入人工干预，进行人机协同标注。人类标注员凭借其专业知识和经验，处理复杂样本，实现最佳标注结果，从而提高数据标注的准确性和可靠性。

王皓波老师的研究不仅为数据标注领域的发展贡献了重要力量，也展现了CCF - 网易雷火联合基金在推动人工智能技术进步中的积极作用。这一研究成果有望为人工智能产业的数据标注提供全新的解决方案，推动其迈向更加高效、智能的发展道路。