天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

RAG系统鲁棒性大考:卡内基梅隆团队提出全新评估框架RARE

2025-06-08来源:天脉网编辑:瑞雪

在人工智能领域,检索增强生成(RAG)系统正逐渐崭露头角,以其独特的能力提升了大型语言模型的事实准确性和实时性。然而,这些系统在实际应用中的表现究竟如何,特别是在面对现实世界的各种干扰和变化时?近期,卡内基梅隆大学与亚马逊的研究团队在这一问题上取得了突破性进展。

研究团队发表了一篇题为《RARE: Retrieval-Aware Robustness evaluation for Retrieval-Augmented Generation Systems》的论文,揭示了RAG系统在应对现实世界挑战时的表现。这一研究由卡内基梅隆大学的Yixiao Zeng、Tianyu Cao、Danqing Wang、Xinran Zhao,以及亚马逊的Zimeng Qiu和Morteza Ziyadi,与卡内基梅隆大学的Tongshuang Wu和Lei Li共同完成。

研究团队指出,当前的评估基准大多依赖于静态的、时间不变的数据集,这些数据集通常包含常识性或通用知识的查询。这种评估方法无意中偏向了那些依靠记忆而非真正检索和综合新信息的模型,导致评估结果过于乐观,忽视了现实世界中涉及动态、专业和复杂信息的关键场景。为了解决这个问题,研究团队提出了一个名为“检索感知鲁棒性评估”(RARE)的统一框架。

RARE框架包括三个核心组件:RARE-Met、RARE-Get和RARE-Set。RARE-Met是一套全面的鲁棒性评估指标,用于测量RAG系统在面对查询、文档和模拟真实世界检索结果扰动时的表现。它能够提供对当前系统局限性的诊断洞察。RARE-Get是一个创新的动态综合管道,通过知识图谱三元组提取和遍历技术,自动构建时间敏感的评估数据。RARE-Set则是一个大规模基准数据集,包含400多个专业级的时间敏感金融、经济和政策文档,以及48,322个随着底层信息源变化而演变的问题。

RARE-Met定义了鲁棒RAG系统应具备的两大能力:一是当系统拥有内部知识时,无论检索结果如何,都应始终回答正确;二是当系统缺乏相关内部知识时,应能够在给予正确检索信息的情况下回答正确,或在无法获得正确信息时明确表示不知道,而不是提供错误的答案。基于这个定义,RARE-Met引入了查询扰动、文档扰动和鲁棒性指标的计算等三类扰动测试。

RARE-Get通过构建真实文本块、知识图谱提取、查询模式识别和查询生成与质量保证等四个关键阶段,将领域特定文档转换为全面的基准数据集。这个过程大大提高了创建专业评估数据集的效率,为领域语料库构建了复杂的RAG基准。

基于RARE-Get的强大能力,研究团队构建了RARE-Set,这是一个包含金融、经济和政策三个不同领域数据集的大规模集合。为了提高数据集质量,研究团队采用了多种处理技术,如基于Edgar-Crawler的预处理、表格转换、知识图谱提取中的关系优先考虑等。最终构建的基准包含单跳查询和基于知识图谱中不同知识模式的三种多跳查询,且所有数据集都是时间敏感的,可以随时间推移动态扩展。

研究团队在RARE-Set上进行了广泛的实验,测试了不同RAG系统在面对各种扰动时的鲁棒性表现。实验结果显示,大型模型通常表现出更优越的鲁棒性,但模型大小并不总是决定鲁棒性的唯一因素。架构设计和训练方法同样对鲁棒性有着重要影响。不同领域间的显著性能差异表明,RAG系统的鲁棒性受到领域特定因素的强烈影响。金融报告上的表现最佳,经济调查则遇到最大困难。

实验还表明,RAG系统对不同类型的扰动有着不同程度的敏感性。文档扰动对RAG系统的鲁棒性产生了显著影响,而查询扰动的影响相对较小。这种现象类似于我们在获取信息时面临的不同挑战:如果参考资料准确无误,我们通常能找到正确答案;但如果参考资料有误或不完整,即使问题表述清晰,也难以获得准确信息。

通过RARE框架的全面评估,研究团队得出了几个关键发现:RAG系统在文档扰动下非常脆弱;鲁棒性得分并不总是随模型大小增加而提高;RAG系统在不同领域的鲁棒性存在差异;多跳查询的鲁棒性一致低于单跳查询。这些发现突显了评估和改进RAG系统鲁棒性的重要性,特别是在现实世界应用中。

RARE框架的提出为RAG系统的评估开辟了新的视角,从检索感知的鲁棒性角度全面测试系统在面对现实世界挑战时的表现。这项研究不仅提供了一套完整的评估方法,还创建了一个能够自动生成高质量评估数据的管道和一个涵盖多个专业领域的大规模基准数据集。这些贡献将帮助构建更加鲁棒、可靠的RAG系统,使其能够在嘈杂、复杂、不断变化的现实世界中可靠运作。