信实 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位来宾，各位技术同仁，大家好！今天，我们齐聚一堂，共同探讨一个在当前AI浪潮中至关重要的话题：如何建立一套从检索召回率到生成信实度的自动化回归测试流水线，以深入实现对RAG（Retrieval-Augmented Generation，检索增强生成）系统或类似生成式AI系统的自动化基准测试。在人工智能，特别是生成式AI飞速发展的今天，我们欣喜地看到大型语言模型（LLM）在理解、生成自然语言方面展现出惊人的能力。然而，这种能力并非没有代价。LLM的“幻觉”（hallucination）、信息过时、难以控制输出风格等问题，使得它们在实际应用中，尤其是在需要高精度、高可靠性的企业级场景中，面临巨大的挑战。RAG架构应运而生，它通过外部知识检索来增强LLM的生成能力，有效缓解了上述部分问题，让模型能够基于实时、准确的私有数据进行回答。然而，RAG系统并非一劳永逸。它的性能受到检索模块、生成模块、以及两者之间协同作用的复杂影响。任何一环的改动，无论是模型更新、数据索引变更、提示词工程优化，都可能带来意想不到的退化。传统的、依赖人工的评估方式效率低下、成本高昂且主观性强，难以满足快速迭代和 …

继续阅读“深入 ‘Automated Benchmarking’：建立一套从检索召回率到生成信实度的自动化回归测试流水线”

尊敬的各位编程专家，大家下午好！今天，我们将深入探讨一个在当前AI领域至关重要的话题：如何对我们的检索增强生成（RAG）系统进行量化评估。随着大型语言模型（LLMs）的普及，RAG架构已成为解决LLM幻觉、提供最新信息并引用来源的关键技术。然而，构建一个RAG系统只是第一步，更重要的挑战是如何知道它是否真的“好用”？我们如何衡量其输出的质量，并据此进行迭代优化？这就是RAG评估的用武之地。在众多评估框架中，RAGAS凭借其“LLM即评判者”（LLM-as-a-judge）的范式，提供了一种高效、自动化的评估方法。本次讲座，我将重点围绕RAGAS框架，深入解析RAG评估中最核心的两个指标：信实度（Faithfulness）和相关性（Relevancy），并演示如何通过代码实践来量化和提升您的检索质量。 RAG评估：为何以及评估什么？在开始技术细节之前，我们首先要理解为什么RAG评估如此重要，以及我们究竟在评估什么。为什么需要评估RAG系统？迭代优化与持续改进： RAG系统不是一蹴而就的。从数据索引、检索器选择、重排序、提示工程到生成模型，每个环节都可能影响最终效果。评估提供了一 …

继续阅读“解析 ‘RAG Evaluation’ (RAGAS)：如何通过信实度（Faithfulness）和相关性（Relevancy）量化你的检索质量？”