Skip to content

组件级评估#

要对工作流进行更深入的评估,将其分解为对单个组件的评估会很有帮助。

例如,某个特定的失败案例可能是由于未能检索到正确的文档,同时LLM误解了上下文并产生了错误的幻觉结果。能够隔离并分别处理这些问题,有助于降低复杂性,并逐步引导您获得更满意的整体结果。

利用公开基准测试#

在进行初始模型选择时,参考模型在标准化、多样化领域或任务上的表现会很有帮助。

对于嵌入模型,一个有用的基准是MTEB排行榜

检索评估#

BEIR数据集#

BEIR可用于评估特定检索模型在零样本设置下对细分领域的泛化能力。

由于大多数公开可用的嵌入和检索模型已经在BEIR上进行了基准测试(例如通过MTEB基准),当您有一个独特的模型需要评估时,使用BEIR会更有帮助。

例如,在您的数据集上微调嵌入模型后,查看其在不同领域集合上的性能是否下降以及下降程度会很有帮助。这可以表明数据漂移可能对检索准确性产生多大影响,例如当您向RAG系统添加微调训练分布之外的文档时。

以下是一个展示如何在您的检索流程中使用BEIR数据集的笔记本:

我们将很快添加更多评估检索的方法,包括在您自己的数据集上评估检索。

查询引擎组件评估(例如无检索情况)#

在这种情况下,我们可能希望评估查询引擎的特定组件(可能生成子问题或后续问题)在标准基准上的表现。这有助于了解您的检索流程与其他流程或模型相比的差距或优势。

HotpotQA数据集#

HotpotQA数据集适用于评估需要多步检索的查询。

示例:

局限性:

  1. HotpotQA是在维基百科语料库上进行评估的。LLM,尤其是GPT4,往往能较好地记忆维基百科的信息。因此,该基准不太适合评估使用GPT4等知识丰富模型的检索+重排系统。