组件级评估#

要对工作流进行更深入的评估，将其分解为对单个组件的评估会很有帮助。

例如，某个特定的失败案例可能是由于未能检索到正确的文档，同时LLM误解了上下文并产生了错误的幻觉结果。能够隔离并分别处理这些问题，有助于降低复杂性，并逐步引导您获得更满意的整体结果。

利用公开基准测试#

在进行初始模型选择时，参考模型在标准化、多样化领域或任务上的表现会很有帮助。

对于嵌入模型，一个有用的基准是MTEB排行榜。

BEIR可用于评估特定检索模型在零样本设置下对细分领域的泛化能力。

由于大多数公开可用的嵌入和检索模型已经在BEIR上进行了基准测试（例如通过MTEB基准），当您有一个独特的模型需要评估时，使用BEIR会更有帮助。

例如，在您的数据集上微调嵌入模型后，查看其在不同领域集合上的性能是否下降以及下降程度会很有帮助。这可以表明数据漂移可能对检索准确性产生多大影响，例如当您向RAG系统添加微调训练分布之外的文档时。

以下是一个展示如何在您的检索流程中使用BEIR数据集的笔记本：

我们将很快添加更多评估检索的方法，包括在您自己的数据集上评估检索。

在这种情况下，我们可能希望评估查询引擎的特定组件（可能生成子问题或后续问题）在标准基准上的表现。这有助于了解您的检索流程与其他流程或模型相比的差距或优势。

HotpotQA数据集适用于评估需要多步检索的查询。

示例：

局限性：

HotpotQA是在维基百科语料库上进行评估的。LLM，尤其是GPT4，往往能较好地记忆维基百科的信息。因此，该基准不太适合评估使用GPT4等知识丰富模型的检索+重排系统。