Skip to content

多模态#

LlamaIndex 不仅能构建基于语言的应用程序,还支持开发多模态应用——将语言与图像相结合。

多模态应用场景类型#

这一领域目前正处于积极探索阶段,但已经涌现出一些引人入胜的应用场景。

RAG(检索增强生成)#

所有核心RAG概念:索引、检索和合成,都可以扩展到图像领域。

  • 输入可以是文本或图像
  • 存储的知识库可以包含文本或图像
  • 生成响应时的输入可以是文本或图像
  • 最终响应可以是文本或图像

查看以下指南:

结构化输出#

您可以通过LlamaIndex使用新版OpenAI GPT4V生成结构化输出。用户只需指定一个Pydantic对象来定义输出结构。

查看以下指南:

检索增强图像描述#

理解图像通常需要从知识库中查找信息。这里的一个流程是检索增强图像描述——首先用多模态模型为图像生成描述,然后通过从文本语料库中检索来优化描述。

查看以下指南:

智能体#

以下是一些展示GPT-4V智能体能力的初步工作。

评估与比较#

这些部分展示了不同多模态模型在各种应用场景中的比较。

LLaVa-13、Fuyu-8B和MiniGPT-4多模态LLM模型的图像推理比较#

这些笔记本展示了如何使用不同的多模态LLM模型进行图像理解/推理。各种模型推理由Replicate或OpenAI GPT4-V API支持。我们比较了几种流行的多模态LLM:

  • GPT4-V(OpenAI API)
  • LLava-13B(Replicate)
  • Fuyu-8B(Replicate)
  • MiniGPT-4(Replicate)
  • CogVLM(Replicate)

查看以下指南:

多模态RAG的简单评估#

在本笔记本指南中,我们将演示如何评估多模态RAG系统。与纯文本情况类似,我们将分别考虑检索器和生成器的评估。正如我们在关于评估多模态RAG的博客中提到的那样,我们的方法包括应用适用于纯文本情况的常规技术的改编版本。这些改编版本是llama-index库(即评估模块)的一部分,本笔记本将引导您了解如何将它们应用于您的评估用例。

模型指南#

以下是展示如何与不同多模态模型提供商交互的笔记本指南。