多模态#

LlamaIndex 不仅能构建基于语言的应用程序，还支持开发多模态应用——将语言与图像相结合。

多模态应用场景类型#

这一领域目前正处于积极探索阶段，但已经涌现出一些引人入胜的应用场景。

RAG（检索增强生成）#

所有核心RAG概念：索引、检索和合成，都可以扩展到图像领域。

输入可以是文本或图像
存储的知识库可以包含文本或图像
生成响应时的输入可以是文本或图像
最终响应可以是文本或图像

查看以下指南：

结构化输出#

您可以通过LlamaIndex使用新版OpenAI GPT4V生成结构化输出。用户只需指定一个Pydantic对象来定义输出结构。

查看以下指南：

多模态Pydantic程序

检索增强图像描述#

理解图像通常需要从知识库中查找信息。这里的一个流程是检索增强图像描述——首先用多模态模型为图像生成描述，然后通过从文本语料库中检索来优化描述。

查看以下指南：

Llava + 特斯拉10Q报告

智能体#

以下是一些展示GPT-4V智能体能力的初步工作。

评估与比较#

这些部分展示了不同多模态模型在各种应用场景中的比较。

LLaVa-13、Fuyu-8B和MiniGPT-4多模态LLM模型的图像推理比较#

这些笔记本展示了如何使用不同的多模态LLM模型进行图像理解/推理。各种模型推理由Replicate或OpenAI GPT4-V API支持。我们比较了几种流行的多模态LLM：

GPT4-V（OpenAI API）
LLava-13B（Replicate）
Fuyu-8B（Replicate）
MiniGPT-4（Replicate）
CogVLM（Replicate）

查看以下指南：

多模态RAG的简单评估#

在本笔记本指南中，我们将演示如何评估多模态RAG系统。与纯文本情况类似，我们将分别考虑检索器和生成器的评估。正如我们在关于评估多模态RAG的博客中提到的那样，我们的方法包括应用适用于纯文本情况的常规技术的改编版本。这些改编版本是llama-index库（即评估模块）的一部分，本笔记本将引导您了解如何将它们应用于您的评估用例。

多模态RAG评估

模型指南#

以下是展示如何与不同多模态模型提供商交互的笔记本指南。