多模态#
LlamaIndex 不仅能构建基于语言的应用程序,还支持开发多模态应用——将语言与图像相结合。
多模态应用场景类型#
这一领域目前正处于积极探索阶段,但已经涌现出一些引人入胜的应用场景。
RAG(检索增强生成)#
所有核心RAG概念:索引、检索和合成,都可以扩展到图像领域。
- 输入可以是文本或图像
- 存储的知识库可以包含文本或图像
- 生成响应时的输入可以是文本或图像
- 最终响应可以是文本或图像
查看以下指南:
结构化输出#
您可以通过LlamaIndex使用新版OpenAI GPT4V生成结构化输出。用户只需指定一个Pydantic对象来定义输出结构。
查看以下指南:
检索增强图像描述#
理解图像通常需要从知识库中查找信息。这里的一个流程是检索增强图像描述——首先用多模态模型为图像生成描述,然后通过从文本语料库中检索来优化描述。
查看以下指南:
智能体#
以下是一些展示GPT-4V智能体能力的初步工作。
评估与比较#
这些部分展示了不同多模态模型在各种应用场景中的比较。
LLaVa-13、Fuyu-8B和MiniGPT-4多模态LLM模型的图像推理比较#
这些笔记本展示了如何使用不同的多模态LLM模型进行图像理解/推理。各种模型推理由Replicate或OpenAI GPT4-V API支持。我们比较了几种流行的多模态LLM:
- GPT4-V(OpenAI API)
- LLava-13B(Replicate)
- Fuyu-8B(Replicate)
- MiniGPT-4(Replicate)
- CogVLM(Replicate)
查看以下指南:
多模态RAG的简单评估#
在本笔记本指南中,我们将演示如何评估多模态RAG系统。与纯文本情况类似,我们将分别考虑检索器和生成器的评估。正如我们在关于评估多模态RAG的博客中提到的那样,我们的方法包括应用适用于纯文本情况的常规技术的改编版本。这些改编版本是llama-index库(即评估模块)的一部分,本笔记本将引导您了解如何将它们应用于您的评估用例。
模型指南#
以下是展示如何与不同多模态模型提供商交互的笔记本指南。