数据连接器 (LlamaHub)#
概念#
数据连接器(又称Reader
)能够从不同数据源和数据格式中提取数据,并将其转换为简单的Document
表示形式(包含文本和基础元数据)。
LlamaHub#
我们通过LlamaHub 🦙提供数据连接器服务。LlamaHub是一个开源资源库,内含多种数据加载器,您可轻松将其集成至任何LlamaIndex应用程序。
使用模式#
快速开始:
from llama_index.core import download_loader
from llama_index.readers.google import GoogleDocsReader
loader = GoogleDocsReader()
documents = loader.load_data(document_ids=[...])
详情请参阅完整的使用模式指南。
模块#
部分示例数据连接器:
- 本地文件目录 (
SimpleDirectoryReader
)。支持解析多种文件类型:.pdf
、.jpg
、.png
、.docx
等 - Notion (
NotionPageReader
) - Google Docs (
GoogleDocsReader
) - Slack (
SlackReader
) - Discord (
DiscordReader
) - Apify Actors (
ApifyActor
)。支持网页爬取、内容抓取、文本提取及文件下载(包括.pdf
、.jpg
、.png
、.docx
等格式)
更多详情请参阅模块指南。