Skip to content

数据连接器 (LlamaHub)#

概念#

数据连接器(又称Reader)能够从不同数据源和数据格式中提取数据,并将其转换为简单的Document表示形式(包含文本和基础元数据)。

Tip

完成数据摄取后,您可以在其基础上构建索引,使用查询引擎进行提问,或通过聊天引擎展开对话。

LlamaHub#

我们通过LlamaHub 🦙提供数据连接器服务。LlamaHub是一个开源资源库,内含多种数据加载器,您可轻松将其集成至任何LlamaIndex应用程序。

使用模式#

快速开始:

from llama_index.core import download_loader

from llama_index.readers.google import GoogleDocsReader

loader = GoogleDocsReader()
documents = loader.load_data(document_ids=[...])

详情请参阅完整的使用模式指南

模块#

部分示例数据连接器:

  • 本地文件目录 (SimpleDirectoryReader)。支持解析多种文件类型:.pdf.jpg.png.docx
  • Notion (NotionPageReader)
  • Google Docs (GoogleDocsReader)
  • Slack (SlackReader)
  • Discord (DiscordReader)
  • Apify Actors (ApifyActor)。支持网页爬取、内容抓取、文本提取及文件下载(包括.pdf.jpg.png.docx等格式)

更多详情请参阅模块指南