传统办公文档阅读器¶
LegacyOfficeReader
是用于读取 Word-97(.doc) 文件的解析器。其底层采用 Apache Tika 实现文件解析。
快速开始¶
如果您在 Colab 上打开此 Notebook,可能需要安装 LlamaIndex 🦙 和旧版 Office 文档阅读器。
注意:Apache Tika 是旧版 Office 文档阅读器的依赖项,需要安装 Java 并能通过
java --version
命令调用。例如,在 Colab 上可通过
!apt-get install default-jdk
安装,在 macOS 上则可通过brew install openjdk
命令安装。
In [ ]:
Copied!
%pip install llama-index-readers-legacy-office
%pip install llama-index-readers-legacy-office
准备数据
我们需要准备一个用于测试的 .doc 文件。假设该文件位于 test_dir/harry_potter_lagacy.doc
In [ ]:
Copied!
from llama_index.readers.legacy_office import LegacyOfficeReader
from llama_index.readers.legacy_office import LegacyOfficeReader
选项 1:使用 LegacyOfficeReader
加载文件
In [ ]:
Copied!
file_path = "./test_dir/harry_potter_lagacy.doc"
reader = LegacyOfficeReader(
excluded_embed_metadata_keys=["file_path", "file_name"],
excluded_llm_metadata_keys=["file_type"],
)
file_path = "./test_dir/harry_potter_lagacy.doc"
reader = LegacyOfficeReader(
excluded_embed_metadata_keys=["file_path", "file_name"],
excluded_llm_metadata_keys=["file_type"],
)
In [ ]:
Copied!
docs = reader.load_data(file=file_path)
print(f"Loaded {len(docs)} docs")
docs = reader.load_data(file=file_path)
print(f"Loaded {len(docs)} docs")
Loaded 1 docs
选项 2:使用 SimpleDirectoryReader
加载文件
这是我们在同一目录下存放 .doc
文件及其他文件的路径。
from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(
input_dir="./test_dir/",
file_extractor={
".doc": LegacyOfficeReader(),
}
)