引言
加载数据
LlamaIndex 中数据提取的关键是加载器和转换。加载文档后,您可以通过转换和输出节点来处理它们。
在理解部分了解了加载数据的基础知识后,您可以继续阅读以了解更多信息:
加载器
SimpleDirectoryReader
是 Llama-index 内置的加载器,用于从本地目录加载各种文件类型LlamaParse
是 LlamaIndex 的官方 PDF 解析工具,可作为托管 API 使用。LlamaHub
是我们注册的数百个数据加载库,可从任何来源提取数据
变换
这包括拆分文本等常见操作。
- 节点解析器使用模式,向您展示如何使用我们的节点解析器
- Node Parser Modules,展示我们的文本分割器(句子、标记、HTML、JSON)和其他解析器模块。
综合起来
- 提取管道允许您设置可重复的、缓存优化的数据加载过程。
抽象
Document 和 Node 对象以及如何针对更高级的用例自定义它们