跳转至

引言

加载数据

LlamaIndex 中数据提取的关键是加载器和转换。加载文档后,您可以通过转换和输出节点来处理它们。

理解部分了解了加载数据的基础知识后,您可以继续阅读以了解更多信息:

加载器

  • SimpleDirectoryReader 是 Llama-index 内置的加载器,用于从本地目录加载各种文件类型
  • LlamaParse 是 LlamaIndex 的官方 PDF 解析工具,可作为托管 API 使用。
  • LlamaHub 是我们注册的数百个数据加载库,可从任何来源提取数据

变换

这包括拆分文本等常见操作。

  • 节点解析器使用模式,向您展示如何使用我们的节点解析器
  • Node Parser Modules,展示我们的文本分割器(句子、标记、HTML、JSON)和其他解析器模块。

综合起来

  • 提取管道允许您设置可重复的、缓存优化的数据加载过程。

抽象

Document 和 Node 对象以及如何针对更高级的用例自定义它们