元数据提取

元数据提取使用模式

您可以使用 LLM 通过我们的 Metadata Extractor 模块自动提取元数据。

我们的元数据提取器模块包括以下“特征提取器”：

SummaryExtractor: 自动提取一组节点的摘要
QuestionsAnsweredExtractor: 提取一组每个节点都可以回答的问题
TitleExtractor: 提取每个节点上下文的标题
EntityExtractor: 提取每个节点内容中提到的实体（即地点，人物，事物的名称）

然后你可以将 Metadata Extractors 与我们的节点解析器链接起来：

Python

from llama_index.core.extractors import (
    TitleExtractor,
    QuestionsAnsweredExtractor,
)
from llama_index.core.node_parser import TokenTextSplitter

text_splitter = TokenTextSplitter(
    separator=" ", chunk_size=512, chunk_overlap=128
)
title_extractor = TitleExtractor(nodes=5)
qa_extractor = QuestionsAnsweredExtractor(questions=3)

# assume documents are defined -> extract nodes
from llama_index.core.ingestion import IngestionPipeline

pipeline = IngestionPipeline(
    transformations=[text_splitter, title_extractor, qa_extractor]
)

nodes = pipeline.run(
    documents=documents,
    in_place=True,
    show_progress=True,
)

或插入索引：

Python

from llama_index.core import VectorStoreIndex

index = VectorStoreIndex.from_documents(
    documents, transformations=[text_splitter, title_extractor, qa_extractor]
)

资源

SEC 文件元数据提取
LLM 调查提取
实体提取
Marvin 元数据提取
Pydantic 元数据提取