元数据提取
元数据提取使用模式
您可以使用 LLM 通过我们的 Metadata Extractor
模块自动提取元数据。
我们的元数据提取器模块包括以下“特征提取器”:
SummaryExtractor
: 自动提取一组节点的摘要QuestionsAnsweredExtractor
: 提取一组每个节点都可以回答的问题TitleExtractor
: 提取每个节点上下文的标题EntityExtractor
: 提取每个节点内容中提到的实体(即地点,人物,事物的名称)
然后你可以将 Metadata Extractors
与我们的节点解析器链接起来:
Python
from llama_index.core.extractors import (
TitleExtractor,
QuestionsAnsweredExtractor,
)
from llama_index.core.node_parser import TokenTextSplitter
text_splitter = TokenTextSplitter(
separator=" ", chunk_size=512, chunk_overlap=128
)
title_extractor = TitleExtractor(nodes=5)
qa_extractor = QuestionsAnsweredExtractor(questions=3)
# assume documents are defined -> extract nodes
from llama_index.core.ingestion import IngestionPipeline
pipeline = IngestionPipeline(
transformations=[text_splitter, title_extractor, qa_extractor]
)
nodes = pipeline.run(
documents=documents,
in_place=True,
show_progress=True,
)
或插入索引:
Python
from llama_index.core import VectorStoreIndex
index = VectorStoreIndex.from_documents(
documents, transformations=[text_splitter, title_extractor, qa_extractor]
)
资源
- SEC 文件元数据提取
- LLM 调查提取
- 实体提取
- Marvin 元数据提取
- Pydantic 元数据提取