Ir al contenido principal
Versión: 1.0.0

Base de conocimientos a partir de un archivo PDF

En esta sección veremos cómo crear una instantánea de una colección de vectores a partir de un archivo PDF. En primer lugar, analizaremos el archivo PDF no estructurado para convertirlo en un archivo markdown estructurado. A continuación, seguiremos los pasos de Knowledge base a partir de un archivo markdown para crear incrustaciones para sus archivos PDF.

Herramientas para convertir un archivo PDF en un archivo markdown

Herramienta nº 1: LlamaParse

LlamaParse es una herramienta para analizar archivos para RAG óptima. Necesitará una clave LlamaCloud de https://cloud.llamaindex.ai.

En primer lugar, instala las dependencias. Suponemos que ya tienes instalado Node.JS 20+.

git clone https://github.com/alabulei1/llamaparse-integration.git
cd llamaparse-integration
npm install llamaindex
npm install dotenv

A continuación, edite el archivo .env para configurar la ruta del archivo PDF y la clave LlamaCloud. En este caso, no es necesario que te preocupes por los ajustes relacionados con LLM.

Después de eso, ejecute la siguiente línea de comandos para analizar su pdf en un archivo markdown.

npx tsx transMd.ts

El archivo markdown de salida se ubicará en esta carpeta llamada salida.md por defecto. Puede cambiar la ruta en .env archivo.

Herramienta nº 2: GPTPDF

GPTPDF es una herramienta de código abierto que utiliza GPT-4o para convertir PDF en markdown. Aquí necesitará una clave OpenAI.

En primer lugar, instale el software gptpdf.

pip install gptpdf

A continuación, introduzca el entorno Python.

python

A continuación, utilice el siguiente comando para analizar su pdf.

from gptpdf import parse_pdf
api_key = 'Tu clave API OpenAI'
content, image_paths = parse_pdf(Tu_ruta_del_df, api_key=api_key)
print(contenido)

Los archivos markdown de salida llamados salida.md se encontrará en su directorio raíz.

Crear incrustaciones a partir de los archivos markdown

Siga el tutorial Base de conocimientos a partir de un archivo markdown para convertir su archivo markdown en una instantánea de incrustaciones que pueda importarse en un nodo de GaiaNet.