Base de conocimientos a partir de una URL
En esta sección veremos cómo crear una instantánea de una colección de vectores a partir de una URL web. En primer lugar, analizaremos la URL en un archivo markdown estructurado. Luego, seguiremos los pasos de Knowledge base a partir de un archivo markdown para crear la incrustación de su URL.
Parsear el contenido de la URL a un archivo markdown
Firecrawl puede rastrear y convertir cualquier sitio web en markdown o datos estructurados listos para LLM. También permite rastrear una URL y todas las subpáginas accesibles.
Para utilizar Firecrawl, debe registrarse en Firecrawl y obtener una clave API.
Primero, instala las dependencias. Suponemos que ya tienes instalado Node.JS 20+.
git clone https://github.com/JYC0413/firecrawl-integration.git
cd firecrawl-integration
npm instalar
A continuación, exporte la clave API en el terminal.
export FIRECRAWL_KEY="su_clave_api_aquí"
a continuación, podemos utilizar la siguiente línea de comandos para ejecutar el servicio.
node crawlWebToMd.js
Una vez que la aplicación se haya ejecutado correctamente, aparecerá un mensaje en el Terminal.
Puedes escribir tu URL en el terminal ahora mismo. Aquí tenemos dos opciones.
- Varias páginas: introduzca su enlace con
/
al final, el programa rastreará y convertirá la página y sus subpáginas en un único archivo markdown. Esta forma costará mucho uso de token API. - Una sola página: introduzca su enlace sin
/
al final. el programa rastreará y convertirá la página actual en un único archivo markdown.
El archivo markdown de salida se ubicará en esta carpeta llamada salida.md
.
Crear incrustaciones a partir de los archivos markdown
Siga el tutorial Base de conocimientos a partir de un archivo markdown para convertir su archivo markdown en una instantánea de incrustaciones que pueda importarse en un nodo de GaiaNet.