Rastreo de Sitios Web

Rastree sitios web públicos y agregue el contenido a su Content. El crawler visita páginas, extrae contenido como Markdown y le permite revisar y editar antes de procesarlos.

Cómo Llegar

Navegue a Contenido en el menú lateral, luego haga clic en la pestaña Website.

Cómo Rastrear un Sitio Web

Paso 1: Ingrese la URL

Pegue la URL del sitio web en el campo de entrada (ej. https://docs.example.com). El crawler comenzará desde esta página y seguirá enlaces para descubrir más páginas.

Paso 2: Configurar Opciones

Opción	Predeterminado	Descripción
Carpeta de destino	Sin carpeta (raíz)	Seleccione una carpeta de destino para los documentos rastreados
Solo página individual	Desactivado	Solo rastrear la URL ingresada, no seguir enlaces
Respetar robots.txt	Activado	Respetar las reglas de rastreo del sitio en robots.txt

Paso 3: Iniciar Rastreo

Haga clic en Crawl para comenzar. El crawler visita páginas comenzando desde su URL y extrae su contenido.

Paso 4: Monitorear Progreso

Una barra de progreso muestra las páginas rastreadas vs. el máximo de su plan
Las páginas aparecen en una lista en tiempo real a medida que se descubren
Haga clic en cualquier página para previsualizar su contenido inmediatamente
Use el botón Cancel para detener el rastreo en cualquier momento

Solo se puede ejecutar un rastreo a la vez por organización. Espere a que el rastreo actual se complete o cancélelo antes de iniciar otro.

Revisar Páginas Rastreadas

Después de completar el rastreo, puede revisar y editar las páginas antes de agregarlas a su Content.

Editar Contenido de Página

Haga clic en cualquier página de la lista para abrir el editor
Edite el título y el contenido en markdown
Elimine secciones irrelevantes (menús de navegación, pies de página, barras laterales)
Haga clic en Save para actualizar

Solo las páginas con estado “Pending” se pueden editar. Una vez que comienza el procesamiento, las páginas no se pueden modificar.

Seleccionar y Procesar Páginas

Use las casillas de verificación para seleccionar las páginas que desea conservar
Use Select All para seleccionar todas las páginas pendientes a la vez
Opcionalmente elija una carpeta de destino
Haga clic en Process Selected

Después de iniciar el procesamiento, se le redirige automáticamente a la pestaña Documents donde aparecerán los nuevos documentos.

Referencia de Estado del Rastreo

Status	Significado
Pending	El rastreo está en cola para iniciar
In Progress	Visitando páginas activamente
Completed	Todas las páginas accesibles rastreadas
Partial Success	Algunas páginas rastreadas, algunas fallaron
Failed	El rastreo no pudo completarse
Cancelled	Detenido por usted

Persistencia de Sesión

Su sesión de rastreo sobrevive la navegación y la recarga de página:

Los rastreos activos se restauran automáticamente cuando regresa a la pestaña Website
Los rastreos completados están disponibles para revisión hasta por 1 hora

Consejos

Revise y edite el contenido rastreado antes de procesarlo para mejorar la calidad
Use “Single page only” para páginas individuales que desee agregar rápidamente
Mantenga “Respect robots.txt” habilitado para respetar las preferencias del propietario del sitio
Los documentos rastreados aparecen en la pestaña Documents como archivos Markdown (.md)

Preguntas Frecuentes

P: ¿Cuántas páginas puedo rastrear? R: El número máximo de páginas depende de su plan. El crawler sigue enlaces desde su URL inicial hasta el límite de profundidad configurado.

P: ¿Puedo rastrear páginas detrás de un login? R: No. El crawler solo puede acceder a páginas disponibles públicamente. Las páginas detrás de autenticación se omitirán.

P: ¿En qué formato están las páginas rastreadas? R: El contenido se extrae como documentos Markdown (.md) y se procesa a través del pipeline estándar (chunking, embedding e indexación de búsqueda).

P: ¿Por qué fallaron algunas páginas? R: Las páginas pueden fallar por protección contra bots (firewalls como Cloudflare), errores del servidor o contenido vacío. El rastreo mostrará el estado “Partial Success”.

P: ¿Puedo volver a rastrear el mismo sitio? R: Sí. Inicie un nuevo rastreo con la misma URL. Las páginas rastreadas anteriormente se reemplazan cuando comienza un nuevo rastreo.

P: ¿Dónde aparecen las páginas procesadas? R: En la pestaña Documents de la página Contenido. Aparecen como archivos Markdown (.md).

Solución de Problemas

Las páginas devuelven errores 403 o 503

El sitio puede estar bloqueando crawlers automatizados. Opciones:

Pida al propietario del sitio que permita CuneiformBot/1.0
Intente rastrear una página específica con “Single page only” habilitado

Contenido vacío o ilegible

Algunos sitios usan renderización intensiva de JavaScript. El crawler admite la mayoría de los frameworks modernos, pero:

Las aplicaciones de página única que requieren autenticación no funcionarán
El contenido cargado mediante scroll infinito puede capturarse parcialmente

El rastreo parece lento

Cada página tarda unos segundos en rastrearse (incluye renderización y limitación de velocidad)
Los sitios más grandes con muchas páginas tardarán varios minutos
Puede cancelar y reintentar si un rastreo parece atascado