Skip to Content
ContenidoRastreo de Sitios Web

Rastreo de Sitios Web

Rastree sitios web públicos y agregue el contenido a su Content. El crawler visita páginas, extrae contenido como Markdown y le permite revisar y editar antes de procesarlos.

Cómo Llegar

Navegue a Contenido en el menú lateral, luego haga clic en la pestaña Website.

Cómo Rastrear un Sitio Web

Paso 1: Ingrese la URL

Pegue la URL del sitio web en el campo de entrada (ej. https://docs.example.com). El crawler comenzará desde esta página y seguirá enlaces para descubrir más páginas.

Paso 2: Configurar Opciones

OpciónPredeterminadoDescripción
Carpeta de destinoSin carpeta (raíz)Seleccione una carpeta de destino para los documentos rastreados
Solo página individualDesactivadoSolo rastrear la URL ingresada, no seguir enlaces
Respetar robots.txtActivadoRespetar las reglas de rastreo del sitio en robots.txt

Paso 3: Iniciar Rastreo

Haga clic en Crawl para comenzar. El crawler visita páginas comenzando desde su URL y extrae su contenido.

Paso 4: Monitorear Progreso

  • Una barra de progreso muestra las páginas rastreadas vs. el máximo de su plan
  • Las páginas aparecen en una lista en tiempo real a medida que se descubren
  • Haga clic en cualquier página para previsualizar su contenido inmediatamente
  • Use el botón Cancel para detener el rastreo en cualquier momento

Solo se puede ejecutar un rastreo a la vez por organización. Espere a que el rastreo actual se complete o cancélelo antes de iniciar otro.

Revisar Páginas Rastreadas

Después de completar el rastreo, puede revisar y editar las páginas antes de agregarlas a su Content.

Editar Contenido de Página

  1. Haga clic en cualquier página de la lista para abrir el editor
  2. Edite el título y el contenido en markdown
  3. Elimine secciones irrelevantes (menús de navegación, pies de página, barras laterales)
  4. Haga clic en Save para actualizar

Solo las páginas con estado “Pending” se pueden editar. Una vez que comienza el procesamiento, las páginas no se pueden modificar.

Seleccionar y Procesar Páginas

  1. Use las casillas de verificación para seleccionar las páginas que desea conservar
  2. Use Select All para seleccionar todas las páginas pendientes a la vez
  3. Opcionalmente elija una carpeta de destino
  4. Haga clic en Process Selected

Después de iniciar el procesamiento, se le redirige automáticamente a la pestaña Documents donde aparecerán los nuevos documentos.

Referencia de Estado del Rastreo

StatusSignificado
PendingEl rastreo está en cola para iniciar
In ProgressVisitando páginas activamente
CompletedTodas las páginas accesibles rastreadas
Partial SuccessAlgunas páginas rastreadas, algunas fallaron
FailedEl rastreo no pudo completarse
CancelledDetenido por usted

Persistencia de Sesión

Su sesión de rastreo sobrevive la navegación y la recarga de página:

  • Los rastreos activos se restauran automáticamente cuando regresa a la pestaña Website
  • Los rastreos completados están disponibles para revisión hasta por 1 hora

Consejos

  • Revise y edite el contenido rastreado antes de procesarlo para mejorar la calidad
  • Use “Single page only” para páginas individuales que desee agregar rápidamente
  • Mantenga “Respect robots.txt” habilitado para respetar las preferencias del propietario del sitio
  • Los documentos rastreados aparecen en la pestaña Documents como archivos Markdown (.md)

Preguntas Frecuentes

P: ¿Cuántas páginas puedo rastrear? R: El número máximo de páginas depende de su plan. El crawler sigue enlaces desde su URL inicial hasta el límite de profundidad configurado.

P: ¿Puedo rastrear páginas detrás de un login? R: No. El crawler solo puede acceder a páginas disponibles públicamente. Las páginas detrás de autenticación se omitirán.

P: ¿En qué formato están las páginas rastreadas? R: El contenido se extrae como documentos Markdown (.md) y se procesa a través del pipeline estándar (chunking, embedding e indexación de búsqueda).

P: ¿Por qué fallaron algunas páginas? R: Las páginas pueden fallar por protección contra bots (firewalls como Cloudflare), errores del servidor o contenido vacío. El rastreo mostrará el estado “Partial Success”.

P: ¿Puedo volver a rastrear el mismo sitio? R: Sí. Inicie un nuevo rastreo con la misma URL. Las páginas rastreadas anteriormente se reemplazan cuando comienza un nuevo rastreo.

P: ¿Dónde aparecen las páginas procesadas? R: En la pestaña Documents de la página Contenido. Aparecen como archivos Markdown (.md).

Solución de Problemas

Las páginas devuelven errores 403 o 503

El sitio puede estar bloqueando crawlers automatizados. Opciones:

  • Pida al propietario del sitio que permita CuneiformBot/1.0
  • Intente rastrear una página específica con “Single page only” habilitado

Contenido vacío o ilegible

Algunos sitios usan renderización intensiva de JavaScript. El crawler admite la mayoría de los frameworks modernos, pero:

  • Las aplicaciones de página única que requieren autenticación no funcionarán
  • El contenido cargado mediante scroll infinito puede capturarse parcialmente

El rastreo parece lento

  • Cada página tarda unos segundos en rastrearse (incluye renderización y limitación de velocidad)
  • Los sitios más grandes con muchas páginas tardarán varios minutos
  • Puede cancelar y reintentar si un rastreo parece atascado
Last updated on