Rastreo de Sitios Web
Rastree sitios web públicos y agregue el contenido a su Content. El crawler visita páginas, extrae contenido como Markdown y le permite revisar y editar antes de procesarlos.
Cómo Llegar
Navegue a Contenido en el menú lateral, luego haga clic en la pestaña Website.
Cómo Rastrear un Sitio Web
Paso 1: Ingrese la URL
Pegue la URL del sitio web en el campo de entrada (ej. https://docs.example.com). El crawler comenzará desde esta página y seguirá enlaces para descubrir más páginas.
Paso 2: Configurar Opciones
| Opción | Predeterminado | Descripción |
|---|---|---|
| Carpeta de destino | Sin carpeta (raíz) | Seleccione una carpeta de destino para los documentos rastreados |
| Solo página individual | Desactivado | Solo rastrear la URL ingresada, no seguir enlaces |
| Respetar robots.txt | Activado | Respetar las reglas de rastreo del sitio en robots.txt |
Paso 3: Iniciar Rastreo
Haga clic en Crawl para comenzar. El crawler visita páginas comenzando desde su URL y extrae su contenido.
Paso 4: Monitorear Progreso
- Una barra de progreso muestra las páginas rastreadas vs. el máximo de su plan
- Las páginas aparecen en una lista en tiempo real a medida que se descubren
- Haga clic en cualquier página para previsualizar su contenido inmediatamente
- Use el botón Cancel para detener el rastreo en cualquier momento
Solo se puede ejecutar un rastreo a la vez por organización. Espere a que el rastreo actual se complete o cancélelo antes de iniciar otro.
Revisar Páginas Rastreadas
Después de completar el rastreo, puede revisar y editar las páginas antes de agregarlas a su Content.
Editar Contenido de Página
- Haga clic en cualquier página de la lista para abrir el editor
- Edite el título y el contenido en markdown
- Elimine secciones irrelevantes (menús de navegación, pies de página, barras laterales)
- Haga clic en Save para actualizar
Solo las páginas con estado “Pending” se pueden editar. Una vez que comienza el procesamiento, las páginas no se pueden modificar.
Seleccionar y Procesar Páginas
- Use las casillas de verificación para seleccionar las páginas que desea conservar
- Use Select All para seleccionar todas las páginas pendientes a la vez
- Opcionalmente elija una carpeta de destino
- Haga clic en Process Selected
Después de iniciar el procesamiento, se le redirige automáticamente a la pestaña Documents donde aparecerán los nuevos documentos.
Referencia de Estado del Rastreo
| Status | Significado |
|---|---|
| Pending | El rastreo está en cola para iniciar |
| In Progress | Visitando páginas activamente |
| Completed | Todas las páginas accesibles rastreadas |
| Partial Success | Algunas páginas rastreadas, algunas fallaron |
| Failed | El rastreo no pudo completarse |
| Cancelled | Detenido por usted |
Persistencia de Sesión
Su sesión de rastreo sobrevive la navegación y la recarga de página:
- Los rastreos activos se restauran automáticamente cuando regresa a la pestaña Website
- Los rastreos completados están disponibles para revisión hasta por 1 hora
Consejos
- Revise y edite el contenido rastreado antes de procesarlo para mejorar la calidad
- Use “Single page only” para páginas individuales que desee agregar rápidamente
- Mantenga “Respect robots.txt” habilitado para respetar las preferencias del propietario del sitio
- Los documentos rastreados aparecen en la pestaña Documents como archivos Markdown (.md)
Preguntas Frecuentes
P: ¿Cuántas páginas puedo rastrear? R: El número máximo de páginas depende de su plan. El crawler sigue enlaces desde su URL inicial hasta el límite de profundidad configurado.
P: ¿Puedo rastrear páginas detrás de un login? R: No. El crawler solo puede acceder a páginas disponibles públicamente. Las páginas detrás de autenticación se omitirán.
P: ¿En qué formato están las páginas rastreadas? R: El contenido se extrae como documentos Markdown (.md) y se procesa a través del pipeline estándar (chunking, embedding e indexación de búsqueda).
P: ¿Por qué fallaron algunas páginas? R: Las páginas pueden fallar por protección contra bots (firewalls como Cloudflare), errores del servidor o contenido vacío. El rastreo mostrará el estado “Partial Success”.
P: ¿Puedo volver a rastrear el mismo sitio? R: Sí. Inicie un nuevo rastreo con la misma URL. Las páginas rastreadas anteriormente se reemplazan cuando comienza un nuevo rastreo.
P: ¿Dónde aparecen las páginas procesadas? R: En la pestaña Documents de la página Contenido. Aparecen como archivos Markdown (.md).
Solución de Problemas
Las páginas devuelven errores 403 o 503
El sitio puede estar bloqueando crawlers automatizados. Opciones:
- Pida al propietario del sitio que permita
CuneiformBot/1.0 - Intente rastrear una página específica con “Single page only” habilitado
Contenido vacío o ilegible
Algunos sitios usan renderización intensiva de JavaScript. El crawler admite la mayoría de los frameworks modernos, pero:
- Las aplicaciones de página única que requieren autenticación no funcionarán
- El contenido cargado mediante scroll infinito puede capturarse parcialmente
El rastreo parece lento
- Cada página tarda unos segundos en rastrearse (incluye renderización y limitación de velocidad)
- Los sitios más grandes con muchas páginas tardarán varios minutos
- Puede cancelar y reintentar si un rastreo parece atascado