Exploration de sites web

Explorez des sites web publics et ajoutez le contenu à votre Content. L’explorateur visite les pages, extrait le contenu en Markdown et vous permet de réviser et modifier avant le traitement.

Y accéder

Naviguez vers Content dans la barre latérale, puis cliquez sur l’onglet Website.

Comment explorer un site web

Étape 1 : Entrer l’URL

Collez l’URL du site web dans le champ de saisie (ex. : https://docs.example.com). L’explorateur commencera à partir de cette page et suivra les liens pour découvrir d’autres pages.

Étape 2 : Configurer les options

Option	Par défaut	Description
Dossier cible	Aucun dossier (racine)	Sélectionnez un dossier de destination pour les documents explorés
Page unique seulement	Désactivé	Explorez uniquement l’URL entrée, sans suivre les liens
Respecter robots.txt	Activé	Respecter les règles d’exploration robots.txt du site

Étape 3 : Lancer l’exploration

Cliquez sur Crawl pour commencer. L’explorateur visite les pages à partir de votre URL et extrait leur contenu.

Étape 4 : Suivre la progression

Une barre de progression montre les pages explorées vs. le maximum de votre plan
Les pages apparaissent dans une liste en direct au fur et à mesure de leur découverte
Cliquez sur n’importe quelle page pour prévisualiser son contenu immédiatement
Utilisez le bouton Cancel pour arrêter l’exploration à tout moment

Une seule exploration peut s’exécuter à la fois par organisation. Attendez que l’exploration en cours se termine ou annulez-la avant d’en lancer une autre.

Réviser les pages explorées

Après la fin de l’exploration, vous pouvez réviser et modifier les pages avant de les ajouter à votre Content.

Modifier le contenu d’une page

Cliquez sur n’importe quelle page dans la liste pour ouvrir l’éditeur
Modifiez le titre et le contenu markdown
Supprimez les sections non pertinentes (menus de navigation, pieds de page, barres latérales)
Cliquez sur Save pour mettre à jour

Seules les pages avec le statut “Pending” peuvent être modifiées. Une fois le traitement lancé, les pages ne peuvent plus être changées.

Sélectionner et traiter les pages

Utilisez les cases à cocher pour sélectionner les pages que vous souhaitez garder
Utilisez Select All pour sélectionner toutes les pages en attente
Choisissez éventuellement un dossier cible
Cliquez sur Process Selected

Après le début du traitement, vous êtes automatiquement redirigé vers l’onglet Documents où les nouveaux documents apparaîtront.

Référence des statuts d’exploration

Statut	Signification
Pending	L’exploration est en file d’attente
In Progress	Visite active des pages
Completed	Toutes les pages accessibles ont été explorées
Partial Success	Certaines pages explorées, d’autres ont échoué
Failed	L’exploration n’a pas pu se terminer
Cancelled	Arrêtée par vous

Persistance de session

Votre session d’exploration survit à la navigation et au rafraîchissement de page :

Les explorations actives se restaurent automatiquement quand vous revenez à l’onglet Website
Les explorations terminées sont disponibles pour révision pendant 1 heure

Conseils

Révisez et modifiez le contenu exploré avant le traitement pour améliorer la qualité
Utilisez “Single page only” pour les pages individuelles que vous souhaitez ajouter rapidement
Gardez “Respect robots.txt” activé pour respecter les préférences du propriétaire du site
Les documents explorés apparaissent dans l’onglet Documents sous forme de fichiers Markdown (.md)

Questions fréquentes

Q : Combien de pages puis-je explorer ? R : Le nombre maximum de pages dépend de votre plan. L’explorateur suit les liens depuis votre URL de départ jusqu’à la limite de profondeur configurée.

Q : Puis-je explorer des pages derrière une connexion ? R : Non. L’explorateur ne peut accéder qu’aux pages publiquement disponibles. Les pages derrière une authentification seront ignorées.

Q : Quel format ont les pages explorées ? R : Le contenu est extrait sous forme de documents Markdown (.md) et traité via le pipeline standard (découpage, embedding et indexation de recherche).

Q : Pourquoi certaines pages ont-elles échoué ? R : Les pages peuvent échouer en raison de la protection anti-bot (pare-feu comme Cloudflare), d’erreurs serveur ou de contenu vide. L’exploration affichera le statut “Partial Success”.

Q : Puis-je ré-explorer le même site ? R : Oui. Lancez une nouvelle exploration avec la même URL. Les pages précédemment explorées sont remplacées quand une nouvelle exploration commence.

Q : Où apparaissent les pages traitées ? R : Dans l’onglet Documents de la page Content. Elles apparaissent sous forme de fichiers Markdown (.md).

Dépannage

Les pages retournent des erreurs 403 ou 503

Le site bloque peut-être les explorateurs automatisés. Options :

Demandez au propriétaire du site d’autoriser CuneiformBot/1.0
Essayez d’explorer une page spécifique avec “Single page only” activé

Contenu vide ou illisible

Certains sites utilisent un rendu JavaScript intensif. L’explorateur prend en charge la plupart des frameworks modernes, mais :

Les applications mono-page nécessitant une authentification ne fonctionneront pas
Le contenu chargé par défilement infini peut être partiellement capturé

L’exploration semble lente

Chaque page prend quelques secondes à explorer (inclut le rendu et la limitation de débit)
Les sites plus grands avec de nombreuses pages prendront plusieurs minutes
Vous pouvez annuler et réessayer si une exploration semble bloquée