Rastreamento de Sites

Faça crawl de websites públicos e adicione o conteúdo ao seu Content. O crawler visita páginas, extrai conteúdo como Markdown e permite que você revise e edite antes de processar.

Como Chegar

Navegue até Content na barra lateral, depois clique na aba Website.

Como Fazer Crawl de um Website

Passo 1: Digite a URL

Cole a URL do website no campo de entrada (ex.: https://docs.example.com). O crawler começará a partir desta página e seguirá links para descobrir mais páginas.

Passo 2: Configure as Opções

Opção	Padrão	Descrição
Target Folder	Sem pasta (raiz)	Selecione uma pasta de destino para documentos coletados
Single page only	Desligado	Faça crawl apenas da URL digitada, não siga links
Respect robots.txt	Ligado	Respeite as regras de crawling do robots.txt do site

Passo 3: Iniciar o Crawl

Clique em Crawl para começar. O crawler visita páginas a partir da sua URL e extrai o conteúdo.

Passo 4: Acompanhar o Progresso

Uma barra de progresso mostra páginas coletadas vs. o máximo do seu plano
Páginas aparecem em uma lista ao vivo conforme são descobertas
Clique em qualquer página para pré-visualizar seu conteúdo imediatamente
Use o botão Cancel para parar o crawl a qualquer momento

Apenas um crawl pode ser executado por vez por organization. Aguarde o crawl atual ser concluído ou cancele-o antes de iniciar outro.

Revisando Páginas Coletadas

Após o crawl ser concluído, você pode revisar e editar as páginas antes de adicioná-las ao seu Content.

Editar Conteúdo da Página

Clique em qualquer página na lista para abrir o editor
Edite o título e o conteúdo markdown
Remova seções irrelevantes (menus de navegação, rodapés, barras laterais)
Clique em Save para atualizar

Apenas páginas com status “Pending” podem ser editadas. Uma vez que o processamento começa, as páginas não podem ser alteradas.

Selecionar e Processar Páginas

Use checkboxes para selecionar páginas que deseja manter
Use Select All para selecionar todas as páginas pendentes de uma vez
Opcionalmente escolha uma pasta de destino
Clique em Process Selected

Após o processamento iniciar, você é automaticamente direcionado para a aba Documents onde os novos documentos aparecerão.

Referência de Status de Crawl

Status	Significado
Pending	Crawl está na fila para iniciar
In Progress	Visitando páginas ativamente
Completed	Todas as páginas alcançáveis foram coletadas
Partial Success	Algumas páginas foram coletadas, outras falharam
Failed	Crawl não pôde ser concluído
Cancelled	Parado por você

Persistência de Sessão

Sua sessão de crawl sobrevive à navegação e atualização da página:

Crawls ativos são restaurados automaticamente quando você retorna à aba Website
Crawls concluídos ficam disponíveis para revisão por até 1 hora

Dicas

Revise e edite conteúdo coletado antes de processar para melhorar a qualidade
Use “Single page only” para páginas individuais que deseja adicionar rapidamente
Mantenha “Respect robots.txt” ativado para respeitar as preferências do proprietário do site
Documentos coletados aparecem na aba Documents como arquivos Markdown (.md)

Perguntas Comuns

P: Quantas páginas posso coletar? R: O número máximo de páginas depende do seu plano. O crawler segue links a partir da sua URL inicial até o limite de profundidade configurado.

P: Posso fazer crawl de páginas atrás de um login? R: Não. O crawler só pode acessar páginas publicamente disponíveis. Páginas atrás de autenticação serão ignoradas.

P: Qual formato das páginas coletadas? R: O conteúdo é extraído como documentos Markdown (.md) e processado pelo pipeline padrão (chunking, embedding e indexação de pesquisa).

P: Por que algumas páginas falharam? R: Páginas podem falhar devido a proteção contra bots (firewalls como Cloudflare), erros do servidor ou conteúdo vazio. O crawl mostrará status “Partial Success”.

P: Posso refazer o crawl do mesmo site? R: Sim. Inicie um novo crawl com a mesma URL. Páginas coletadas anteriormente são substituídas quando um novo crawl começa.

P: Onde aparecem as páginas processadas? R: Na aba Documents da página Content. Elas aparecem como arquivos Markdown (.md).

Solução de Problemas

Páginas Retornam Erros 403 ou 503

O site pode estar bloqueando crawlers automatizados. Opções:

Peça ao proprietário do site para adicionar CuneiformBot/1.0 à lista de permissões
Tente coletar uma página específica com “Single page only” ativado

Conteúdo Vazio ou Ilegível

Alguns sites usam renderização pesada com JavaScript. O crawler suporta a maioria dos frameworks modernos, mas:

Single-page apps que requerem autenticação não funcionarão
Conteúdo carregado via scroll infinito pode ser parcialmente capturado

Crawl Parece Lento

Cada página leva alguns segundos para ser coletada (inclui renderização e rate limiting)
Sites maiores com muitas páginas levarão vários minutos
Você pode cancelar e retentar se um crawl parecer travado