Skip to Content
КонтентWebsite Crawling

Сканирование веб-сайтов

Сканируйте публичные веб-сайты и добавляйте их содержимое в ваш Контент. Краулер посещает страницы, извлекает контент в формате Markdown и позволяет просмотреть и отредактировать его перед обработкой.

Как перейти

Откройте Content на боковой панели, затем нажмите на вкладку Website.

Как сканировать веб-сайт

Шаг 1: Введите URL

Вставьте URL веб-сайта в поле ввода (например, https://docs.example.com). Краулер начнёт с этой страницы и будет переходить по ссылкам для обнаружения новых страниц.

Шаг 2: Настройте параметры

ПараметрПо умолчаниюОписание
Target FolderБез папки (корень)Выберите целевую папку для просканированных документов
Single page onlyВыклСканировать только введённый URL, не переходя по ссылкам
Respect robots.txtВклСоблюдать правила сканирования robots.txt сайта

Шаг 3: Запустите сканирование

Нажмите Crawl для начала. Краулер посещает страницы, начиная с вашего URL, и извлекает их содержимое.

Шаг 4: Отслеживайте прогресс

  • Индикатор прогресса показывает количество просканированных страниц относительно максимума вашего тарифа
  • Страницы появляются в динамическом списке по мере обнаружения
  • Нажмите на любую страницу для мгновенного предварительного просмотра
  • Используйте кнопку Cancel для остановки сканирования в любой момент

Одновременно может выполняться только одно сканирование на организацию. Дождитесь завершения текущего сканирования или отмените его перед запуском нового.

Просмотр просканированных страниц

После завершения сканирования вы можете просмотреть и отредактировать страницы перед добавлением в ваш Контент.

Редактирование содержимого страницы

  1. Нажмите на любую страницу в списке, чтобы открыть редактор
  2. Отредактируйте заголовок и содержимое в формате Markdown
  3. Удалите нерелевантные разделы (навигационные меню, подвалы, боковые панели)
  4. Нажмите Save для сохранения

Редактировать можно только страницы со статусом “Pending”. После начала обработки страницы нельзя изменить.

Выбор и обработка страниц

  1. Используйте флажки для выбора страниц, которые хотите сохранить
  2. Используйте Select All для выбора всех ожидающих страниц
  3. При необходимости выберите целевую папку
  4. Нажмите Process Selected

После начала обработки вы автоматически переключитесь на вкладку Documents, где появятся новые документы.

Справочник статусов сканирования

СтатусЗначение
PendingСканирование поставлено в очередь
In ProgressАктивное посещение страниц
CompletedВсе доступные страницы просканированы
Partial SuccessЧасть страниц просканирована, часть — с ошибками
FailedСканирование не удалось завершить
CancelledОстановлено вами

Сохранение сессии

Ваша сессия сканирования сохраняется при навигации и обновлении страницы:

  • Активные сканирования автоматически восстанавливаются при возвращении на вкладку Website
  • Завершённые сканирования доступны для просмотра в течение 1 часа

Советы

  • Просматривайте и редактируйте просканированный контент перед обработкой для повышения качества
  • Используйте “Single page only” для быстрого добавления отдельных страниц
  • Оставляйте “Respect robots.txt” включённым для соблюдения предпочтений владельца сайта
  • Просканированные документы отображаются на вкладке Documents в формате Markdown (.md)

Частые вопросы

В: Сколько страниц можно просканировать? О: Максимальное количество страниц зависит от вашего тарифа. Краулер переходит по ссылкам от вашего начального URL до настроенного предела глубины.

В: Можно ли сканировать страницы за авторизацией? О: Нет. Краулер может получить доступ только к общедоступным страницам. Страницы за авторизацией будут пропущены.

В: В каком формате сохраняются просканированные страницы? О: Содержимое извлекается в виде документов Markdown (.md) и проходит стандартную обработку (разбиение на чанки, создание эмбеддингов и индексирование для поиска).

В: Почему некоторые страницы не были просканированы? О: Страницы могут не обработаться из-за защиты от ботов (файрволы вроде Cloudflare), ошибок сервера или пустого содержимого. Сканирование покажет статус “Partial Success”.

В: Можно ли повторно сканировать тот же сайт? О: Да. Запустите новое сканирование с тем же URL. Предыдущие просканированные страницы будут заменены при начале нового сканирования.

В: Где появляются обработанные страницы? О: На вкладке Documents страницы Контента. Они отображаются как файлы Markdown (.md).

Устранение неполадок

Страницы возвращают ошибки 403 или 503

Сайт может блокировать автоматических краулеров. Варианты решения:

  • Попросите владельца сайта добавить CuneiformBot/1.0 в белый список
  • Попробуйте сканировать конкретную страницу с включённой опцией “Single page only”

Пустое или искажённое содержимое

Некоторые сайты активно используют рендеринг JavaScript. Краулер поддерживает большинство современных фреймворков, но:

  • Одностраничные приложения, требующие авторизации, не будут работать
  • Контент, загружаемый через бесконечную прокрутку, может быть захвачен частично

Сканирование выполняется медленно

  • Каждая страница сканируется несколько секунд (включая рендеринг и ограничение частоты запросов)
  • Сканирование крупных сайтов с большим количеством страниц займёт несколько минут
  • Вы можете отменить и повторить сканирование, если оно зависло
Last updated on