Сканирование веб-сайтов
Сканируйте публичные веб-сайты и добавляйте их содержимое в ваш Контент. Краулер посещает страницы, извлекает контент в формате Markdown и позволяет просмотреть и отредактировать его перед обработкой.
Как перейти
Откройте Content на боковой панели, затем нажмите на вкладку Website.
Как сканировать веб-сайт
Шаг 1: Введите URL
Вставьте URL веб-сайта в поле ввода (например, https://docs.example.com). Краулер начнёт с этой страницы и будет переходить по ссылкам для обнаружения новых страниц.
Шаг 2: Настройте параметры
| Параметр | По умолчанию | Описание |
|---|---|---|
| Target Folder | Без папки (корень) | Выберите целевую папку для просканированных документов |
| Single page only | Выкл | Сканировать только введённый URL, не переходя по ссылкам |
| Respect robots.txt | Вкл | Соблюдать правила сканирования robots.txt сайта |
Шаг 3: Запустите сканирование
Нажмите Crawl для начала. Краулер посещает страницы, начиная с вашего URL, и извлекает их содержимое.
Шаг 4: Отслеживайте прогресс
- Индикатор прогресса показывает количество просканированных страниц относительно максимума вашего тарифа
- Страницы появляются в динамическом списке по мере обнаружения
- Нажмите на любую страницу для мгновенного предварительного просмотра
- Используйте кнопку Cancel для остановки сканирования в любой момент
Одновременно может выполняться только одно сканирование на организацию. Дождитесь завершения текущего сканирования или отмените его перед запуском нового.
Просмотр просканированных страниц
После завершения сканирования вы можете просмотреть и отредактировать страницы перед добавлением в ваш Контент.
Редактирование содержимого страницы
- Нажмите на любую страницу в списке, чтобы открыть редактор
- Отредактируйте заголовок и содержимое в формате Markdown
- Удалите нерелевантные разделы (навигационные меню, подвалы, боковые панели)
- Нажмите Save для сохранения
Редактировать можно только страницы со статусом “Pending”. После начала обработки страницы нельзя изменить.
Выбор и обработка страниц
- Используйте флажки для выбора страниц, которые хотите сохранить
- Используйте Select All для выбора всех ожидающих страниц
- При необходимости выберите целевую папку
- Нажмите Process Selected
После начала обработки вы автоматически переключитесь на вкладку Documents, где появятся новые документы.
Справочник статусов сканирования
| Статус | Значение |
|---|---|
| Pending | Сканирование поставлено в очередь |
| In Progress | Активное посещение страниц |
| Completed | Все доступные страницы просканированы |
| Partial Success | Часть страниц просканирована, часть — с ошибками |
| Failed | Сканирование не удалось завершить |
| Cancelled | Остановлено вами |
Сохранение сессии
Ваша сессия сканирования сохраняется при навигации и обновлении страницы:
- Активные сканирования автоматически восстанавливаются при возвращении на вкладку Website
- Завершённые сканирования доступны для просмотра в течение 1 часа
Советы
- Просматривайте и редактируйте просканированный контент перед обработкой для повышения качества
- Используйте “Single page only” для быстрого добавления отдельных страниц
- Оставляйте “Respect robots.txt” включённым для соблюдения предпочтений владельца сайта
- Просканированные документы отображаются на вкладке Documents в формате Markdown (.md)
Частые вопросы
В: Сколько страниц можно просканировать? О: Максимальное количество страниц зависит от вашего тарифа. Краулер переходит по ссылкам от вашего начального URL до настроенного предела глубины.
В: Можно ли сканировать страницы за авторизацией? О: Нет. Краулер может получить доступ только к общедоступным страницам. Страницы за авторизацией будут пропущены.
В: В каком формате сохраняются просканированные страницы? О: Содержимое извлекается в виде документов Markdown (.md) и проходит стандартную обработку (разбиение на чанки, создание эмбеддингов и индексирование для поиска).
В: Почему некоторые страницы не были просканированы? О: Страницы могут не обработаться из-за защиты от ботов (файрволы вроде Cloudflare), ошибок сервера или пустого содержимого. Сканирование покажет статус “Partial Success”.
В: Можно ли повторно сканировать тот же сайт? О: Да. Запустите новое сканирование с тем же URL. Предыдущие просканированные страницы будут заменены при начале нового сканирования.
В: Где появляются обработанные страницы? О: На вкладке Documents страницы Контента. Они отображаются как файлы Markdown (.md).
Устранение неполадок
Страницы возвращают ошибки 403 или 503
Сайт может блокировать автоматических краулеров. Варианты решения:
- Попросите владельца сайта добавить
CuneiformBot/1.0в белый список - Попробуйте сканировать конкретную страницу с включённой опцией “Single page only”
Пустое или искажённое содержимое
Некоторые сайты активно используют рендеринг JavaScript. Краулер поддерживает большинство современных фреймворков, но:
- Одностраничные приложения, требующие авторизации, не будут работать
- Контент, загружаемый через бесконечную прокрутку, может быть захвачен частично
Сканирование выполняется медленно
- Каждая страница сканируется несколько секунд (включая рендеринг и ограничение частоты запросов)
- Сканирование крупных сайтов с большим количеством страниц займёт несколько минут
- Вы можете отменить и повторить сканирование, если оно зависло