Содержание статьи
Настройка robots.txt для AI-ботов: управляем GPTBot, ClaudeBot и другими AI краулерами
С момента появления первых поисковых роботов в 1993 году веб-краулинг претерпел огромные изменения. Но 2024-2025 годы стали переломными: к традиционным поисковым ботам добавилась новая категория — AI-краулеры, собирающие данные для обучения больших языковых моделей (LLM).
По данным Cloudflare, с мая 2024 по май 2025 года трафик краулеров вырос на 18%, при этом активность GPTBot увеличилась на 305%, а Googlebot — на 96%.
Для владельцев сайтов это создаёт дилемму: разрешить доступ AI-ботам и получить видимость в новых AI-поисковиках (ChatGPT, Claude, Perplexity) или заблокировать их, защитив контент от несанкционированного использования в обучении моделей. В этой статье мы детально разберём все аспекты управления AI user-agent в robots.txt.
Что такое AI user-agent и зачем он нужен?
User-agent — это строка идентификации в заголовке HTTP-запроса, которая сообщает серверу, какое программное обеспечение обращается к вашему сайту. Когда браузер или бот отправляет запрос на ваш сервер, он представляется через эту строку, указывая своё имя, версию и назначение. Например, обычный браузер Chrome может представиться как "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0.0.0", а AI-бот OpenAI использует строку "GPTBot/1.3".
AI-боты используют специфические, легко распознаваемые user-agent строки, что позволяет владельцам сайтов контролировать их доступ через файл robots.txt. В отличие от обычных пользователей, которые просматривают отдельные страницы, AI-краулеры систематически сканируют весь ваш контент с конкретными целями.
Какую информацию собирают AI-боты?
Цели сбора данных зависят от типа бота и компании, которая его запускает:
1. Текстовый контент для обучения языковых моделей
Боты типа GPTBot, ClaudeBot и CCBot собирают:
- Текст статей и публикаций — для понимания структуры языка, стиля письма, терминологии
- Обсуждения и комментарии — для изучения разговорных паттернов и контекста общения
- Техническую документацию — для обучения моделей решению технических задач
- Вопросы и ответы — для улучшения способности отвечать на запросы пользователей
- Код и примеры — для обучения программированию и техническим навыкам
Эти данные используются для тренировки больших языковых моделей (LLM), которые затем генерируют текст, отвечают на вопросы и выполняют другие задачи обработки естественного языка.
2. Структурированная информация для поисковой индексации
Боты типа OAI-SearchBot, PerplexityBot и Claude-SearchBot индексируют:
- Заголовки и метаданные — для понимания темы и релевантности страницы
- Ключевые факты и цифры — для предоставления точных ответов на запросы
- Даты публикации — для определения актуальности информации
- Авторство и источники — для цитирования и указания первоисточников
- Связи между страницами — для понимания структуры сайта и контекста
В отличие от ботов для обучения, эти краулеры создают индекс для мгновенного поиска и предоставления информации пользователям AI-ассистентов с указанием ссылок на оригинальные источники.
3. Специализированные данные
Некоторые боты собирают специфическую информацию:
- Meta-ExternalAgent — фокусируется на визуальном контенте и мультимодальных данных для обучения моделей типа Llama
- Google-Extended — собирает данные для улучшения продуктов Google AI, включая Gemini и Bard
- Amazonbot — индексирует информацию о товарах, отзывы и коммерческий контент для улучшения поисковых и рекомендательных систем Amazon
- Bytespider — собирает данные для AI-продуктов ByteDance/TikTok, включая систему рекомендаций
4. Что НЕ должны собирать AI-боты
Согласно официальной документации OpenAI и других крупных компаний, их боты не собирают:
- Персональные данные пользователей (имена, адреса, номера телефонов)
- Контент за формами авторизации и paywall
- Информацию из личных кабинетов
- Платёжные данные и финансовую информацию
- Контент, явно запрещённый в robots.txt
Зачем контролировать доступ AI-ботов?
Понимание того, какие данные собирают AI-боты, важно для принятия решения о предоставлении доступа:
- Защита интеллектуальной собственности — ваш уникальный контент может быть использован для тренировки конкурирующих AI-моделей без вашего ведома
- Контроль монетизации — если AI-модель выдаёт ваш контент пользователям напрямую, они могут не переходить на ваш сайт, лишая вас трафика и дохода
- Управление нагрузкой — активные краулеры могут создавать сотни запросов в час, увеличивая расходы на хостинг
- Стратегическое позиционирование — разрешая доступ поисковым ботам и блокируя обучающих, вы получаете видимость в AI-поиске, но защищаете контент от использования в тренировке
По данным исследования Cloudflare 2025, средний AI-бот делает от 100 до 2400 запросов в час к одному сайту, что в 3-5 раз больше, чем традиционные поисковые роботы. Это делает контроль доступа не просто вопросом защиты контента, но и технической необходимостью для многих сайтов.
Основные категории AI-ботов
AI-краулеры можно разделить на три основные категории по их назначению:
1. Боты для обучения моделей (Model Training)
Эти краулеры собирают данные для тренировки LLM:
- GPTBot (OpenAI) — собирает данные для обучения GPT-4, GPT-5 и других моделей
- ClaudeBot (Anthropic) — для обучения моделей Claude
- Meta-ExternalAgent (Meta) — для LLama и других моделей Meta
- CCBot (Common Crawl) — открытый архив, используемый множеством AI-компаний
2. Боты для поисковой индексации (Search Indexing)
Индексируют контент для AI-поисковиков:
- OAI-SearchBot (OpenAI) — для поисковых функций ChatGPT
- PerplexityBot (Perplexity) — для поискового движка Perplexity AI
- Claude-SearchBot (Anthropic) — для поисковых возможностей Claude
3. Боты по запросу пользователя (User-Triggered)
Активируются только когда пользователь запрашивает информацию:
- ChatGPT-User (OpenAI) — когда пользователь просит ChatGPT посетить конкретную страницу
- Perplexity-User (Perplexity) — при клике на ссылку в результатах Perplexity
- Claude-User (Anthropic) — для веб-браузинга в реальном времени в Claude
Полный список актуальных AI user-agent (декабрь 2025)
По данным официальной документации OpenAI и независимых исследований, вот полный список верифицированных AI-краулеров:
OpenAI
User-agent: GPTBot
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
Anthropic (Claude)
User-agent: ClaudeBot
User-agent: Claude-SearchBot
User-agent: Claude-User
User-agent: anthropic-ai
User-agent: claude-web
Google (Gemini)
User-agent: Google-Extended
User-agent: Google-CloudVertexBot
User-agent: Gemini-Deep-Research
Важно: Google-Extended — это не отдельный краулер, а токен в robots.txt для контроля использования данных Googlebot в AI-обучении. Подробнее в документации Google.
Meta (Llama)
User-agent: meta-externalagent User-agent: Meta-WebIndexer
Другие крупные компании
User-agent: PerplexityBot User-agent: Perplexity-User
User-agent: Bytespider (ByteDance/TikTok)
User-agent: Amazonbot
User-agent: Applebot-Extended
User-agent: Bingbot (Microsoft)
User-agent: DuckAssistBot
User-agent: CCBot
Специализированные краулеры
User-agent: MistralAI-User User-agent: Diffbot
User-agent: webzio
User-agent: ICC-Crawler
User-agent: cohere-ai
User-agent: AI2Bot (Allen Institute)
User-agent: YouBot (You.com)
User-agent: Timpibot
Динамика рынка AI-краулеров: кто лидирует?
Согласно анализу Cloudflare, с мая 2024 по май 2025:
| Бот | Доля мая 2024 | Доля мая 2025 | Изменение |
|---|---|---|---|
| GPTBot | 5% | 30% | +305% |
| ClaudeBot | 27% | 21% | -46% |
| Meta-ExternalAgent | - | 19% | Новый |
| Amazonbot | 21% | 11% | -35% |
| Bytespider | 42% | 7% | -85% |
Ключевые выводы:
- OpenAI (GPTBot) агрессивно наращивает краулинг
- Meta стремительно вошла в топ-3
- Bytespider резко сократил активность
Когда нужно РАЗРЕШАТЬ AI-ботов
1. Контент-проекты и медиа
- Блоги и новостные сайты
- Образовательные ресурсы
- Справочные порталы
Почему: AI-поисковики становятся основным источником трафика для информационных ресурсов. Блокировка AI-ботов означает потерю значительной аудитории.
2. E-commerce и локальный бизнес
- Интернет-магазины
- Рестораны и сервисные компании
- B2C бизнес
Почему: AI-поиск часто показывает ваш сайт как прямую рекомендацию с цитированием и ссылкой на источник. Это бесплатный целевой трафик.
3. SaaS и технологические компании
- Документация продуктов
- API-справочники
- Технические блоги
Почему: Разработчики активно используют ChatGPT/Claude для поиска решений. Ваша документация в AI — это конкурентное преимущество.
Когда нужно БЛОКИРОВАТЬ AI-ботов
1. Эксклюзивный платный контент
- Подписочные сервисы
- Онлайн-курсы за paywall
- Премиум-исследования
Почему: AI может выдавать ваш платный контент бесплатно, разрушая бизнес-модель.
2. Авторские материалы под защитой
- Художественные произведения
- Исследовательские работы
- Уникальные методологии
Почему: Ваш контент может использоваться для обучения конкурирующих моделей без компенсации.
3. Высоконагруженные сайты с ограниченными ресурсами
Реальный случай: В апреле-сентябре 2024 года ClaudeBot вызвал массовые жалобы на перегрузку серверов. По данным мониторинга, некоторые сайты получали сотни запросов за короткий промежуток времени от одного бота.
4. Внутренние корпоративные данные
- Интранет-порталы
- Конфиденциальные документы
- Внутренние базы знаний
Как правильно настроить robots.txt для AI-ботов
Сценарий 1: Полное разрешение (рекомендуется для контент-сайтов)

Сценарий 2: Селективное разрешение (баланс)
Логика: Вы появляетесь в AI-поиске и получаете трафик, но ваш контент не используется для тренировки моделей.
Сценарий 3: Частичный доступ (для e-commerce)

Сценарий 4: Полная блокировка (для защищённого контента)

Важный нюанс: robots.txt — НЕ гарантия защиты
Файл robots.txt — это рекомендация, а не закон. Боты могут игнорировать его. Согласно документации Anthropic, ClaudeBot уважает директивы robots.txt, однако в 2024 году были зафиксированы случаи агрессивного сканирования.
Решение: дополнительная защита
1. Верификация IP-адресов. Проверяйте, что запрос действительно от легитимного бота. OpenAI публикует официальные IP-адреса:
- GPTBot: https://openai.com/gptbot.json
- OAI-SearchBot: https://openai.com/searchbot.json
- ChatGPT-User: https://openai.com/chatgpt-user.json
2. Web Application Firewall (WAF). Используйте WAF для принудительного контроля. Cloudflare WAF позволяет заблокировать AI-ботов с автоматической верификацией IP:
3. Мониторинг серверных логов. Регулярно анализируйте логи или используйте сервисы, например Screaming Frog Log Analyzer
Влияние на SEO и видимость в AI-поиске
По данным Cloudflare Radar:
- Только 14% сайтов из топ-10,000 имеют специальные правила для AI-ботов в robots.txt
- GPTBot заблокирован на 312 доменах (250 полностью, 62 частично)
- GPTBot также чаще всего разрешён явно — 61 домен
- AI-боты составляли в среднем 4.2% HTML-запросов в 2025
- Около 30% глобального веб-трафика приходится на ботов
Последствия блокировки
Негативные:
- Потеря видимости в ChatGPT Search, Perplexity, Claude
- Снижение реферального трафика от AI-ассистентов
- Упущенная возможность цитирования с активной ссылкой
Позитивные:
- Контроль над использованием контента
- Снижение нагрузки на сервер (GPTBot может делать множество запросов в час)
- Защита интеллектуальной собственности.
Управление AI user-agent в robots.txt — это не просто техническая настройка, а стратегическое решение, влияющее на видимость вашего бизнеса в новой эре AI-поиска.
Подпишись на наш телеграм-канал!