Настройка robots.txt для AI-ботов: управляем GPTBot, ClaudeBot и другими AI краулерами

SEO

Head of SEO, Виктория Маргаева

28.12.2025

С момента появления первых поисковых роботов в 1993 году веб-краулинг претерпел огромные изменения. Но 2024-2025 годы стали переломными: к традиционным поисковым ботам добавилась новая категория — AI-краулеры, собирающие данные для обучения больших языковых моделей (LLM).

По данным Cloudflare, с мая 2024 по май 2025 года трафик краулеров вырос на 18%, при этом активность GPTBot увеличилась на 305%, а Googlebot — на 96%.

Для владельцев сайтов это создаёт дилемму: разрешить доступ AI-ботам и получить видимость в новых AI-поисковиках (ChatGPT, Claude, Perplexity) или заблокировать их, защитив контент от несанкционированного использования в обучении моделей. В этой статье мы детально разберём все аспекты управления AI user-agent в robots.txt.

Что такое AI user-agent и зачем он нужен?

User-agent — это строка идентификации в заголовке HTTP-запроса, которая сообщает серверу, какое программное обеспечение обращается к вашему сайту. Когда браузер или бот отправляет запрос на ваш сервер, он представляется через эту строку, указывая своё имя, версию и назначение. Например, обычный браузер Chrome может представиться как "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0.0.0", а AI-бот OpenAI использует строку "GPTBot/1.3".

AI-боты используют специфические, легко распознаваемые user-agent строки, что позволяет владельцам сайтов контролировать их доступ через файл robots.txt. В отличие от обычных пользователей, которые просматривают отдельные страницы, AI-краулеры систематически сканируют весь ваш контент с конкретными целями.

Какую информацию собирают AI-боты?

Цели сбора данных зависят от типа бота и компании, которая его запускает:

1. Текстовый контент для обучения языковых моделей

Боты типа GPTBot, ClaudeBot и CCBot собирают:

Текст статей и публикаций — для понимания структуры языка, стиля письма, терминологии
Обсуждения и комментарии — для изучения разговорных паттернов и контекста общения
Техническую документацию — для обучения моделей решению технических задач
Вопросы и ответы — для улучшения способности отвечать на запросы пользователей
Код и примеры — для обучения программированию и техническим навыкам

Эти данные используются для тренировки больших языковых моделей (LLM), которые затем генерируют текст, отвечают на вопросы и выполняют другие задачи обработки естественного языка.

2. Структурированная информация для поисковой индексации

Боты типа OAI-SearchBot, PerplexityBot и Claude-SearchBot индексируют:

Заголовки и метаданные — для понимания темы и релевантности страницы
Ключевые факты и цифры — для предоставления точных ответов на запросы
Даты публикации — для определения актуальности информации
Авторство и источники — для цитирования и указания первоисточников
Связи между страницами — для понимания структуры сайта и контекста

В отличие от ботов для обучения, эти краулеры создают индекс для мгновенного поиска и предоставления информации пользователям AI-ассистентов с указанием ссылок на оригинальные источники.

3. Специализированные данные

Некоторые боты собирают специфическую информацию:

Meta-ExternalAgent — фокусируется на визуальном контенте и мультимодальных данных для обучения моделей типа Llama
Google-Extended — собирает данные для улучшения продуктов Google AI, включая Gemini и Bard
Amazonbot — индексирует информацию о товарах, отзывы и коммерческий контент для улучшения поисковых и рекомендательных систем Amazon
Bytespider — собирает данные для AI-продуктов ByteDance/TikTok, включая систему рекомендаций

4. Что НЕ должны собирать AI-боты

Согласно официальной документации OpenAI и других крупных компаний, их боты не собирают:

Персональные данные пользователей (имена, адреса, номера телефонов)
Контент за формами авторизации и paywall
Информацию из личных кабинетов
Платёжные данные и финансовую информацию
Контент, явно запрещённый в robots.txt

Зачем контролировать доступ AI-ботов?

Понимание того, какие данные собирают AI-боты, важно для принятия решения о предоставлении доступа:

Защита интеллектуальной собственности — ваш уникальный контент может быть использован для тренировки конкурирующих AI-моделей без вашего ведома
Контроль монетизации — если AI-модель выдаёт ваш контент пользователям напрямую, они могут не переходить на ваш сайт, лишая вас трафика и дохода
Управление нагрузкой — активные краулеры могут создавать сотни запросов в час, увеличивая расходы на хостинг
Стратегическое позиционирование — разрешая доступ поисковым ботам и блокируя обучающих, вы получаете видимость в AI-поиске, но защищаете контент от использования в тренировке

По данным исследования Cloudflare 2025, средний AI-бот делает от 100 до 2400 запросов в час к одному сайту, что в 3-5 раз больше, чем традиционные поисковые роботы. Это делает контроль доступа не просто вопросом защиты контента, но и технической необходимостью для многих сайтов.

Основные категории AI-ботов

AI-краулеры можно разделить на три основные категории по их назначению:

1. Боты для обучения моделей (Model Training)

Эти краулеры собирают данные для тренировки LLM:

GPTBot (OpenAI) — собирает данные для обучения GPT-4, GPT-5 и других моделей
ClaudeBot (Anthropic) — для обучения моделей Claude
Meta-ExternalAgent (Meta) — для LLama и других моделей Meta
CCBot (Common Crawl) — открытый архив, используемый множеством AI-компаний

2. Боты для поисковой индексации (Search Indexing)

Индексируют контент для AI-поисковиков:

OAI-SearchBot (OpenAI) — для поисковых функций ChatGPT
PerplexityBot (Perplexity) — для поискового движка Perplexity AI
Claude-SearchBot (Anthropic) — для поисковых возможностей Claude

3. Боты по запросу пользователя (User-Triggered)

Активируются только когда пользователь запрашивает информацию:

ChatGPT-User (OpenAI) — когда пользователь просит ChatGPT посетить конкретную страницу
Perplexity-User (Perplexity) — при клике на ссылку в результатах Perplexity
Claude-User (Anthropic) — для веб-браузинга в реальном времени в Claude

Полный список актуальных AI user-agent (декабрь 2025)

По данным официальной документации OpenAI и независимых исследований, вот полный список верифицированных AI-краулеров:

OpenAI

User-agent: GPTBot
 User-agent: OAI-SearchBot 
 User-agent: ChatGPT-User

Anthropic (Claude)

User-agent: ClaudeBot
 User-agent: Claude-SearchBot
 User-agent: Claude-User
 User-agent: anthropic-ai
 User-agent: claude-web

Google (Gemini)

User-agent: Google-Extended
 User-agent: Google-CloudVertexBot
 User-agent: Gemini-Deep-Research

Важно: Google-Extended — это не отдельный краулер, а токен в robots.txt для контроля использования данных Googlebot в AI-обучении. Подробнее в документации Google.

Meta (Llama)

User-agent: meta-externalagent User-agent: Meta-WebIndexer

Другие крупные компании

User-agent: PerplexityBot User-agent: Perplexity-User
 User-agent: Bytespider (ByteDance/TikTok)
 User-agent: Amazonbot
 User-agent: Applebot-Extended
 User-agent: Bingbot (Microsoft)
 User-agent: DuckAssistBot
 User-agent: CCBot

Специализированные краулеры

User-agent: MistralAI-User User-agent: Diffbot
 User-agent: webzio
 User-agent: ICC-Crawler
 User-agent: cohere-ai
 User-agent: AI2Bot (Allen Institute)
 User-agent: YouBot (You.com)
 User-agent: Timpibot

Динамика рынка AI-краулеров: кто лидирует?

Согласно анализу Cloudflare, с мая 2024 по май 2025:

Бот	Доля мая 2024	Доля мая 2025	Изменение
GPTBot	5%	30%	+305%
ClaudeBot	27%	21%	-46%
Meta-ExternalAgent	-	19%	Новый
Amazonbot	21%	11%	-35%
Bytespider	42%	7%	-85%

Ключевые выводы:

OpenAI (GPTBot) агрессивно наращивает краулинг
Meta стремительно вошла в топ-3
Bytespider резко сократил активность

Когда нужно РАЗРЕШАТЬ AI-ботов

1. Контент-проекты и медиа

Блоги и новостные сайты
Образовательные ресурсы
Справочные порталы

Почему: AI-поисковики становятся основным источником трафика для информационных ресурсов. Блокировка AI-ботов означает потерю значительной аудитории.

2. E-commerce и локальный бизнес

Интернет-магазины
Рестораны и сервисные компании
B2C бизнес

Почему: AI-поиск часто показывает ваш сайт как прямую рекомендацию с цитированием и ссылкой на источник. Это бесплатный целевой трафик.

3. SaaS и технологические компании

Документация продуктов
API-справочники
Технические блоги

Почему: Разработчики активно используют ChatGPT/Claude для поиска решений. Ваша документация в AI — это конкурентное преимущество.

Когда нужно БЛОКИРОВАТЬ AI-ботов

1. Эксклюзивный платный контент

Подписочные сервисы
Онлайн-курсы за paywall
Премиум-исследования

Почему: AI может выдавать ваш платный контент бесплатно, разрушая бизнес-модель.

2. Авторские материалы под защитой

Художественные произведения
Исследовательские работы
Уникальные методологии

Почему: Ваш контент может использоваться для обучения конкурирующих моделей без компенсации.

3. Высоконагруженные сайты с ограниченными ресурсами

Реальный случай: В апреле-сентябре 2024 года ClaudeBot вызвал массовые жалобы на перегрузку серверов. По данным мониторинга, некоторые сайты получали сотни запросов за короткий промежуток времени от одного бота.

4. Внутренние корпоративные данные

Интранет-порталы
Конфиденциальные документы
Внутренние базы знаний

Как правильно настроить robots.txt для AI-ботов

Сценарий 1: Полное разрешение (рекомендуется для контент-сайтов)

Сценарий 2: Селективное разрешение (баланс)

Логика: Вы появляетесь в AI-поиске и получаете трафик, но ваш контент не используется для тренировки моделей.

Сценарий 3: Частичный доступ (для e-commerce)

Сценарий 4: Полная блокировка (для защищённого контента)

Важный нюанс: robots.txt — НЕ гарантия защиты

Файл robots.txt — это рекомендация, а не закон. Боты могут игнорировать его. Согласно документации Anthropic, ClaudeBot уважает директивы robots.txt, однако в 2024 году были зафиксированы случаи агрессивного сканирования.

Решение: дополнительная защита

1. Верификация IP-адресов. Проверяйте, что запрос действительно от легитимного бота. OpenAI публикует официальные IP-адреса:

GPTBot: https://openai.com/gptbot.json
OAI-SearchBot: https://openai.com/searchbot.json
ChatGPT-User: https://openai.com/chatgpt-user.json

2. Web Application Firewall (WAF). Используйте WAF для принудительного контроля. Cloudflare WAF позволяет заблокировать AI-ботов с автоматической верификацией IP:

3. Мониторинг серверных логов. Регулярно анализируйте логи или используйте сервисы, например Screaming Frog Log Analyzer

Влияние на SEO и видимость в AI-поиске

По данным Cloudflare Radar:

Только 14% сайтов из топ-10,000 имеют специальные правила для AI-ботов в robots.txt
GPTBot заблокирован на 312 доменах (250 полностью, 62 частично)
GPTBot также чаще всего разрешён явно — 61 домен
AI-боты составляли в среднем 4.2% HTML-запросов в 2025
Около 30% глобального веб-трафика приходится на ботов

Последствия блокировки

Негативные:

Потеря видимости в ChatGPT Search, Perplexity, Claude
Снижение реферального трафика от AI-ассистентов
Упущенная возможность цитирования с активной ссылкой

Позитивные:

Контроль над использованием контента
Снижение нагрузки на сервер (GPTBot может делать множество запросов в час)
Защита интеллектуальной собственности.

Управление AI user-agent в robots.txt — это не просто техническая настройка, а стратегическое решение, влияющее на видимость вашего бизнеса в новой эре AI-поиска.

Содержание статьи

Получите консультацию по SEO-продвижению

Рейтинг:

Ещё никто не проголосовал :(((

0,0 / 5 (0 оценок)

(0) - 0%

Нам важно мнение каждого читателя о наших статьях и мы хотим получать обратную связь! Какие эмоции у вас вызвала эта статья?
Пожалуйста, заполните данные: