Практическое руководство

Как не получить бан при веб-скрапинге

Почему скраперы получают бан и как этого избежать: выбор прокси, ротация IP, темп запросов, заголовки и отпечатки, работа с CAPTCHA.

Веб-скрапинг2026-06-0810 мин чтения
Как не получить бан при веб-скрапинге

Главное коротко

Баны прилетают за паттерны, а не за один запрос: один и тот же IP, темп и отпечаток, повторяющиеся раз за разом.

Подбирайте тип прокси под цель: датацентр — для лояльных сайтов, ротационные резидентские — для защищённых, мобильные — для самых строгих.

Задавайте темп и рандомизируйте запросы. Человек не отправляет 50 запросов в секунду с одного адреса.

IP помогает, только если остальной запрос выглядит человеческим: заголовки, User-Agent, TLS и отпечаток браузера должны совпадать.

01

Почему скраперы получают бан

Бан почти никогда не за один запрос. Сайт замечает поведение, которое не похоже на человеческое: сотни обращений с одного IP за минуту, запросы без cookies и referer, headless-браузер, который не грузит картинки, или TLS-рукопожатие, кричащее «это библиотека для автоматизации». Каждый сигнал по отдельности слабый, но вместе они складываются в уверенный вывод.

Полезно думать как защита. Анти-бот-системы оценивают каждого посетителя по репутации IP, частоте запросов и тому, насколько клиент похож на настоящий браузер. Перегнёте по любому из параметров — получите CAPTCHA, 403 или, что хуже, тихо испорченные данные. Задача не стать невидимым, а выглядеть обычным.

Ошибка начинается там, где эти два типа считают взаимозаменяемыми. Они решают похожие задачи, но по-разному.
02

Выберите правильный тип прокси

Датацентр-прокси быстрые и дешёвые, и их вполне хватает для сайтов, которые не сопротивляются: документация, открытые данные, небольшие каталоги. Они работают из известных хостинг-диапазонов, поэтому защищённые цели быстро их распознают и режут.

Резидентские и ISP-прокси используют реальные IP домашних пользователей и несут доверие обычного подключения. Резидентские пулы большие и географически естественные — это выбор по умолчанию для e-commerce, поисковой выдачи и соцсетей. Мобильные идут дальше: операторы держат много абонентов за одним адресом (CGNAT), поэтому бан такого IP задел бы живых людей, и защита осторожничает. Берите мобильные, только когда резидентских мало — они дороже.

03

Ротируйте IP, не ломая свои сессии

Для запросов без состояния — карточки товаров, листинги, поиск — меняйте IP на каждом запросе или каждые несколько, чтобы ни один адрес не накапливал подозрительную историю. Размер пула здесь важен: ротация по миллионам IP — это совсем не то же самое, что круг из пары сотен.

Для всего, где есть логин или корзина, делайте наоборот: держите sticky-сессию, чтобы весь поток шёл с одного IP. Смена IP посреди сессии сама по себе красный флаг — реальные пользователи не телепортируются между городами между двумя кликами. Подбирайте стратегию ротации под задачу, а не глобально.

04

Сделайте запрос похожим на настоящий браузер

Чистый IP за неряшливым запросом всё равно ловится. Отправляйте актуальный реалистичный User-Agent и заголовки, которые шлёт нормальный браузер (Accept, Accept-Language, Referer), и храните cookies в рамках одной сессии. Несовпадающие или отсутствующие заголовки — одна из самых дешёвых проверок для сайта.

Для целей на JavaScript помогают Playwright, Puppeteer или Selenium, но их настройки по умолчанию выдают бота. Headless-флаги, пустой список плагинов и узнаваемая TLS/JA3-подпись вас сдают. Используйте свежие анти-детект-инструменты и следите, чтобы отпечаток браузера и геолокация прокси рассказывали одну историю: немецкий IP с браузером en-US и America/New_York — очевидное противоречие.

05

Темп, повторы и работа с CAPTCHA

Ограничивайте параллелизм и добавляйте случайные паузы между запросами вместо стрельбы с фиксированным интервалом. Человеческий трафик неровный и рывками; идеально ровный тайминг — машинная подпись. Поймали 429 или 503 — отступайте по экспоненте, а не повторяйте сразу: шторм повторов превращает мягкий лимит в жёсткий бан.

Воспринимайте CAPTCHA как обратную связь, а не только как препятствие. Резкий рост обычно значит, что просел темп, IP или отпечаток. Сбавьте скорость, переключитесь на свежие резидентские IP и перепроверьте заголовки, прежде чем тянуться к солверу. И оставайтесь по правильную сторону: уважайте robots.txt где он применим, собирайте публичные данные, а не то, что за чужим логином, и держите объём запросов таким, чтобы не вредить сайту.

Частые вопросы

Нет. Лояльным сайтам хватает датацентр- или ISP-прокси. Резидентские и мобильные берегите для целей с реальной анти-бот-защитой, где важны доверие и большой пул.

Универсального числа нет — зависит от цели. Начните осторожно, рандомизируйте тайминг, следите за 429/CAPTCHA и поднимайте скорость, только пока ответы чистые.

Обычно дело в отпечатке. Доверенный IP вместе с headless-настройками, отсутствующими заголовками или гео, противоречащим локали браузера, всё равно выглядит автоматизацией.

Для страниц без состояния — да. Для логина и корзины держите sticky-сессию: смена IP посреди сессии сама по себе красный флаг.

Сбор публично доступных данных во многих юрисдикциях обычно допустим, но условия использования, авторское право и законы о приватности продолжают действовать. Избегайте данных за чужим логином и консультируйтесь с юристом по чувствительным случаям.