Blokace botů: Jaké boty mám blokovat na svém webu a proč?
Debata o webovém provozu se v posledních letech dramaticky změnila. Zatímco dříve se soustředila primárně na optimalizaci pro legitimní vyhledávače a ochranu před přímými kybernetickými útoky, dnes čelíme nové, masivní vlně nežádoucího robotického provozu (botů). Tento provoz se tváří jako legitimní, ale ve skutečnosti představuje skrytou zátěž, krade duševní vlastnictví a poskytuje konkurenční výhodu vašim rivalům.
Cílem tohoto článku je poskytnout komplexní pohled na to, jaké kategorie botů byste měli na svém webu aktivně blokovat a proč je pro zdraví vaší infrastruktury a ochranu vašeho obsahu klíčové přejít od pasivního k proaktivnímu řízení robotického provozu. Přestože se jedná o odborné téma, snažíme se jej vysvětlit tak, aby mu porozuměl jak začátečník, tak i zkušený profesionál.
1. Proč je proaktivní blokace botů nezbytná?
Mnoho začínajících správců se spoléhá na to, že pokud bot neprovádí zjevně škodlivou činnost (jako je brute-force útok), je jeho provoz neškodný. To je zásadní omyl. Nežádoucí boti generují skryté náklady a rizika, které se s rostoucí velikostí webu a cenou za hosting stávají neudržitelnými.
Proaktivní přístup k blokování botů má okamžitý a měřitelný dopad. I s použitím několika málo, ale vysoce účinných pravidel lze denně zablokovat stovky až tisíce útoků a nežádoucích požadavků, čímž se výrazně uleví serverové infrastruktuře.
1.1. Ekonomická a výkonnostní zátěž
Každý požadavek, který bot odešle na váš server, spotřebovává CPU, paměť a síťovou propustnost (bandwidth). V případě sdíleného hostingu to může vést k překročení limitů a zpomalení webu pro skutečné uživatele. Na dedikovaných serverech a VPS platíte za každý spotřebovaný zdroj.
Blokováním nežádoucích botů na úrovni WAF (Web Application Firewall) nebo CDN (Content Delivery Network), tedy ještě předtím, než se dostanou k vašemu webovému serveru (Nginx, Apache), ušetříte cenné zdroje a zlepšíte odezvu pro legitimní návštěvníky.
1.2. Krádež duševního vlastnictví a AI trénink
S nástupem velkých jazykových modelů (LLM) se objevila nová kategorie botů – AI crawlery. Tyto boty systematicky procházejí web a stahují text, obrázky a data, aby je použily k tréninku umělé inteligence. Pokud jste tak investovali čas a peníze do tvorby unikátního obsahu, nechcete, aby byl bez vašeho souhlasu a bez náhrady použit k tréninku modelů, které následně generují obsah, jenž s vaším obsahem soutěží. Blokování těchto botů je v současné době jedním z mála technických nástrojů, jak si chránit své autorské dílo.
Mezi nejnovější a nejagresivnější AI roboty, které mohou server zahltit, patří například Bytespider (provozovaný společností ByteDance, mateřskou společností TikToku), jak uvádí dokumentace na webu Dark Visitors.
1.3. Konkurenční špionáž (SEO Crawlers)
Další významnou skupinou jsou boti provozovaní velkými SEO a marketingovými nástroji (např. Ahrefs, Semrush, Majestic). Tyto nástroje analyzují strukturu vašeho webu, klíčová slova, zpětné odkazy a další SEO metriky, které následně prodávají vašim konkurentům.
Pokud sami tyto placené služby nevyužíváte, není žádný důvod, proč byste měli dobrovolně poskytovat data, která mohou být použita k tomu, aby vás vaši konkurenti předstihli ve výsledcích vyhledávání.
2. Kategorie botů, které byste měli zvážit blokovat
Ne všichni boti jsou špatní. Googlebot, SeznamBot nebo Bingbot jsou pro indexaci vašeho webu klíčoví. Následující tabulka shrnuje kategorie botů, které by měl každý správce zvážit pro aktivní blokaci, a to na základě jejich dopadu na váš web.
| Kategorie Bota | Příklady User-Agentů | Hlavní hrozba / Dopad | Doporučení pro blokaci |
|---|---|---|---|
| AI Crawlers | GPTBot, ClaudeBot, Google-Extended, Bytespider, Applebot-Extended | Krádež obsahu pro trénink LLM, vysoká zátěž serveru. | Blokovat (pokud nechcete, aby váš obsah trénoval AI). |
| SEO Crawlers | AhrefsBot, SemrushBot, DotBot (Moz), MJ12Bot (Majestic) | Konkurenční analýza, spotřeba zdrojů. | Blokovat (pokud danou službu sami nepoužíváte pro monitoring). |
| Bezpečnostní Skenery | CensysInspect, Expanse, internet-measurement | Prohledávání serveru a sítě pro zjištění zranitelností, sběr informací o infrastruktuře. | Blokovat (pokud nejde o váš vlastní audit). |
| Agresivní Scrapeři | Scrapy, python-requests, Go-http-client, Dalvik/2.1.0 | Masivní stahování dat, často s cílem zneužití (spam, phishing, kopírování). | Blokovat (indikuje nelegitimní aktivitu). |
| Neidentifikovaní/Staré UA | Prázdný User-Agent, Java, Mozlila (překlep) | Skryté útoky, zneužití zranitelností, neznámý účel. | Blokovat (legitimní boti se identifikují). |
3. Scraping, špatní boti a právní stránka věci
3.1. Proč robots.txt nestačí (a nikdy nestačil)
Soubor robots.txt je pouze doporučení pro slušné roboty. Zlí boti, scrapeři a hackeři jej ignorují. Navíc, i když bot pravidlo v robots.txt respektuje, stále musí soubor stáhnout a zpracovat, což je malá, ale zbytečná zátěž.
„Mnoho špatných botů je notoricky známých tím, že nerespektují robots.txt, a abyste měli jistotu, že váš web a obsah jsou chráněny, doporučuji jejich přístup kompletně zablokovat,“ uvádí Jimmy Julajak, autor článku Bots You Should Block To Protect Your Content And Bandwidth.
Je důležité si uvědomit, že i někteří velcí hráči považují robots.txt pouze za doporučení. Například společnost Meta (Facebook) uvádí, že jejich roboti (jako facebookexternalhit nebo meta-externalagent) mohou robots.txt ignorovat, pokud je to nutné pro správné fungování sdílení obsahu (viz Webmasters and Crawlers). Z tohoto důvodu mnoho správců (po domluvě s klienty) blokuje i tyto agenty na úrovni serveru, aby zabránili nechtěnému procházení.
3.2. Je web scraping legální?
Web scraping, neboli automatizované stahování dat z webových stránek, není v Evropské unii a v České republice striktně nelegální, ale jeho legalita závisí na účelu a způsobu provedení.
Jak uvádí IAPP, scraping představuje právní výzvy zejména ve třech oblastech:
- Ochrana osobních údajů (GDPR): Pokud scraping zahrnuje sběr osobních údajů (jména, e-maily, fotografie), musí mít provozovatel bota zákonný důvod pro jejich zpracování. Získání souhlasu je u velkého objemu dat prakticky nemožné, a spoléhání se na oprávněný zájem je v EU velmi přísně posuzováno, zejména pokud jde o čistě komerční zájmy.
- Autorské právo: Text, obrázky a data na webu jsou často chráněny autorským právem. Scraping a následné použití obsahu bez licence může být považováno za porušení autorských práv.
- Smluvní právo (Terms of Service): Většina webů má ve svých podmínkách používání (Terms of Service) scraping výslovně zakázán. Porušení těchto podmínek může vést k právním krokům, i když data nejsou chráněna autorským právem nebo neobsahují osobní údaje.
Shrnutí: Zatímco technické blokování je nutné pro ochranu infrastruktury, právní rizika scrapingu se týkají především sběru osobních údajů a porušení autorských práv či smluvních podmínek.
4. Technická strategie blokování: Od pasivity k proaktivitě
Zkušený správce ví, že blokování by mělo probíhat co nejdále od cílové aplikace (CMS, e-shopu), aby se minimalizovala zátěž na server.
4.1. Úroveň 1: Blokace na hraně sítě (WAF/CDN)
Nejefektivnější metodou je blokování na úrovni WAF (Web Application Firewall) nebo CDN (Content Delivery Network), jako je Cloudflare, Imperva nebo služby poskytované hostingem.
- Výhody: Nulová zátěž serveru: Požadavek je zablokován dříve, než se dostane k vašemu webovému serveru. Dynamické seznamy: Velké služby udržují aktuální seznamy špatných IP adres a User-Agentů.
- Nevýhody: Vyžaduje externí službu nebo pokročilou konfiguraci sítě.
Tato pravidla jsou aplikována globálně a jsou velmi účinná. Mnoho českých hostingů (např. CZECHIA.COM) také aplikuje vlastní blokace na síťové úrovni, zejména proti agresivním botům jako ASpiegelBot.
4.2. Úroveň 2: Pasti na roboty (Honeypots)
Pro roboty, kteří ignorují robots.txt, je účinnou a jednoduchou metodou tzv. past na roboty (honeypot). Tato technika využívá skutečnosti, že slušný robot (např. Googlebot) bude respektovat pravidlo v robots.txt, zatímco špatný robot jej ignoruje a pokusí se o přístup.
Příklad jednoduché pasti:
- Do souboru robots.txt přidejte pravidlo, které zakazuje přístup ke specifickému adresáři:
User-agent: * Disallow: /past_na_roboty/ - Vytvořte adresář /past_na_roboty/ a umístěte do něj jednoduchý skript (např. index.php), který po přístupu okamžitě zablokuje IP adresu návštěvníka na úrovni firewallu nebo .htaccess.
Tímto způsobem se automaticky identifikují a zablokují roboti, kteří prokazatelně ignorují standardní doporučení.
4.3. Úroveň 3: Blokace na webovém serveru (.htaccess)
Pokud nemáte WAF/CDN, nebo potřebujete blokovat specifické boty na dedikovaném serveru, je konfigurace webového serveru dalším nejlepším řešením.
Pro Apache je nejčistější použít modul mod_rewrite v souboru .htaccess v kořenovém adresáři webu. Následující příklad kombinuje blokaci starších i nových agresivních botů, AI crawlerů a agentů, kteří ignorují robots.txt (jako jsou roboti Meta):
# Blokovani spatnych robotu a AI crawleru
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(facebookexternalhit|meta-externalagent|Bytespider|ClaudeBot|GPTBot|Amazonbot|Scrapy|MJ12bot).*$ [NC]
RewriteRule .* - [F,L]
</IfModule>
Vysvětlení:
- RewriteCond %{HTTP_USER_AGENT} definuje podmínku, která hledá shodu v hlavičce User-Agent.
- ^.*(…).*$ je regulární výraz, který hledá shodu s libovolným z uvedených řetězců (např. Bytespider, GPTBot, facebookexternalhit).
- [NC] znamená „No Case“ (ignorovat velikost písmen).
- RewriteRule .* – [F,L] pak v případě splnění podmínky vrátí [F] (Forbidden – 403) a [L] (Last – ukončí zpracování pravidel).
Závěr
Přechod od pasivního spoléhání se na robots.txt k aktivnímu řízení robotického provozu je pro každého moderního správce webu nezbytností. Blokováním AI crawlerů, agresivních SEO botů a generických scraperů chráníte nejen svůj obsah a duševní vlastnictví, ale také výkon a stabilitu vaší infrastruktury.
Začněte s blokací na nejvyšší možné úrovni (WAF/CDN) a doplňte ji o pravidla na úrovni webového serveru a chytré pasti na roboty. Pravidelně monitorujte logy a aktualizujte seznamy blokovaných User-Agentů, protože boti se neustále vyvíjejí a mění své identity. Proaktivní přístup k bot managementu je dnes stejně důležitý jako pravidelné zálohování nebo aktualizace softwaru.








