Robots.txt

Soubor robots.txt zastává na webové stránce roli jakýchsi instrukcí webovým robotům, zejména těm od vyhledávačů, o tom, které části webu smí nebo nesmí procházet a indexovat. Je však pouze na robotech, zda budou tyto pokyny respektovat. Viditelnost jednotlivých částí webových stránek uživatelům soubor robots.txt nijak neupravuje.

Jak funguje robots.txt?

Soubor je umístěn v kořenovém adresáři webu – například mhwebdesign.cz/robots.txt.
Webový robot (crawler) od vyhledávače jako Google nejprve zjistí, zda tento soubor vůbec existuje.
Poté si přečte pokyny v souboru a rozhodne se, které stránky navštíví a které nikoli.

Co můžete ovládat pomocí robots.txt?

Blokování stránek: Můžete zabránit robotům v procházení a indexování konkrétních stránek na vašem webu. To může být užitečné pro stránky, jako jsou například stránky s přihlášením nebo duplicitním obsahem. Správný postup pozitivně ovlivňuje SEO vašeho webu.
Blokování adresářů: Můžete také zabránit robotům v procházení celých adresářů na vašem webu.
Blokování souborů: Můžete zabránit robotům v procházení určitých typů souborů, například souborů PDF nebo obrázků.

POZOR! Google JIŽ nepodporuje direktivu noindex v robots.txt. Parametr noindex je nutné komunikovat metatagem noindex.

Co soubor neovlivní?

Soubor a jeho obsah jsou pouze doporučením pro webové roboty a nijak robotům nebrání Váš pokyn nerespektovat. Je čistě na robotech (a na tom, jak je nastaven konkrétní crawling systém), zda se budou Vaším souborem robots.txt řídit.
Robots.txt nebrání uživatelům v přístupu k žádné části vašeho webu.
Soubor ani neovlivňuje, zda se stránka objeví ve výsledcích vyhledávání. Může pouze ovlivnit, zda je stránka indexována a zda se v ní objeví konkrétní obsah.

Kdy byste měli používat robots.txt?

Pokud chcete zabránit robotům v indexování stránek s citlivými informacemi.
Máte-li na webu duplicitní obsah, který nechcete, aby byl indexován.
Pokud chcete omezit počet stránek, které robot navštěvuje, a tím snížit zátěž na server.

Respektují roboti tato doporučení?

Z čistě praktického hlediska lze konstatovat, že crawleři velkých vyhledávačů obecně respektují obsah souboru robots.txt. Není to však záruka. Soubor je třeba brát spíše jako jakýsi gentleman’s agreement mezi majiteli webů a provozovateli vyhledávačů – rozhodně se nejedná o právně závazný dokument. Některé typy robotů mohou soubor záměrně ignorovat, a to třeba z důvodu podezření na spamový nebo jinak závadný obsah.

Užitečné odkazy:

Úvod do problematiky robots.txt od Googlu: https://developers.google.com/search/docs/crawling-indexing/robots/intro