Soubor robots.txt zastává na webové stránce roli jakýchsi instrukcí webovým robotům, zejména těm od vyhledávačů, o tom, které části webu smí nebo nesmí procházet a indexovat. Je však pouze na robotech, zda budou tyto pokyny respektovat. Viditelnost jednotlivých částí webových stránek uživatelům soubor robots.txt nijak neupravuje.
Jak funguje robots.txt?
- Soubor je umístěn v kořenovém adresáři webu – například
mhwebdesign.cz/robots.txt
. - Webový robot (crawler) od vyhledávače jako Google nejprve zjistí, zda tento soubor vůbec existuje.
- Poté si přečte pokyny v souboru a rozhodne se, které stránky navštíví a které nikoli.
Co můžete ovládat pomocí robots.txt?
- Blokování stránek: Můžete zabránit robotům v procházení a indexování konkrétních stránek na vašem webu. To může být užitečné pro stránky, jako jsou například stránky s přihlášením nebo duplicitním obsahem. Správný postup pozitivně ovlivňuje Vaše SEO.
- Blokování adresářů: Můžete také zabránit robotům v procházení celých adresářů na vašem webu.
- Blokování souborů: Můžete zabránit robotům v procházení určitých typů souborů, například souborů PDF nebo obrázků.
Co soubor neovlivní?
- Soubor a jeho obsah jsou pouze doporučením pro webové roboty a nijak robotům nebrání Váš pokyn nerespektovat. Je čistě na robotech (a na tom, jak je nastaven konkrétní crawling systém), zda se budou Vaším souborem robots.txt řídit.
- Robots.txt nebrání uživatelům v přístupu k žádné části vašeho webu.
- Soubor ani neovlivňuje, zda se stránka objeví ve výsledcích vyhledávání. Může pouze ovlivnit, zda je stránka indexována a zda se v ní objeví konkrétní obsah.
Kdy byste měli používat robots.txt?
- Pokud chcete zabránit robotům v indexování stránek s citlivými informacemi.
- Máte-li na webu duplicitní obsah, který nechcete, aby byl indexován.
- Pokud chcete omezit počet stránek, které robot navštěvuje, a tím snížit zátěž na server.
Respektují roboti tato doporučení?
Z čistě praktického hlediska lze konstatovat, že crawleři velkých vyhledávačů obecně respektují obsah souboru robots.txt. Není to však záruka. Soubor je třeba brát spíše jako jakýsi gentleman’s agreement mezi majiteli webů a provozovateli vyhledávačů – rozhodně se nejedná o právně závazný dokument. Některé typy robotů mohou soubor záměrně ignorovat, a to třeba z důvodu podezření na spamový nebo jinak závadný obsah.
Užitečné odkazy:
- Úvod do problematiky robots.txt od Googlu: https://developers.google.com/search/docs/crawling-indexing/robots/intro