
Robots.txt
Robots.txt to nic innego jak precyzyjna instrukcja przeznaczona dla robotów Google. Plik wskazuje, które części witryny powinny zostać zaindeksowane, a które elementy z różnych powodów należy bezwzględnie pominąć. Można więc potraktować go jako podpowiedź dla indeksujących robotów. Plik ten zawsze mieści się w katalogu głównym strony internetowej. Warto regularnie weryfikować i aktualizować jego zawartość.
Z czego składa się plik robots.txt?
Struktura robots.txt jest ściśle określona. Robots.txt można stworzyć za pomocą niemal dowolnego edytora tekstu. Plik budują obowiązkowe elementy, każdy zapisany w osobnej linii. Są to:
- user–agent – wskazuje, które boty – wszystkie lub konkretnego rodzaju – powinny przeszukiwać stronę;
- allow – podpowiada, które części strony mogą zostać zaindeksowane;
- disallow – określa sekcje witryny, które nie wezmą udziału w indeksowaniu;
- sitemap – informuje roboty wyszukiwarek, gdzie znajdą plik mapy witryny.
Dlaczego boty wyszukiwarek powinny omijać pewne sekcje witryny?
Plik robots.txt ma duże znaczenie, jeśli chodzi o SEO. Nie zawsze jednak indeksowanie całej witryny będzie dobrym pomysłem. Do grupy „zakazanych” należą m.in. sekcje z wrażliwymi danymi klientów, części zawierające duplikaty treści czy archiwa lub fragmenty testowe. Pominięcie ich podczas indeksowania zadziała pozytywnie pod względem SEO, ponieważ np. duplikaty stron wyraźnie obniżają pozycję w rankingach, a przez to widoczność witryny. Pomoże ono również chronić dane, do których dostęp ma tylko wybrana grupa osób, przede wszystkim administratorzy.