Robots.txt

Robots.txt to nic innego jak precyzyjna instrukcja przeznaczona dla robotów Google. Plik wskazuje, które części witryny powinny zostać zaindeksowane, a które elementy z różnych powodów należy bezwzględnie pominąć. Można więc potraktować go jako podpowiedź dla indeksujących robotów. Plik ten zawsze mieści się w katalogu głównym strony internetowej. Warto regularnie weryfikować i aktualizować jego zawartość. 

Z czego składa się plik robots.txt?

Struktura robots.txt jest ściśle określona. Robots.txt można stworzyć za pomocą niemal dowolnego edytora tekstu. Plik budują obowiązkowe elementy, każdy zapisany w osobnej linii. Są to:

  • user–agent – wskazuje, które boty – wszystkie lub konkretnego rodzaju – powinny przeszukiwać stronę;
  • allow – podpowiada, które części strony mogą zostać zaindeksowane;
  • disallow – określa sekcje witryny, które nie wezmą udziału w indeksowaniu; 
  • sitemap – informuje roboty wyszukiwarek, gdzie znajdą plik mapy witryny.

Dlaczego boty wyszukiwarek powinny omijać pewne sekcje witryny?

Plik robots.txt ma duże znaczenie, jeśli chodzi o SEO. Nie zawsze jednak indeksowanie całej witryny będzie dobrym pomysłem. Do grupy „zakazanych” należą m.in. sekcje z wrażliwymi danymi klientów, części zawierające duplikaty treści czy archiwa lub fragmenty testowe. Pominięcie ich podczas indeksowania zadziała pozytywnie pod względem SEO, ponieważ np. duplikaty stron wyraźnie obniżają pozycję w rankingach, a przez to widoczność witryny. Pomoże ono również chronić dane, do których dostęp ma tylko wybrana grupa osób, przede wszystkim administratorzy.

Skontaktuj się z nami

mbridge@mbridge.pl

Zobacz też: