Robots.txt

Robots.txt to nic innego jak precyzyjna instrukcja przeznaczona dla robotów Google. Plik wskazuje, które części witryny powinny zostać zaindeksowane, a które elementy z różnych powodów należy bezwzględnie pominąć. Można więc potraktować go jako podpowiedź dla indeksujących robotów. Plik ten zawsze mieści się w katalogu głównym strony internetowej. Warto regularnie weryfikować i aktualizować jego zawartość. 

Z czego składa się plik robots.txt?

Struktura robots.txt jest ściśle określona. Robots.txt można stworzyć za pomocą niemal dowolnego edytora tekstu. Plik budują obowiązkowe elementy, każdy zapisany w osobnej linii. Są to:

  • user–agent – wskazuje, które boty – wszystkie lub konkretnego rodzaju – powinny przeszukiwać stronę;
  • allow – podpowiada, które części strony mogą zostać zaindeksowane;
  • disallow – określa sekcje witryny, które nie wezmą udziału w indeksowaniu; 
  • sitemap – informuje roboty wyszukiwarek, gdzie znajdą plik mapy witryny.

Dlaczego boty wyszukiwarek powinny omijać pewne sekcje witryny?

Plik robots.txt ma duże znaczenie, jeśli chodzi o SEO. Nie zawsze jednak indeksowanie całej witryny będzie dobrym pomysłem. Do grupy „zakazanych” należą m.in. sekcje z wrażliwymi danymi klientów, części zawierające duplikaty treści czy archiwa lub fragmenty testowe. Pominięcie ich podczas indeksowania zadziała pozytywnie pod względem SEO, ponieważ np. duplikaty stron wyraźnie obniżają pozycję w rankingach, a przez to widoczność witryny. Pomoże ono również chronić dane, do których dostęp ma tylko wybrana grupa osób, przede wszystkim administratorzy.

Aby dowiedzieć się, jak indeksować tylko wybrane treści na stronie, sprawdź nasz tekst o parametrach dofollow, nofollow i noindex

Skontaktuj się z nami

mbridge@mbridge.pl

Zobacz też: