Co to jest robots.txt?

Joanna Kasiedczak,

Utworzenie pliku robots.txt to jedna z metod, która pozwoli nam na to, aby wpłynąć na sposób działania robotów odwiedzających naszą stronę internetową. W artykule omówimy, w  jaki sposób działa ten mechanizm, oraz czym tak właściwie jest plik robots.txt.

Czym jest plik robots.txt?

Robots.txt jest jednym z mechanizmów „Robots Exclusion Protocol” – został stworzony, aby informować roboty wyszukiwarek i programy crawlujące o tym, co powinny, a czego nie powinny robić na naszej witrynie. Stosuje się go głównie po to, aby nie przeciążyć zadaniami naszej strony, jednak warto pamiętać, że robots.txt nie ukrywa witryny przed robotami. Plik robots.txt umieszczony jest w głównym katalogu witryny. 

W jakim celu warto utworzyć plik robots.txt?

Oprócz informowania robotów wyszukiwarek i programów crawlujących o pożądanych zachowaniach na stronie możemy również zastosować plik w innym celu, w zależności od rozszerzenia. 

W przypadku plików graficznych robots.txt pozwala na zarządzanie ruchem indeksowania, a także umożliwia wykluczenie konkretnych elementów graficznych, wideo czy dźwiękowych z wyników wyszukiwania wyszukiwarki. Pliki mogą zostać wyłączone, np. z indeksu Google. 

Również z użyciem robots.txt możemy zablokować pliki zasobów tzn. elementy, które według nas nie wpłyną na załadowane strony np. obrazy czy style. Przed blokadą upewnijmy się, że nie spowoduje to, że Google nie będzie umieć w odpowiedni sposób przeanalizować naszej strony. 

Zatem jest kilka istotnych powodów, dla których warto zainteresować się plikiem robots.txt. Brak odpowiedniej wiedzy w zakresie jego działania i użyteczności może negatywnie wpłynąć na indeksowanie, a tym samym pozycjonowanie się naszej strony. 

Jak stworzyć plik robots.txt?

Po teorii przyszedł czas na praktykę w jaki sposób stworzyć plik robots.txt? Ze względu na to, że robots.txt to plik tekstowy, to możemy go utworzyć w edytorze tekstów takim jak Notatnik, Microsoft Word lub Notepad ++.

1. Utworzenie pliku tekstowego o nazwie „robots.txt”.

2. Przejście do głównego katalogu strony i wgranie pliku. 

3. Wgrany plik będziemy mogli edytować w każdym momencie. 

Gdy już zakończymy proces tworzenia i wgrywania pliku, to powinniśmy rozpocząć pracę nad jego edycją istnieją trzy podstawowe polecenia. 

1. „User agent” – poprzez to polecenie wskazujemy robotom Google konkretne reguły, które powinny zostać przeanalizowane. Gdy w nazwie umieścimy *, czyli „User agent: *”, to będzie oznaczało, że polecenie skierowane jest do każdego robota odwiedzającego naszą stronę. Natomiast formuła „User agent: Googlebot” tłumaczy, że polecenie jest skierowane jedynie do robotów indeksujących Google. 

2. „Disallow” – polecenie informujące roboty o tym, czego nie powinny robić na naszej witrynie. W przypadku, gdy nie chcemy, aby bot odwiedził zakładkę „podroze”, tworzymy formułę:

User agent: *

Disallow: /podroze

Istotnym elementem jest dodanie ukośnika w formule, gdy tego nie zrobimy, to robot nie rozpozna jakie czynności są niewskazane i rozpocznie indeksacje wszystkich plików i stron. 

Polecenie „Allow” jest domyślnie dostępne na stronie, dlatego nie ma potrzeby, aby go używać. Jednak możemy je zastosować, aby pozwolić na dostęp do określonego folderu lub rozszerzenia, które zlokalizowane jest w nadrzędnym folderze, który został wykluczony. 

 

Joanna Kasiedczak

Joanna Kasiedczak

PR Specialist w MBridge – Marketing Experts. Odpowiada za działania komunikacyjne oraz wizerunkowe. Absolwentka dziennikarstwa i komunikacji społecznej na Uniwersytecie Kardynała Stefana Wyszyńskiego w Warszawie. Z branżą public relations związana od trzech lat. Wcześniej doświadczenie zdobywała w agencjach Walk PR oraz Clear Communication Group.