Blokowanie i usuwanie stron za pomocą pliku robots.txt

Wtorek, 11.06.2013

Za pomocą pliku robots.txt możemy ograniczyć dostęp robotów indeksujących strony www, do części naszej witryny. Przed pobraniem strony, roboty sprawdzają, czy plik robots.txt istnieje oraz jakie są w nim zapisy. Plik ten powinien znajdować się w katalogu głównym domeny.

Podstawowy plik robots.txt zawiera dwie reguły:

User-agent: robot, którego dotyczy dana reguła
Disallow: URL, który ma być blokowany Przykładowo jeśli chcemy zablokować możliwość indeksowania katalogu "tajne" dla wszystkich robotów -wpisujemy:


User-agent: *

Disallow: /tajne/

Znak * oznacza wszystkie dostępne roboty indeksujące. Jeśli chcemy zablokować indeksowanie dla wybranego robota, zamiast * wpisujemy jego nazwę. Pełna lista robotów indeksujących znajduje się na stronie http://www.robotstxt.org/db.html. Poniższy wpis powoduje zablokowanie indeksowania obrazków z naszej strony dla wyszukiwarki grafiki Google:


User-agent: Googlebot-Image

Disallow: /

Możemy również zablokować konkretny plik, np.:

User-agent: Googlebot-Image

Disallow: /img/foto.jpg

Przy korzystaniu z pliku robots.txt musimy pamiętać o jednym. Plik ten nie gwarantuje braku dostępu do strony. W tym celu należy korzystać z innych mechanizmów, np. htaccess.

Zobacz też:

Jak sprawdzić czy strona jest zaindeksowana w google?