Robots Exclusion Protocol

Z Wikipedii

Masz nowe wiadomości (różnica z poprzednią wersją).

Robots Exclusion Protocol to mechanizm informowania automatów o tym, czego nie powinny robić na stronie WWW.

Dotyczy to przede wszystkim działających automatycznie programów indeksujących serwisy WWW dla wyszukiwarek, które podążąjąc za hiperłączami indeksują całą zawartość danego serwisu do katalogu wyszukiwarki, ale również programów innego typu, np. automatycznych mirrorów.

Robots Exclusion Protocol jest systemem honorowym i jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. System ten jest generalnie przestrzegany, gdyż w niczyim interesie nie leży łamanie jego zasad.

[edytuj] Powody stosowania

Czasem pobranie jakiejś strony powoduje wywołanie jakiejś akcji, np. oddanie głosu w sondażu (ściśle interpretując standardy, wszystkie tego typu akcje powinny odbywać się za pomocą formularzy i metody POST, nie linków i GET, nie jest to jednak powszechnie przestrzegane).
Niechęc autora do tego, żeby dana strona była indeksowana w wyszukiwarkach, gdyż nie wnosi ona żadnej nowej treści do ich bazy. Tak jest m.in. ze stronami edycji na Wikipedii, np.:

http://pl.wikipedia.org/w/wiki.phtml?title=Robots_Exclusion_Protocol&action=edit

Duże obciążenie serwera w związku z generacją strony oraz zwykłą niechęć do tego, żeby była ona w bazach wyszukiwarek. Niektóre strony internetowe z różnych przyczyn wolą pozostać w poza wyszukiwarkami, lub pozwalają na indeksowanie tylko swojej strony głównej.

Istnieją dwa mechanizmy Robots Exclusion Protocol: robots.txt i meta-tagi

[edytuj] robots.txt

Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera. Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

komentarzy zaczętych od #
rekordów oddzielonych pustymi liniami
- rekord składa się z pól Nazwa: Wartość
  - jednego pola User-agent
  - pól Disallow

Pole User-agent oznacza jakich programów dany rekord dotyczy. Pola Disallow to prefiksy URLi, których ściągać nie wolno.

Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.

Niektóre boty rozumieją też inne pola, np. ograniczające ilość pobrań ze strony na minutę.

[edytuj] Meta-tagi

Jest też możliwe podawanie w tagach HTML: <meta name='robots' contents ='X'>, gdzie X to:

nofollow - nie podążaj za linkami na stronie
noindex - nie indeksuj strony
noindex,nofollow - i jedno i drugie

Meta-tagi wymagają analizy HTMLa więc są uznawane o wiele rzadziej niż robots.txt

Źródło: "http://pl.wikipedia.org../../../r/o/b/Robots_Exclusion_Protocol_a5b9.html"

Kategoria: Wyszukiwarki internetowe

Robots Exclusion Protocol

Z Wikipedii

[edytuj] Powody stosowania

[edytuj] robots.txt

[edytuj] Meta-tagi

Views

nawigacja

techniczne

zmiany

Szukaj

W innych językach