|
|
|
Robots.txt i roboty indeksujące |
« Zobacz poprzedni temat :: Zobacz następny temat » |
Autor |
Wiadomość
|
Martin |
Wysłany: 21 Cze 2005, 02:11 Temat postu: Robots.txt i roboty indeksujące |
|
|
KCS_Admin
Dołączył: 17 Cze 2005 Posty: 5566
Skąd: Piaseczno
|
Wiele robotów indeksujących, które wchodzą na Twoje strony bedzie podążać za linkami, wgłąb witryny do różnych katalogów. Potem dane, które pobierze robot mogą zostać zaindeksowane w wyszukiwarkach internetowych. I tutaj pojawia się problem: możesz niechcieć, aby roboty pobrały jakieś dane z Twojego serwera.
Plik Robots.txt
Roboty indeksujące sprawdzają specjalny plik o nazwie robots.txt, który powinien znajdować się w katalogu głównym serwera. Plik robots.txt (jak można się domyślić) jest plikiem tekstowym bez tagów HTML. Robots.txt używa specjalnego protokołu - Robots Exclusion Protocol, który pozwala administratorowi zdefiniować, które katalogi / pliki na jego serwerze nie zostaną odwiedzone przez określone roboty. Możemy zakazać (disallow) "wstępu" do katalogu CGI, private lub np. katalogu tymczasowego.
No dobrze, ale po co używać robots.txt i tym samym zakazywać robotom indeksującym odwiedzenia i zaindeksowania naszej strony? Przecież chcemy zapewnić sobie jak najwyższą pozycję w wyszukiwarkach.
Wierzcie mi, lub nie, ale czasem chcemy trzymać niektóre roboty zdala od naszego serwera...
Powiedzmy, że przygotowujesz jakąś stronę dla klienta i nie chcesz, żeby została zaindeksowana przed jej ukończeniem. Zdarza się, że jakiś wredny robot wpadnie w pętlę i bedzię wchodził na Twoją stronę w kółko, generując niepotrzebny korek. Możesz mieć stronę z dużą ilością ramek i chcesz zaindeksować tylko tą główną.Może masz jakieś prywatne pliki na serwerze, i nie chcesz żeby ktoś je znalazł?
Możemy doszukiwać się wielu powodów, a robots.txt to najlepsza i najskuteczniejsza obrona przeciw robotom.
Składnia
Składnia tworzenia robots.txt jest dla większości 'przeciętnych' ludzi nieznana. Ogólnie można powiedzieć, że robots.txt zawiera proste komendy dla robota, których stron czy katalogów ma nie odwiedzać. Każda sekcja pliku zawiera nazwę robota (user agent) oraz ścieżkę, na którą danemu robotowi zakazany jest wstęp. Nie ma natomiast możliwości dopuszczenia robota do określonych katalogów lub plików o zadanych rozszerzeniach (możemy tylko zabraniać Należy pamiętać, że robot może "wpełznął" do każdego katalogu na serwerze jeśli nie zostało mu to zabronione.
Najczęściej możemy przeczytać plik po prostu wpisując jego adres w przeglądarce ( na przykład www.spiders.pl/robots.txt). Zaletą takiego rozwiązania jest wielka wygoda w edycji (brak specjalnego edytora).
Jako, że najlepiej pokazać składnię robot.txt na przykładzie, poniżej prezentuję tabelkę:
Wpis Znaczenie
User-agent: *
Disallow:
Gwiazdka (*) w sekcji User-agent (nazwa robota), jest po prostu skrótem dla "wszystkie roboty". Jako, że nic nie jest zabronine, wszystko jest dozwolone. (tak jakby nie było robots.txt)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
W tym przykładzie wszystkie roboty mogą zaglądać gdzie im się podoba z wyjątkiem trzech niżej wymienionych katalogów.
User-agent: BadBot
Disallow: / W tym przypadku robot o nazwie BadBot nie może katalogować nic z tego serwera. (/) to skrót do "wszystkie katalogi".
Uwaga : BadBot = badbot = BADBOT
User-agent: BadBot
Disallow: /
User-agent: *
Disallow: /private/
To co poprzednio ale:
Pusta linijka oznacza,że zaczynamy nowy "wpis" - nową komendę User-agent. Wszystkie pozostałe roboty (poza BadBot), nie mogą odwiedzić katalogu /private/
User-agent: ZłyBot
Disallow: /tmp/
Disallow: /private/
Disallow: /links/listing.html
User-agent: *
Disallow: /tmp/
Disallow: /private/
Te komendy zabraniają dostępu (Złemubotowi) do wymienionych katalogów oraz do pliku listing.html
Wszystkie pozostałe roboty nie mogą wejść w tmp i private.
(Jeśli myślisz, że te komendy są wyjątkowo nieefektywne to masz rację)
Czego robić nie należy? - najczęstrze błędy
Jak Ci nie idzie, zawsze możesz skorzystać z The Robots Syntax Checker
User-agent: *
Disallow / Błąd! Nie ma dwukropka po Disallow.
User-agent: *
Disallow: *
Błąd jak chcesz żęby robot nie mógł nigdzie wejść użyj (/) w disallow
User-agent: sidewiner
Disallow: /tmp/
Nie! Roboty nie będą zważały na błędy w pisowni nazw robotów.
Zapraszamy do działu Baza Robotów.
Baza robotów
Zapraszamy do naszej obszernej bazy robotów. Znajdziesz w niej wiele informacji na temat poszczególnych robotów. Np. opis, adresy stron itd.
http://www.spiders.pl/baza-browse.php _________________ Martin
- Prywatny Katalog Stron
- pizzeria La Nostra zaprasza
- e-Piaseczno i okolice, to najlepsze miejsce dla e-mieszkanca powiatu piaseczynskiego
- najlepsze prywatne przedszkole w Piasecznie
- moj prywatny fotoblog ze zdj?ciami |
|
Powrót do góry |
|
|
KCS |
Wysłany: Temat postu: Reklama w KCS |
|
|
|
|
Powrót do góry |
|
|
max |
Wysłany: 22 Cze 2005, 12:58 Temat postu: |
|
|
Znawca
Dołączył: 16 Cze 2005 Posty: 738
|
Fajna sprawa, ale czy można pokazać jak dokładnie wygląda przykład jednego z takich plików, pomieważ link podany w terści nie jest poprawny.
|
|
Powrót do góry |
|
|
Martin |
Wysłany: 09 Lip 2005, 23:08 Temat postu: |
|
|
KCS_Admin
Dołączył: 17 Cze 2005 Posty: 5566
Skąd: Piaseczno
|
|
Powrót do góry |
|
|
elviz |
Wysłany: 13 Kwi 2008, 11:19 Temat postu: |
|
|
Nowicjusz
Dołączył: 13 Kwi 2008 Posty: 1
|
|
Powrót do góry |
|
|
mariolosek |
Wysłany: 13 Gru 2008, 18:12 Temat postu: |
|
|
Bywalec
Dołączył: 21 Lip 2006 Posty: 155
|
|
Powrót do góry |
|
|
|
|
|
|
Strona 1 z 1 |
|
Nie możesz pisać nowych tematów Nie możesz odpowiadać w tematach Nie możesz zmieniać swoich postów Nie możesz usuwać swoich postów Nie możesz głosować w ankietach
|
|
|
|