Często słyszałeś o pliku robots.txt, jeśli masz do czynienia z WordPress, ale co to właściwie jest? Zacznijmy od opisu technicznego oferowanego przez Wikipedię:
„Protokół wykluczania robotów wskazuje, w żargonie Internetu i ogólnie w Internecie, reguły stosowane przez roboty indeksujące do stosowania ograniczeń analizy na stronach witryny. Są one zawarte w pliku robots.txt , utworzonym w czerwcu 1994 r. Za zgodą członków listy mailingowej robotów. W tej chwili nie ma prawdziwego standardu dla protokołu robotów. ”
W praktyce plik ten zawiera instrukcje, których muszą przestrzegać wyszukiwarki podczas skanowania stron witryny.
Po raz pierwszy poczułem potrzebę skonfigurowania pliku robots.txt podczas sprawdzania Narzędzie Google dla webmasterów , Znalazłem tak wiele błędów 404 . Tłocznie nie mogły dotrzeć do wielu linków, ponieważ całkowicie usunąłem je z witryny.
Ale co to są pijaki? Robot jest oprogramowaniem, które analizuje zawartość naszej bazy danych w imieniu wyszukiwarki. W praktyce wyszukiwarka zapewnia tłumowi listę adresów URL, które należy przeanalizować, aby stale aktualizować listę naszych hiperłączy.
Podczas konfigurowania pliku robots.txt wszystko, co robisz, to dawanie robotom indeksującym (zwanym również pająkami ) reguł do naśladowania i wskazanie, które strony powinny być analizowane i skanowane, a które nie.
Wystarczy prosty notatnik lub inny edytor tekstu. Ważne jest, aby zapisać plik z rozszerzeniem .TXT i nazwać go dokładnie robots.txt
Po utworzeniu pliku po prostu prześlij go do katalogu głównego naszej witryny i gotowe!
Tutaj musisz dokładnie przesłać plik robots.txt. W tym przykładzie użyłem FileZilla.
[NIE] Bądź ostrożny, ponieważ jeśli wpiszesz „ / ”, nie zablokujesz indeksowania całej zawartości:
Agent użytkownika: * Disallow: /
[TAK] Ponieważ jestem pewien, że chciałbyś, aby najlepszy model pliku robots.txt był już miły i gotowy , oto jeden z nich wykonany zgodnie z wytycznymi CodePlex ,
Agent użytkownika: * Zezwól: / Disallow: / cgi-bin Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content Disallow: / e / Disallow: / show-error- * Disallow: / xmlrpc. php Disallow: / trackback / Disallow: / strona komentarza- Pozwól: / wp-content / uploads / User-agent: Mediapartners-Google Zezwól: / User-agent: Adsbot-Google Zezwól: / User-agent: Googlebot-Image Zezwól : / User-agent: Googlebot-Mobile Zezwalaj: / Mapa strony: http: // www.mysite.com/sitemap.xml (TUTAJ PROSZĘ WPROWADZAĆ MAPĘ WITRYNY INTERNETOWEJ)
Z drugiej strony, twój pierwszy plik robotów musiał zostać skonfigurowany jak w poniższym przykładzie:
Agent użytkownika: * Disallow:
Oczywiście nic nie stoi na przeszkodzie, aby utworzyć plik robots.txt dostosowany do Twoich potrzeb! Jeśli chcesz zobaczyć inne strony, które ustawili, na końcu adresu URL napisz „/robots.txt” (bez cudzysłowów).
Na przykład szukaj www.facebook.it/robots.txt i zobacz, która konfiguracja korzysta z portalu Mark Zuckerberg. Uważam, że Google w każdym razie woli mieć pełny dostęp do witryny , w rzeczywistości, jeśli kontrolujesz konsolę Narzędzie Web Master i podążaj ścieżką:
Zaleca się ustawienie pliku w ten sposób:
User-agent: * Zezwól: /
Teraz wystarczy poeksperymentować i skonfigurować plik robots.txt zgodnie z potrzebami witryny. Aby sprawdzić wyniki, stale sprawdzaj dane wyświetlane na stronie „Narzędzia Google dla webmasterów” i modyfikuj je zgodnie z własnymi potrzebami.
Autor: Giorgio Perillo
Ocena: 4,7 / 5. Od 14 głosów.
Proszę czekać ...
TXT JEŚLI UŻYWAMY WORDPRESS?Copyleft © 2017 . www.info-center.od.ua Информационный центр - Всегда в центре событий