Corect robots.txt

This article has been written before more than 24months, information might old.

Pentru google si pentru celelate motoare de cautare robots.txt este foarte important , depozitarea unui robots.txt cu continut incorect/ilegal poate duce la neindexarea anumitor pagini sau chiar mai rau excluderea webiste-ului din motoarele de cautare .
In acest articol va voi arata si cum trebuie sa arate un robots.txt perfect pentru wordpress cat si cum sa corectam diferite errori care se pot ivi datorita proastei configurari ale servarului pe care va este hostat website-ul .

In primul rand tipul unui fisier robots.txt trebuie sa fie text/plain , se poate ca fisierele text sa nu fie de acest tip pe servarul vostru. Pentru a corecta aceasta problema se poate aplica una dintre urmatoarele 2 solutii :

In fisierul .htaccess adaugam :
1 ( pima optiune ) : Linia :

AddType text/plain .txt
 

In acest caz fortam ca orice fisier cu extensia .txt sa fie de tipul text/plain , dar aceasta directiva poate genera eroarea 500 daca in configurarea servarului aceasta directiva este dezactivata . In cazul in care dupa adaugarea liniei va apare Internal Server Error 500 , stergeti aceasta linie .
2 ( a doua optiune ) Linile :


 SetHandler application/x-httpd-php

 

In acest caz fortam ca fila robots.txt sa aiba tipul application/x-httpd-php specifica unui script php , si va fi trecuta prin interpretorul php inainte de afisarea in browser .
Apoi va trebui sa editati fisierul robots.txt dupa cum urmeaza :

< ?php
header("Content-type: text/plain");
?>
// Iar sub aceasta linie vom pune directivele obsnuite pentru robots.txt

Prin aceasta din nou fortam ca file text sa fie de tipul text/plain .

Pentru platforma wordpress este bine sa nu indexam feedurile si feedurile comentarilor pentru ca ele sunt deja indexate , fiind prezente si pe paginile website-ului reindexarea lor duce la continut dublicat care este penalizat de majoritatea motoarelor de cautare ( si google mai ales ) . De asemenea este indicat ca din robots.txt sa dezactivam indexarea pentru folderele interne cele cu „wp” in fata precum wp-content , wp-admin , wp-includes . Multi oameni de pe net fac asta prin directiva ” Disallow: /wp- ” dar nu este indicat asa pentru ca orice link care o sa contina wp- in el nu va fi indexat , mai adecvat este sa trecem tot numele folderului .
Acestea fiind spuse recomand urmatoarea forma a robots.txt (este cea pe care o folosesc si eu , http://azrael-sub7.ro/robots.txt ) :

User-agent: Googlebot
Allow: /*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /uploads/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*?*

User-agent: *
Allow: /*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /uploads/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$

User-agent: Googlebot-Image
Disallow:
Allow: /*
Share the joy

Leave a Reply