Cookie

TheJoe.it Into the (open) source

27giu/102

Escludere file e directory dall’indicizzazione usando il file “robots.txt”

spider_miniatura

Nella rete esistono degli standard di comportamento per i crawler (o bot, o ancora spider) per l'indicizzazione dei contenuti. Non mi riferisco al file ".htaccess", quello serve per configurare il webserver, sto parlando del file "robots.txt".

Il file "robots.txt" è uno dei file di configurazione più semplici che esistano, e a differenza di ".htaccess" va posizionato univocamente solo nella directory radice del sito. Tale file comunica ai motori di ricerca che indicizzano il nostro sito di indicizzare o meno determinati file o directory, e il funzionamento è molto semplice:

campo : valore

È possibile inserire solo due tipi di campi: "User-agent" e "Allow / Disallow".

User-Agent

Con il campo "User-Agent" specifichiamo un motore di ricerca preciso. Basta una piccola ricerca in internet, o un monitoraggio degli accessi nel corso del tempo, per rendersi conto dei principali motori di ricerca che accedono al sito. Solitamente le richieste al file "robots.txt" vengono effettuate solo dai motori di ricerca, e comunque gli user agent sono subito riconoscibili.

Allow / Disallow

Con il valore "Allow" o "Disallow" viene dichiarato un permesso di accesso al sito al motore di ricerca che usa lo user agent specificato nel campo "User-Agent". Per fare un esempio potremmo voler escludere la directory "images" dall'indicizzazione di "Googlebot-image", soprattutto se le immagini che lasciamo sul server vogliamo cederle con licenze d'uso diverse dalla CreativeCommons.

Vediamo di chiarire un po' le idee con un bell'esempio:

User-Agent : *
Disallow: /wp-

In questo caso abbiamo dichiarato che i crawler che si presentano con qualsiasi user agent non accedano alle directory che iniziano con "wp-", quelle dedicate all'amministrazione di WordPress. Semplice, no?

About

Mantengo questo blog a livello amatoriale dal 2009. Sono appassionato di grafica, tecnologia, software Open Source. Fra i miei articoli non sarà difficile trovarne circa la musica, ed alcuni di riflessioni personali, ma preferisco indirizzare la linea del blog principalmente verso la tecnologia. Per informazioni contattami.

Commenti (2) Trackback (0)
  1. Ti interesseranno anche gli articoli su “.htaccess” allora! 😀

    http://thejoe.it/wordpress/?s=htaccess


Leave a comment

Ancora nessun trackback.