Escludere file e directory dall’indicizzazione usando il file “robots.txt”
Attenzione
Questo articolo è stato pubblicato più di un anno fa, potrebbero esserci stati sviluppi.
Ti preghiamo di tenerne conto.
Nella rete esistono degli standard di comportamento per i crawler (o bot, o ancora spider) per l’indicizzazione dei contenuti. Non mi riferisco al file “.htaccess“, quello serve per configurare il webserver, sto parlando del file “robots.txt“.
Il file “robots.txt” è uno dei file di configurazione più semplici che esistano, e a differenza di “.htaccess” va posizionato univocamente solo nella directory radice del sito. Tale file comunica ai motori di ricerca che indicizzano il nostro sito di indicizzare o meno determinati file o directory, e il funzionamento è molto semplice:
campo : valore
È possibile inserire solo due tipi di campi: “User-agent” e “Allow / Disallow“.
User-Agent
Con il campo “User-Agent” specifichiamo un motore di ricerca preciso. Basta una piccola ricerca in internet, o un monitoraggio degli accessi nel corso del tempo, per rendersi conto dei principali motori di ricerca che accedono al sito. Solitamente le richieste al file “robots.txt” vengono effettuate solo dai motori di ricerca, e comunque gli user agent sono subito riconoscibili.
Allow / Disallow
Con il valore “Allow” o “Disallow” viene dichiarato un permesso di accesso al sito al motore di ricerca che usa lo user agent specificato nel campo “User-Agent“. Per fare un esempio potremmo voler escludere la directory “images” dall’indicizzazione di “Googlebot-image“, soprattutto se le immagini che lasciamo sul server vogliamo cederle con licenze d’uso diverse dalla CreativeCommons.
Vediamo di chiarire un po’ le idee con un bell’esempio:
User-Agent : *
Disallow: /wp-
In questo caso abbiamo dichiarato che i crawler che si presentano con qualsiasi user agent non accedano alle directory che iniziano con “wp-“, quelle dedicate all’amministrazione di WordPress. Semplice, no?
2 commenti
TheJoe · 5 Luglio 2010 alle 4:36 PM
Ti interesseranno anche gli articoli su “.htaccess” allora! 😀
https://thejoe.it/wordpress/?s=htaccess
corsi di informatica · 5 Luglio 2010 alle 3:35 PM
ottimo tip 🙂