Cookie

TheJoe.it Into the (open) source

27giu/102

Escludere file e directory dall’indicizzazione usando il file “robots.txt”

spider_miniatura

Nella rete esistono degli standard di comportamento per i crawler (o bot, o ancora spider) per l'indicizzazione dei contenuti. Non mi riferisco al file ".htaccess", quello serve per configurare il webserver, sto parlando del file "robots.txt".

Il file "robots.txt" è uno dei file di configurazione più semplici che esistano, e a differenza di ".htaccess" va posizionato univocamente solo nella directory radice del sito. Tale file comunica ai motori di ricerca che indicizzano il nostro sito di indicizzare o meno determinati file o directory, e il funzionamento è molto semplice: