Cookie

Nella rete esistono degli standard di comportamento per i crawler (o bot, o ancora spider) per l’indicizzazione dei contenuti. Non mi riferisco al file “.htaccess“, quello serve per configurare il webserver, sto parlando del file “robots.txt“.

Il file “robots.txt” è uno dei file di configurazione più semplici che esistano, e a differenza di “.htaccess” va posizionato univocamente solo nella directory radice del sito. Tale file comunica ai motori di ricerca che indicizzano il nostro sito di indicizzare o meno determinati file o directory, e il funzionamento è molto semplice:

campo : valore

È possibile inserire solo due tipi di campi: “User-agent” e “Allow / Disallow“.

User-Agent

Con il campo “User-Agent” specifichiamo un motore di ricerca preciso. Basta una piccola ricerca in internet, o un monitoraggio degli accessi nel corso del tempo, per rendersi conto dei principali motori di ricerca che accedono al sito. Solitamente le richieste al file “robots.txt” vengono effettuate solo dai motori di ricerca, e comunque gli user agent sono subito riconoscibili.

Allow / Disallow

Con il valore “Allow” o “Disallow” viene dichiarato un permesso di accesso al sito al motore di ricerca che usa lo user agent specificato nel campo “User-Agent“. Per fare un esempio potremmo voler escludere la directoryimages” dall’indicizzazione di “Googlebot-image“, soprattutto se le immagini che lasciamo sul server vogliamo cederle con licenze d’uso diverse dalla CreativeCommons.

Vediamo di chiarire un po’ le idee con un bell’esempio:

User-Agent : *
Disallow: /wp-

In questo caso abbiamo dichiarato che i crawler che si presentano con qualsiasi user agent non accedano alle directory che iniziano con “wp-“, quelle dedicate all’amministrazione di WordPress. Semplice, no?


TheJoe

Mantengo questo blog a livello amatoriale dal 2009. Sono appassionato di grafica, tecnologia, software Open Source. Fra i miei articoli non sarà difficile trovarne circa la musica, ed alcuni di riflessioni personali, ma preferisco indirizzare la linea del blog principalmente verso la tecnologia. Per informazioni contattami.

2 commenti

TheJoe · 5 luglio 2010 alle 4:36 PM

Ti interesseranno anche gli articoli su “.htaccess” allora! 😀

https://thejoe.it/wordpress/?s=htaccess

corsi di informatica · 5 luglio 2010 alle 3:35 PM

ottimo tip 🙂

Rispondi a TheJoe Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.