Robots.txt
robots.txt è un semplice file di testo che si può caricare nella directory principale di un sito web. Quando uno spider visita il sito per prima cosa verifica l’esistenza di questo file. All’interno del file sono salvate delle direttive che di vari spider dei motori di ricerca sono tenuti ad osservare. Tipicamente sono memorizzate delle istruzioni su quali parti del sito possono essere indicizzate e quali no.
Se nel file robots.txt del sito www.miodominio.it si trovano le righe:
User-agent: *
Disallow: /admin/
Tutti gli spider dovranno evitare di indicizzare la cartella (e le sottodirectory) www.miodominio.it/admin/
In particolare nella prima riga utilizzando l’asterisco si indica che tutti gli spider, appartenenti a qualsiasi motore di ricerca (Google, Bing,…), dovranno seguire la regola. Mentre nella seconda linea non è autorizzata (disallow) l’indicizzazione di tutto il contenuto di www.miodominio.it/admin
Invece con le direttive:
User-agent: GoogleBot
Disallow: /secret/
Viene vietata l’indicizzazione da parte dello spider di Google (che si chiama GoogleBot) del contenuto della directory secret, attenzione perché gli spider degli altri motori di ricerca indicizzeranno la cartella.
User-agent: *
Disallow: curriculumvitae.html
Con questa regola non sarà indicizzato il file www.miodominio.it/curriculumvitae.html
Sono possibili anche ulteriori regole come l’inserimento della riga:
Sitemap: sitemap.xml
La linea indica qual è la posizione della sitemap in formato XML del sito, questo campo è utile soprattutto se è necessario specificare la posizione della sitemap in un posto atipico tipo:
Sitemap: http://miodominio.it/maps/sitemap.xml
Non sembra che ci siano articoli simili.
admin on October 12th 2009 in motori di ricerca, tecniche, white hat
