Robots.txt


robots.txt è un semplice file di testo che si può caricare nella directory principale di un sito web. Quando uno spider visita il sito per prima cosa verifica l’esistenza di questo file. All’interno del file sono salvate delle direttive che di vari spider dei motori di ricerca sono tenuti ad osservare. Tipicamente sono memorizzate delle istruzioni su quali parti del sito possono essere indicizzate e quali no.

Se nel file robots.txt del sito www.miodominio.it si trovano le righe:

User-agent: *
Disallow: /admin/

Tutti gli spider dovranno evitare di indicizzare la cartella (e le sottodirectory) www.miodominio.it/admin/

In particolare nella prima riga utilizzando l’asterisco si indica che tutti gli spider, appartenenti a qualsiasi motore di ricerca (Google, Bing,…), dovranno seguire la regola. Mentre nella seconda linea non è autorizzata (disallow) l’indicizzazione di tutto il contenuto di www.miodominio.it/admin

Invece con le direttive:

User-agent: GoogleBot
Disallow: /secret/

Viene vietata l’indicizzazione da parte dello spider di Google (che si chiama GoogleBot) del contenuto della directory secret, attenzione perché gli spider degli altri motori di ricerca indicizzeranno la cartella.

User-agent: *
Disallow: curriculumvitae.html

Con questa regola non sarà indicizzato il file www.miodominio.it/curriculumvitae.html

Sono possibili anche ulteriori regole come l’inserimento della riga:

Sitemap: sitemap.xml

La linea indica qual è la posizione della sitemap in formato XML del sito, questo campo è utile soprattutto se è necessario specificare la posizione della sitemap in un posto atipico tipo:

Sitemap: http://miodominio.it/maps/sitemap.xml

No Comments »

admin on October 12th 2009 in motori di ricerca, tecniche, white hat

Trackback URI | Comments RSS

Leave a Reply

Seodart is proudly powered by WordPress
Entries (RSS) and Comments (RSS).