Meta Tag Robots
Per fornire informazioni agli spider su quali pagine indicizzare e link seguire, sul nostro sito, possiamo utilizzare l’ istruzione:
<meta name=”robots” content=””>
All’intero dell’istruzione content, possiamo indicare i seguenti i parametri:
- index: diciamo allo spider di indicizzare la pagina (quindi permetterà di inserirla nell’archivio del motore di ricerca)
- noindex: non indicizzare la pagina negli archivi dei motori di ricerca
- follow: tutti i link presenti nella pagina vengano seguiti, consentendo il passaggio di valore da una pagina all’altra
- nofollow: non seguire i link che dalla pagina che puntano ad altre pagine interne o esterne (non trasmettono valore alla pagina di destinazione)
Index, noindex, follow e nofollow
Le informazioni relative all’indicizzazione e quelle relative ai link vengono combinate tra di loro:
<meta name=”robots” content=”index, follow“>
<meta name=”robots” content=”index, nofollow“>
<meta name=”robots” content=”noindex, follow“>
<meta name=”robots” content=”noindex, nofollow“>
E’ possibile utilizzare il tag noimageindex per evitare di far indicizzare le immagini:
<meta name=”robots” content=”noimageindex“>
Inserendo name=”robots” diciamo che questa istruzione deve essere valida per tutti gli spider, se vogliamo indicare soltanto determinati spider, ad esempio quello di google, inseriremo la seguente istruzione:
<meta name=”googlebot” ….>
Consiglio:
Se non vogliamo far indicizzare una pagina, ad esempio perchè contiene un contenuto simile ad un’altra pagina del sito, è meglio utilizzare queste indicazioni anzichè utilizzare l’istruzione Disallow del file robots.txt.
In questo modo lo spider visualizzerà la pagina e poi in base alla nostra indicazione deciderà cosa indicizzare o meno, mentre se lo indichiamo nel file robots.txt lo spider non visualizzerà mai il contenuto della pagina.
Gli attributi possono essere indicati anche per singoli link:
<a href=”sito.it” rel=”nofollow“>Sito</a>
Link di approfondimento:
Meta Tag Canonical
Il modo migliore per risolvere il problema dei contenti duplicati e la canonicalizzazione mediante l’attributo rel=”canonical”.
Infatti, i documenti vengono classificati in documenti canonici, ovvero i documenti originali, e documenti non canonici.
Solo all’interno della pagina non canonica inseriamo un link verso la pagina canonica.
Supponiamo che siamo nella pagina non canonica:
http://sito.it/tag/page
dobbiamo inserire nella sezione <head> l’istruzione che indica a quale pagina “canonica” si riferisce:
<link rel=”canonical” href=”http://sito.it/page”/>
Contenuti Duplicati
I contenti duplicati possono appartenere allo stesso sito o siti differenti, per questo vengono distinti in:
- Duplicati esterni: il webmaster copia il contenuto da un altro sito.
- Duplicazione interna: la stessa pagina è presente due volte all’interno del sito. Ad esempio, su siti di e-commerce dove lo stesso prodotto può essere visualizzato da diversi id che contengono i vari filtri es: sito.it/scarpe?=numero=43&colore=blue , altro esempio è la presenza delle stesse pagine con url con e senza www, che per google sono due pagine diverse, quindi dobbiamo gestirle, ne abbiamo parlato nell’articolo in cui abbiamo spiegato come impostare correttamente i redirect 301.
Per i contenuti duplicati delle pagine interne google cerca di individuare quale è la pagina originale e evita di indicizzare le altre, a meno che questa tecnica non sia stata adottata per ingannare Google.
Diverso è il caso di contenuti duplicati provenienti da siti esterni, in questo caso Google potrebbe bannare il nostro sito.
Nel caso copiamo un articolo da un altro sito, bisogna citare la fonte.
Quali sono gli strumenti per individuare i contenti duplicati?
- Copyspace
- Plagium
- Copiare una frase presente nel sito e inserirla nella barra di ricerca racchiusa tra le doppie virgolette.
Per rilevare contenuti duplicati interni possiamo utilizzare lo strumento webmaster di google, “Sezione: Aspetto della ricerca, Miglioramenti HTML”.
Nel caso della gestione degli url che contengono al loro interno parametri dinamici, come per siti di e-commerce, si può utilizzare lo strumento di webmaster di google nella sezione “Scansione, parametri url”.
Qui possiamo indicare al motore di ricerca tutti i parametri che deve ignorare.