Configuriamo correttamente il file robots.txt
Oltre alla sitemap, un altro file molto importante per far indicizzare da google il sito web, è il file robots, mediante il quale forniamo istruzioni agli spider dei motori di ricerca su cosa possono o non possono fare all’interno del nostro sito.
Ecco alcune regole che questo file deve rispettare:
- Deve essere codificato in UTF-8
- Il nome del file deve essere scritto in minuscolo
- Deve trovarsi nella root del percorso del sito
- Se abbiamo dei sottodomini, ognuno deve avere il proprio file robots.txt
- Per inserire i commenti dobbiamo utilizzare il carattere #
Lo spider rispetta il Robots Exlusion Protocol, quindi rispetta le direttiva indicate dal proprietario del sito ai vari spider che lo scansionano.
Quindi lo spider prima di esplorare il sito accede al file robots.txt, se presente, e riceve le varie direttive.
Se il file robots non è presente nella root del sito, lo spider riceve una risposta http 404 e come da standard ciò significa che l’accesso è consentito.
Quindi lo spider esplorerà tutte le risorse del sito.
In assenza di una risposta http 200 (ovvero file trovato) oppure http 404 (file assente), lo spider non scansionerà il sito, perchè non è in possesso delle istruzioni robots come da protocollo.
Andiamo ad analizzare le istruzioni principali di questo file:
- User-Agent: Indica a chi sono rivolte le istruzioni. Inserendo il carattere *, indichiamo che le istruzioni indicate in tale file valgono per tutti gli spider. Se vogliamo far riferimento ad uno spider specifico dobbiamo indicarlo. Possiamo farlo mediante la seguente istruzione: User-Agent: Googlebot
- Disallow: Indica cosa non deve essere indicizzato.
- Ad esempio, se non vogliamo far indicizzare una cartella, inseriremo la seguente istruzione:
- Disallow: /immagini/ ,
- mentre se non vogliamo far scansionare un singolo file presente in una determinata cartella inseriremo la seguente istruzione Disallow: /immagini/foto.png
- Si può utilizzare anche il termine Allow per permette l’indicizzazione di alcuni file, è utile se abbiamo impedito l’accesso ad una cartella ma vogliamo permettere l’indicizzazione di un file specifico. Per farlo ci basterà inserire la seguente istruzione: Allow: /immagini/foto2.png
Indice
Utilizzo dei Caratteri Speciali
Vediamo come utilizzare i caratteri speciali * e $:
- Se vogliamo escludere tutti i file pdf: Disallow: /*.pdf$
- Quindi tramite questa istruzione indichiamo che tutti i file che terminano con .pdf non devono essere indicizzati. Se vogliamo indicizzare un documento, come già detto nel punto precedente, inseriremo l’istruzione: Allow: /doc.pdf
- Potrebbe essere utile far evitare la scansione dei pdf quando il loro contenuto è identico a quello inserito tra i tag html, per il motore di ricerca verrebbero trattati come contenuti duplicati
- Questi caratteri speciali potrebbero essere utili quando vogliamo evitare di far indicizzare diverse cartelle con nomi simili.
- Es: immagini-on-page, immagini-off-page, in questo caso potremmo scrivere la regola: Disallow: /immagini*/
- Per bloccare tutti gli url che hanno al proprio interno il ?: Disallow: /*?
Quando lo spider consulta il sito va a consumare la banda del server, aumentando, quindi, il carico del server. Per non sovraccaricare la banda, possiamo limitare la frequenza di scansione da parte dello spider.
User-agent: bingbot
#5 indica i secondi tra una scansione e l’altra
Crawl-delay: 5
Se vuoi approfondire l’argomento ti consiglio di leggere il seguente articolo: crawl per bingbot
Per indicare le stesse istruzioni a Google dobbiamo:
- Accedere agli strumenti per web master –> impostazioni –> impostazioni sito
- “Limita velocità massima di scansione di google”
Google sconsiglia di abilitare questa funzione perchè potrebbe causare alcune problematiche nella scansione.
All’interno di questo file possiamo indicare anche la sitemap del sito, basterà indicare la seguente istruzione alla fine del file:
Sitemap: https://mdr.it/sitemap.xml
nel caso in cui il sito contenga più sitemap, basterà andare a capo e inserire le istruzioni:
Sitemap: https://mdr.it/sitemap.xml
Sitemap: https://mdr.it/sitemap2.xml
Se non sei un professionista ti sconsiglio di modificare i parametri presenti in questo file, oppure prima di modificare i parametri presenti nel file robots.txt di rivolgerti ad un seo specialist.
Problemi all’interno del file
Sulla base di quanto detto, posso pensare che venga bloccata la scansione dell’interno sito.
Analizzando le regole inserite all’interno del file sorgente, ci accorgiamo che davanti “UserAgent” c’è un carattere non standard.
Di conseguenza Google trovando questo carattere non standard invalida la lettura.
Quando può capitare?
Lavorando com un determinato editor testuale e caricando il file robots.txt, si potrebbe caricare un simbolo che invalidala riga.
Bloccando una risorsa con il robots.txt questa può comunque comparire nei risultati dei motori di ricerca, questo accade quando una risorsa è richiesta tantissime volte, quindi potrebbe comparire solo l’url: es: www.sito.it, oppure il link di ancoraggio se ne ha molti.