Cosa è file robots.txt e Come funziona file robots.txt

Sei venuto a conoscenza dell’esistenza di un file chiamato robots.txt? magari lo hai letto in google search console ? Ora sei curioso e ti chiedi cosa è file robots.txt e come funziona file robots.txt ?Bene, non ti scoraggiare , anche se ti ritrovi con qualche pagina bloccata dal file robots.txt , vediamo con calma di cosa si tratta e di come funziona il file robots.txt !

Alle volte, in molti pur di crearsi da soli un sito web oppure per farsi sviluppare un sito web da mani inesperte si ritrovano poi a non aver considerato alcuni aspetti importanti del sito web.

Uno di questi è il file robots.txt che può causare problemi e bloccare l’indicizzazione delle pagine sui motori di ricerca, ma vediamo in dettaglio cosa è il file robots.txt e come funziona il file robots.txt

Definizione del file robots.txt

Con il termine robots.txt si intende un file di testo, puro e semplice che viene inserito nella root del sito web quindi ad esempio : ” www.sitoweb.com/robots.txt ” .

Il file robots.txt viene usato per comunicare con i motori di ricerca, in pratica permette di far leggere hai crawler dei motori di ricerca , tutte le pagine del proprio sito web.

Rispetto al meta tag che ci permette di descrivere solo la singola pagina, il file robots.txt, permette di scansionare l’intero sito.

Come funziona il file robots.txt

Con il robots.txt puoi dare direttive sull’accesso rispetto a determinate cartelle o risorse.

Per la precisione puoi limitare l’attenzione del crawler, lo stesso Google suggerisce che le istruzioni inserite in questo file non sono obbligatorie per tutti e in ogni situazione.

Ma qual è l’applicazione concreta di questo strumento? Attraverso le indicazioni lasciate nel robots.txt, ad esempio, puoi suggerire a uno spider (non per forza a tutti, magari solo a quello di Google) di non entrare in una determinata cartella. O di non indicizzare una pagina.

Vediamo in dettaglia alcuni esempi per scrivere un file robots.txt

Come scrivere file robots.txt

Quando vai a scrivere il file robots.txt stiamo rivolgendo i nostri comandi ai motori di ricerca.

La prima cosa che devi sapere è che s’inizia sempre a scrivere questo file andando a definire un “user-agent“. Questa dicitura non è altro che il nome del robot che visita il nostro sito web .

Inoltre inseriamo l’asterisco all’inizio per indicare che il comando è rivolto a tutti.

Con disallow si intende non consentire l’accesso: questo punto può essere ripetuto ogni volta che si vuole limitare l’accesso a una risorsa. 

Ricorda inoltre lo slash , con l’inserimento dello slash permetti di bloccare il nome del file o della cartella , oppure dell’intero sito web.

Esempio file robots.txt che consente accesso

User-Agent: * 
Disallow:

Nell’esmpio , non abbiamo messo lo slash e in questo modo abbiamo permesso l’accesso a tutti i robot grazie all’asterisco.

Esempio file robots.txt bloccato

User-agent: * 
Disallow: /cartella_con_file_privati/
Disallow: /cartella_pubblica/file_privato.html


User-agent: bingbot
Disallow: /non-per-bing/

Come vedi nei due esempio abbiamo bloccato nel primo le due cartelle e nel secondo il motore di ricerca bing.

Come verificare file robots.txt

Ora che hai inserito il file robots.txt all’interno del tuo sito web, è arrivato il momento di andarlo a verificare tramite lo strumento per webmaster di Google, ovvero il “Google WebMaster Tool“.

Una volta che avrai effettuato l’accesso, clicca sul menu di sinistra e vai alla voce “Scansione > Tester dei file robots.txt“.

Ricordati che ci sono anche altre operazioni che possiamo effettuare con il file robots.txt , noi abbiamo visto le più comuni, se tu non sei sicuro di quello che fai con questo file, affidati ad un esperto , non rischiare di bloccare il tuo sito web.