Martedì, 26 Gennaio 2016 11:41

Joomla: immagini non indicizzate? Il crawler di Google visualizza il tuo sito in modo errato?

Premessa: cos'è il "robots.txt"?

E' un piccolo file di testo che Joomla mette nella root del vostro sito (la cartella principale, dove c'è la cartella administrator, la cartella modules, la cartella templates, ecc...).

La sua funzione (spiegata per filo e per segno qui) è quella di moderare e gestire i crawler, ossia quei programmi automatici che girano per la rete e la indicizzano... proprio come il famoso crawler di Google che ogni giorno si gira migliata di siti e li indicizza uno a uno.

A cosa serve esattamente?

Il robots.txt è semplicemente un elenco di cartelle (detto in modo semplicistico) dove il crawler non può entrare, quindi il contenuto di quelle cartelle non sarà indicizzato.

Esempio, il robots.txt di Joomla è questo:

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Come è facilmente intuibile il mio robots sta dicendo al crawler di non entrare nelle cartelle di sistema, giustamente.

Quindi? Dov'è il problema?

Il problema è che in quell'elenco ci sono cartelle che invece DEVONO essere indicizzate! Una su tutte la cartella /images/

Questo file robots.txt impedisce a Google di indicizzare tutte le immagini presenti sul vostro sito, cosa GRAVISSIMA!

Infatti se lasciamo il file robots così com'è e cerchiamo su internet un'immagine presente in una nostra gallery o in un nostro articolo non la troveremmo mai, perchè noi stessi gli abbiamo impedito di finire nell'indice dei crawlers.

Tragedia!! Come risolvo!?

La risposta, per fortuna, è estremamente semplice:

  1. Andate nella root del vostro sito con un programma FTP, tipo FileZilla
  2. Scaricate sul vostro desktop il file robots.txt
  3. Apritelo con un editor di testo qualsiasi (anche blocco note)
  4. Cancellate la riga "Disallow: /images/"
  5. Opzionale: se per caso avete inserito immagini importanti direttamente nel template dovete cancellare anche la riga "Disallow: /templates/"
  6. Salvate il vostro nuovo robots.txt
  7. Rispeditelo sul vostro server sempre con il programma FTP

Et voilà! Le nostre immagini saranno ora perfettamente indicizzabili da Google

 

Fatto! Altri consigli prima di chiudere questa utilissima guida?

Si, nel robots.txt puoi indicare anche la sitemap XML del tuo sito! E questo aiuta parecchio in termini di SEO e indicizzazione.

Come puoi creare una buona sitemap del tuo sito? Semplice, installa l'utilissimo componente di Joomla OSMap (per i veterani è una fork del famoso XMap, che non è più supportato): ti creererà automaticamente una sitemap XML e ti dirà l'indirizzo web da inserire nel tuo robots.txt

 

Ok, inserite anche la sitemap... come faccio a vedere se il mio robots.txt è ok?

Due modi:

1. Usa il tester ROBOTS.TXT di Google, che trovi qui.

2. Usa il test di compatibilità con dispositivi mobili sempre di Google, che trovi qui. Dopo l'analisi, in basso, avrete uno "screenshot" di cosa il crawler di google vede nel vostro sito.. se c'è solo testo e niente immagini allora vuol dire che le vostre immagini non sono indicizzate... se invece vede le immagini correttamente vuol dire che avete settato correttamente il vostro robots.txt

Robots.txt configurato male:

Robots.txt configurato bene:

Letto 2780 volte