Google Analytics, come filtrare il traffico dei bot

Il titolo di questo post dovrebbe farvi sobbalzare sulla sedia: non è forse vero che uno dei più “comodi” vantaggi delle soluzioni client-side (come Google Analytics) è proprio quello di non far visualizzare le visite dei bot, a differenza di soluzioni server-side come la lettura dei log file del web-server? Non è proprio così, visto che in molti casi è stata riscontrata la presenza, all’interno delle statistiche, di “traffico diretto” non umano, generato da visite dei crawler di vari prodotti di ricerca, come Bing.

E’ inutile puntualizzare quanto questo fenomeno infici negativamente sulle vostre analisi, e sulle conseguenti strategie o scelte che vi troverete a pianificare per il vostro progetto. E’ pertanto fondamentale avere in mano un metodo in grado di identificare univocamente la presenza di questo problema (non capita a tutti, per fortuna), e che al tempo stesso riesca ad ovviarlo.

Individuare il traffico bot

Per prima cosa entrate nel vostro account di Google Analytics, selezionate il sito e poi scegliete la sezione Audience -> Technology -> Browsers & OS. Qui troverete la lista di tutte le visite raggruppate per web-browser utilizzato. Il tipo da tenere sott’occhio è Mozilla Compatible Agent.

Google-Analytics-mozilla-compatible-agent

Ovviamente, non tutte le visite provenienti da l’agent di Mozilla sono dei bot, ma un numero insolitamente alto (come quello indicato in figura) può far suonare un campanello d’allarme che vi porterà a compiere altri approfondimenti.

A questo punto recatevi nel report posizionato su Audience -> Technology -> Network e applicategli questo segmento avanzato, che vi permetterà di filtrare soltanto le visite provenienti da browser compatibili Mozilla.

Prestate particolare attenzione ai seguenti service provider:

  • microsoft corp
  • google inc.
  • yahoo! inc.
  • inktomi corporation
  • stumbleupon inc.

Date anche peso alle altre metriche: le visite dei bot solitamente sono al 100% nuove visite con il 100% di frequenza di rimbalzo, una pagina per visita e 0 secondi di tempo trascorso.

Filtrare il traffico bot

Una volta avuta la certezza di avere ospiti “indesiderati”, potete applicare un filtro (basato sugli ISP) che ve li escluda dai dati di Google Analytics. Il filtro sarà come segue:

google-analytics-exclude-smart-bots

L’espressione regolare da usare è la seguente:

^(microsoft corp|inktomi corporation|yahoo! inc\.|google inc\.|stumbleupon inc\.)$|gomez

con la quale vi proteggerete dai principali bot. Se vi siete accorti della presenza di altri bot, potete accodarli tranquillamente al filtro di cui sopra. Come potrete immaginare, questo filtro si applicherà a tutti i dati nuovi, pertanto lo storico resterà “inquinato”, a meno che non vi creiate un nuovo segmento avanzato, oppure vi applichiate questo.

Non è finita qui

Nel caso in cui il vostro sito sia oggetto di un numero elevato di visite (oltre 250000 per data range applicato), sarete sicuramente soggetti al fenomeno del “campionamento” da parte di Google Analytics. Il tool di Big G applica il sampling a livello della web property, quindi prima che il vostro filtro faccia effetto, pertanto finirà comunque per drogarvi i risultati visualizzati sui report.

A questo punto è necessario un intervento ad alto livello sul tracking code di Google Analytics, per il quale è necessaria una soluzione “ad hoc” da studiare con un professionista del settore.

Questo post è stato tradotto e adattato dall’originale pubblicato su LunaMetrics.

Vuoi ricevere i nuovi post via mail?
I post della settimana, ogni venerdì alle 9, più qualche sporadica lettera.
Rispetteremo la tua privacy.