L’evoluzione del ranking, dalla pagina all’autore

Sin da quando esiste il Web, la natura stessa della sua configurazione ha reso necessaria l’esistenza e la creazione di strumenti capaci di poterlo scandagliare in maniera efficace e completa. I primi search-engine basavano la loro funzionalità su alcuni aspetti fondamentali come:

  • Categorie: nei primi anni il numero di siti non era così esorbitante come ora, pertanto una buona e profonda suddivisione in categorie poteva dare all’utente un utile servizio di “ordinamento” del Web. Alcuni dei primi motori di ricerca erano a tutti gli effetti delle directory (Yahoo!).
  • Keywords e rilevanza: i crawler utilizzati dagli engine per ispezionare il Web carpivano solo una parte delle informazioni fornite dalle pagine (meta-data). Era pertanto fondamentale, nell’ottica SEO, far indicizzare i propri siti per le keywords desiderate, non sempre effettivamente le più rilevanti in relazione alle query immesse. L’introduzione dei primi motori di full-text search (WebCrawler, nel 1994), in grado quindi di scandagliare e archiviare l’intero contenuto delle pagine, non mutò di molto questa tendenza.
  • Performance: in un’epoca dove la capacità di calcolo era ancora limitata, fornire un servizio di ricerca efficace ma soprattutto rapido (Altavista), faceva tutta la differenza del mondo.

PageRank, la svolta di Google – In un contesto storico del genere, dove c’era ancora molto su cui lavorare? Sul ranking, ovvero i criteri, indipendenti dalla rilevanza della query, con cui ordinare le SERP da presentare agli utenti. Due giovani studenti di Stanford, Larry Page e Sergei Brin, ispirati da alcuni lavori accademici di quegli anni (l’HITS Algorithm di Jon Kleinberg, ad esempio), elaborarono nel 1998 il loro modello di algoritmo per la link analysis, qualcosa di molto simile a quanto avviene nel mondo della letteratura accademica e delle citazioni nei paper.

Il World Wide Web viene dunque visto come un enorme insieme di nodi (le pagine), collegati tra loro da tante “ancore” (i link, appunto), che si possono distinguere tra quelle in uscita (outbound) o quelle in ingresso (inbound o backlinks). Il PageRank si occupa dunque di calcolare la link popularity delle pagine del Web, operando le seguenti assunzioni:

  • I link multipli provenienti dalla stessa pagina vengono ignorati
  • I link di una pagina verso se stessa vengono ignorati
  • Il peso iniziale di ogni singola pagina è supposto pari a uno oppure, nella versione normalizzata probabilistica, ad una frazione la cui somma totale (quindi il Web) sia pari a uno

Senza entrare troppo nella parte più matematica e statistica di questo lavoro, che potete trovare qui, in sintesi ogni pagina “dona” una frazione del proprio PageRank (diviso per il numero di link in uscita della pagina stessa) alla pagina che referenzia. Il “peso” della citazione è quindi modulato dalla popolarità stessa di chi ti cita. Questo tipo d’approccio, mutuato proprio dal mondo accademico (più un articolo è citato da altri articoli, più è autorevole) ha consentito al motore nato su questa base, Google, di divenire in breve tempo il leader di mercato.

La forza iniziale di Google è stata proprio quella di fornire risultati rilevanti e utili in cima alla SERP, limitando di molto la navigazione degli utenti verso le pagine successive dei risultati. La forte evoluzione del settore ha portato poi Google ad introdurre una miriade di altri fattori per ordinare i risultati, ma il PageRank è comunque rimasto un’ottima base da cui partire.

TrustRank e la lotta allo spam – Come ogni attività umana, anche il Web si è trasformato presto in un business, con la differenza che era assai più accessibile a chiunque. Le possibilità offerte dall’algoritmo di PageRank erano quelle di far salire nelle ricerche pagine anche prive di un valore intrinseco, ma appropriatamente linkate mediante i cosiddetti fenomeni di scambio link tra webmaster, o addirittura la costituzione di siti-fantasma con il solo scopo di ospitare link in uscita, chiaramente pagati dai beneficiari.

Le contro-soluzioni apportate da Google per combattere il fenomeno furono molteplici, citiamo le più importanti attuate soprattutto a metà degli Anni Zero:

  • L’introduzione del parametro “rel=nofollow” nei link, grazie al quale non avviene il “voto”, utile per combattere l’inflazionamento del PageRank operato mediante link provenienti da message-board pubbliche.
  • L’utilizzo di lavoro editoriale umano sulla qualità delle ricerche, i cosiddetti quality rater, per cogliere le pagine che utilizzavano tecniche di spam per scalare le SERP.

Tra le tante iniziative sviluppatesi in quel periodo, la più nota è stata però la definizione del cosiddetto TrustRank, un algoritmo pensato da un gruppo di ricercatori di Stanford sotto l’egida di Yahoo! e dettagliato in questo paper.

Alcune assunzioni fondamentali dietro a quest’algoritmo comprendono:

  • L’unico modo infallibile per riconoscere una pagina spam è mediante l’interazione umana
  • Le pagine di qualità linkano altre pagine di qualità
  • Le pagine spam vengono solitamente linkate da altre pagine spam

Il TrustRank operativamente consiste quindi nel prendere delle pagine “seme” (un campione del Web selezionato umanamente) come punto di partenza per effettuare il voting di tutto l’indice del motore di ricerca. Implementato (e brevettato) da Google a partire dal 2005, il TrustRank ha affiancato il PageRank nella batteria di algoritmi che alimentano le SERP.

AuthorRank e l’evoluzione “social” – Passano gli anni, e Internet è sempre più social, inteso non solo nel senso dei vari Facebook o Twitter, ma anche come modo di fruire e vivere il Web. Google si sta muovendo con decisione in questa direzione, non solo grazie alla promozione del proprio social network Plus, ma soprattutto integrando i risultati personalizzati in base al profilo e alle “cerchie” dei propri  utenti, chiaramente nel caso si tratti di ricerche effettuate utilizzando degli account Google.

In un mondo dove l’interazione (e la connessione) si sta rapidamente trasferendo dagli hyperlink alle relazioni, l’autorevolezza non è più soltanto una qualità legata alla pagine, ma è sempre più originata dal produttore dei contenuti, ovvero l’autore. In un brevetto del 2005, Google chiarisce le linee guida del cosiddetto AgentRank, per tutti ribattezzato popolarmente AuthorRank:

  • Le valutazioni della ricerca possono essere influenzate dall’identificazione dell’autore dei contenuti listati nelle SERP.
  • L’autore può essere identificato in correlazione con il contenuto, e discriminato da altre porzioni di testo all’interno della stessa pagina; allo stesso modo, l’autore può essere correlato al medesimo contenuto presente in varie destinazioni
  • L’autorevolezza dell’autore, e di conseguenza il ranking dei suoi contenuti, è calcolata in base ai feedback (risposte, commenti, link) ricevuti sui propri contenuti
  • L’autorevolezza di un autore non è “assoluta”, ma dipende fortemente dall’argomento (Topical AuthorRank)

Una teoria affascinante, ma che non ha trovato applicazione pratica fino all’ultimo anno solare, con l’introduzione di una serie di strumenti come:

  • Il sistema di voting dei contenuti, ovvero il famigerato pulsante “+1”
  • Google Plus con i suoi profili utente evoluti, dotati di link alle pagine a cui si contribuisce
  • I tag rel=author e rel=me, che consente di legare biunivocamente i contenuti al profilo dell’autore ed alla sua scheda

L’AuthorRank sposta decisamente il tema del ranking su di un piano più “personale”, in una maniera tale che la lotta allo spam potrebbe arrivare ad una svolta. Non sarà facile guadagnarsi una “reputazione”, ma sarà molto facile perderla. E stavolta non sarà una perdita anonima, ma strettamente correlata con la nostra identità.

Conteranno tanti fattori che chiunque si potrebbe attendere da un coefficiente del genere, come:

  • Numero di condivisioni del contenuto
  • Chi l’ha condiviso, e se è solito condividere tuoi contenuti
  • Dove l’ha condiviso
  • Chi e quanti l’hanno commentato
  • …..

e così via. Per il resto, si tratta di un’evoluzione bizzarra, quasi impensabile per i pionieri del Web: l’avevano (e noi con loro) immaginato infinito, globale, in due parole “world wide”. Eppure, sta diventando sempre più locale, sempre più limitato alle proprie cerchie, sempre più…a misura d’utente.

Vuoi ricevere i nuovi post via mail?
I post della settimana, ogni venerdì alle 9, più qualche sporadica lettera.
Rispetteremo la tua privacy.