Le statistiche e gli stronzi: a new trend
Ci sono tre tipi di bugie: le bugie, le dannate bugie e le statistiche.
È una frase di Benjamin Franklin, che fa figo citare e sulla cui attendibilità, in realtà, rimando a un’accurata ricerca delle fonti, ma è utile per cominciare questo pezzo.
Che di statistica vuole parlare, più a livello epistemologico che empirico in senso stretto.
Quelli in cui viviamo sono tempi interessanti, innegabilmente, ammesso che ci siano mai stati tempi che, per chi li ha vissuti, non siano sembrati portatori di radicali trasformazioni e, dunque, percepiti come speciali.
Oggi parliamo in massa, chi più chi meno, di politiche evidence based, di big data analytics, di rivoluzione dell’informazione, di data journalism.
Che ci piaccia o meno, il dato è diventato la cifra, letteralmente, della nostra esistenza, ed è giusto che sia così. Quando, però, si genera una necessità (in questo caso, quella di saper interpretare i numeri), non è detto che le competenze richieste si diffondano e si distribuiscano con altrettanta velocità.
Ecco, dunque, il proliferare da un lato di complottisti cialtroni, che piegano i numeri ai loro interessi, tetragoni a ogni fact checking (non ce ne voglia, ma il presidente degli Stati Uniti è un produttore seriale di fake numbers); e di profeti del numero, dall’altro lato, altrettanto pericolosi, che si ergono ad alfieri di un nuovo modo di fare informazione, rigoroso dal punto di vista metodologico e robusto empiricamente.
Spero tanto di non fare parte della seconda schiera, visto che mi capita spesso di cercare di spiegare fatti che abbiano a che fare con i numeri.
In ogni caso, scrivo questo post perché mi sono imbattuto nello speech prima e nella pagina web, poi, di una donna che, finalmente, merita a mio modo di vedere al cento per cento il titolo di data journalist: ed è una delle prime volte che lo scrivo con il sorriso dei giusti.
Lei si chiama Mona Chalabi e il suo curriculum parla da solo: data editor al Guardian, ha collaborato con FiveThirtyEight e l’Economist Intelligence Unit. Più di ogni titolo, tuttavia, valga per lei quella che mi piace definire un’umile luccicanza.
È una persona, infatti, che fa dell’onestà intellettuale il suo mantra e che ha la grande capacità di far visualizzare alle persone un’informazione statistica in modo corretto.
Quello che ci rende un po’ allergici alla statistica, al di là del fatto di conoscerne o meno le regole, è infatti qualcosa che va più a monte e rappresenta, più o meno universalmente, noi esseri umani: la tendenza a trovare giustificazioni e spiegazioni che mettano in relazione un fenomeno con un altro.
Si è già parlato, forse pure troppo, della necessità di distinguere correlazione da causalità: qui il messaggio dev’essere dunque ancora più radicale.
È ora di fare i conti con la nostra capacità di accettare e visualizzare l’incertezza come dimensione quotidiana dell’esistenza. La statistica, infatti, di casa abita proprio lì e noi, invece, procediamo imperturbabili a semplificare o generalizzare, con conseguenze spesso nefaste sulla lettura della realtà.
Lo spunto di questo articolo nasce proprio da una metafora splendida utilizzata dalla stessa Mona per descrivere questo nostro corto circuito.
E tale metafora concerne le statistiche della cacca (no joking).
Negli Stati Uniti, qualche tempo fa, è stata diffusa una notizia, proveniente da una fonte autorevole (il CDC, che sarebbe il Center for Disease Control and Prevention, mica Topolino), in base alla quale, in media, le piscine americane contengono 6.23 stronzi (nel senso di feci).
Ecco, noi come leggiamo o siamo portati a leggere questa statistica?
La media è uno strumento utilissimo, ma spesso fuorviante nel farci visualizzare un dato fenomeno.
Nella fattispecie, dunque, Mona si è presa la briga di andare a investigare lo studio specifico e ricostruire, per le 47 strutture oggetto di investigazione, quale fosse la reale distribuzione di stronzi, riportata dalla figura seguente:
Come potete ben vedere, dire che in media una piscina contiene 6.23 stronzi non per forza significa che tutte le piscine contengono 6.23 escrementi frutto di una digestione più o meno sana.
Mona Chalabi, e i giornalisti che abbiano qualche dimistichezza di metodi quantitativi con lei, sono persone capaci che parlano di dati in modo intelligente ed efficace.
Il data journalism, quindi, è senz’altro una forma di informazione sempre più importante e che, davvero, riporta in auge il significato etimologico di statistica (informazioni al servizio dello stato, nel più alto senso che si possa dare allo stesso e all’idea di politica).
Non bisogna mai perdere di vista, però, l’obiettivo e la semplice verità di un fatto: un mestiere richiede passione e competenza per essere fatto con cura.
Perché le statistiche di merda restano sempre a galla.
2 Commenti
Devi fare per commentare, è semplice e veloce.
Sarebbe già un bel passo avanti se i sondaggi che vengono commentati e pubblicati riportassero il margine di errore (sempre specificato dalla fonte); allora ci si renderebbe conto che la gran parte dei sondaggisti (e soprattutto de commentatori) agiscono in base al principio “if you torture the data long enough, it will confess to anything” (D.Huff)
Sarebbe già un bel passo avanti se i sondaggi che vengono commentati e pubblicati riportassero il margine di errore (sempre specificato dalla fonte); allora ci si renderebbe conto che la gran parte dei sondaggisti (e soprattutto de commentatori) agiscono in base al principio “if you torture the data long enough, it will confess to anything” (D.Huff)