
Nella nostra analisi dei paradossi oggi ci intratteniamo sul Paradosso di Simpson, o meglio di Yule-Simpson, visto che fu George Udny Yule a descriverlo nel 1903 e Edward Hugh Simpson a pubblicarne una trattazione più completa nel 1951.
Molto spesso, quando si tratta di interpretare i risultati di un'analisi statistica, è facilissimo incorrere in questo paradosso, per cui occorre fare sempre molta attenzione.
I concetti di probabilità, di evento possibile, evento impossibile, evento certo, evento più probabile di un altro, sono molto comuni: ne richiamiamo velocemente le definizioni statistiche.
La probabilità che si verifichi un evento è la misura quantitativa espressa con un numero reale rappresentato dal rapporto tra il numero di casi favorevoli rispetto a quello dei casi possibili che un certo evento si verifichi, a prescindere dalla sua natura, ed è sempre compreso tra 0 e 1. L'evento certo ha probabilità 1, quello impossibile 0, e tutti gli eventi probabili hanno probabilità compresa tra 0 e 1. Si dice che un evento ha probabilità di verificarsi del 50% quando la sua probabilità è 0.5: per esempio lanciando una moneta “normale” (cioè non truccata) la probabilità che esca “testa” è del 50%, così come quella che esca “croce”, mentre la probabilità che esca “testa o croce” è del 100%; la probabilità che esca “qualsiasi altro risultato” è 0 (tra virgolette l'evento da valutare).
Se l'evento da valutare, che si definisce aleatorio, ha un numero finito o numerabile di casi, si definisce discreto; se invece il numero di eventi è infinito con una potenza almeno pari al continuo, si dice che l'evento è continuo. La definizione di probabilità come rapporto tra numeri favorevoli e possibili vale in caso di evento aleatorio discreto, mentre nel caso continuo occorrerà introdurre una teoria assiomatica della probabilità che ci porta a definire la probabilità come un rapporto tra due integrali, che ha le stesse caratteristiche del caso discreto.
Facendo un altro esempio di evento aleatorio discreto, lanciando un dado regolare a sei facce e applicando la definizione citata avremo che la probabilità che “esca 2” è 1/6, quella che “esca un numero pari” è 1/2, quella che “esca un numero inferiore o uguale a 4” è 2/3, quella che “non esca 3” è 5/6, e così via.
È evidente, quindi, che se A e B sono due eventi con probabilità p(A) e p(B), con p(A) > p(B), allora l'evento A è più probabile dell'evento B, cioè è più probabile che si verifichi l'evento A rispetto all'evento B.
Fin qui tutto abbastanza evidente. Per analizzare il paradosso di Simpson vediamo il seguente problema: in una stanza (chiamiamola 1) ci siano due scatole, una rossa e una verde: nella rossa ci sono 90 calzini blu e 10 neri, nella verde 720 calzini blu e 180 neri. In un'altra stanza (2) ci sono altre due scatole, rossa e verde: nella rossa ci sono 160 calzini blu e 640 neri, nella verde 20 blu e 180 neri. Siamo appassionati di calzini blu. Nella stanza 1, prendendo un calzino dalla scatola rossa abbiamo il 90% (90/(90+10)=90/100=0.9) di prenderlo blu, mentre dalla verde la stessa probabilità è l'80% (720/(720+180)=720/900 = 0.8). Nella stanza 2 le due probabilità di prendere un calzino blu sono il 20% (160/(160+640)=160/800=20%) e il 10% (20/(20+180)=20/200=10%). Quindi è evidente che sia nella stanza 1 che nella stanza 2, se si vuole estrarre un calzino blu, conviene prenderlo dalla scatola rossa perché la probabilità è maggiore.
Bene, adesso prendiamo il contenuto della due scatole rosse e mettiamolo in una scatola rossa più grande, in cui ci saranno 250 calzini blu (90 + 160) e 650 neri (10 + 640); facciamo lo stesso con le due scatole verdi e rovesciamo il contenuto in una scatola verde più grande, in cui ci saranno 740 calzini blu (720+20) e 360 neri (180+180). Visto che nelle due stanze precedenti conveniva prendere il calzino da una delle scatole rosse, proviamo a prendere di nuovo il calzino dalla scatola rossa: e qui c'è il paradosso, perché adesso la probabilità di estrarre un calzino blu dalla scatola rossa è poco meno del 28% (250/(250+650)=250/900=27.78%), mentre estrarlo dalla scatola verde più grande ha una probabilità maggiore del 67% (740/(740+360)=740/1100=67,27%). Come è possibile che due eventi separati danno un esito e messi insieme il risultato opposto? Ecco un esempio del paradosso di Simpson.
Nel caso citato i numeri parlano chiaro, ma la spiegazione del perché si verifichi è che non si possono mescolare insiemi di risultati senza tener conto di come quegli insiemi sono costituiti. Nelle due stanze le percentuali sono simili, ma i numeri sono nettamente differenti, e questo porta ad andare verso una strada sbagliata: è scorretto mettere insieme gruppi eterogenei per dimensione perché i risultati che si ottengono possono essere interpretati male.
Ecco perché quando si testa un nuovo farmaco si cerca di utilizzare sempre gruppi di persone che rappresentino la società nella stessa maniera, altrimenti si può incorrere in quello che si chiama bias (traducibile in pregiudizio) che altera in maniera effettiva il risultato. La prova di questo è presto data: provate adesso a sostituire nell'esempio indicato le stanze “1” e “2” con “persone giovani” e “persone anziane”, le scatole “rosse” e “verdi” con “persone cui è stato dato il farmaco nuovo” e “persone cui è stato dato un placebo”, i calzini “blu” e “neri” con “persone guarite” e “persone non guarite”; sembra che il farmaco nuovo sia efficace sia nel gruppo dei giovani (perché guarisce il 90% dei giovani trattati col farmaco nuovo contro l'80% di quelli trattati col placebo) che nel gruppo degli anziani (le percentuali scendono al 20% e al 10%, rispettivamente), mentre considerando i due gruppi insieme il farmaco risulterebbe addirittura dannoso per tutti (il 28% di guarigione contro il 67% di persone guarite col placebo): un farmaco che funziona bene per giovani e anziani separatamente, ma è dannoso per giovani e anziani presi insieme!
La risposta è che occorre sempre creare dei gruppi di analisi che siano simili, per composizione, ai gruppi cui si vuole applicare il risultato dell'analisi, tenendo conto di tutte le variabili che possono avere un ruolo nell'evento da valutare: nel caso del farmaco l'età gioca un ruolo, ma anche il sesso, la presenza di malattie pregresse, tutte variabili di cui si dovrà tener conto per creare dei gruppi di analisi il più possibile simili alla società.
La ricerca di bias nelle analisi statistiche è molto difficile: è per questo che è molto complicato prevedere gli effetti delle nostre ricerche.
Un altro ambito soggetto a bias è quello dei voti elettorali: nei paesi anglosassoni funzionano abbastanza bene, in quelli latini molto peggio, tanto è vero che gli exit poll in USA sono molto aderenti alla realtà, mentre in Italia funzionano ancora abbastanza male; in questo caso il bias è che negli USA le persone non hanno alcun problema a dire per chi hanno votato, mentre in Italia è molto difficile che le persone siano sincere quando ripetono il voto nei seggi per l'exit poll. Le tecniche si affinano: vengono individuati sezioni elettorali i cui risultati rispecchiano quelli generali (i cosiddetti “seggi campione”) e il loro peso viene reso maggiore rispetto a quello di altre sezioni, ma la possibilità di errore resta comunque presente (ecco perché si parla di “forchette”, cioè di intervalli di confidenza, in cui inserire i risultati ottenuti).
Dobbiamo imparare a fare bene le analisi statistiche, ma soprattutto dobbiamo imparare a interpretare bene i risultati, se non vogliamo che il nostro pregiudizio alteri i risultati e ci induca in errore.
Enrico Cirillo
-----------------------------
-----------------------------
Se sei giunto fin qui vuol dire che l'articolo potrebbe esserti piaciuto.
Usiamo i social in maniera costruttiva.
Condividi l'articolo.
Condividi la cultura.
Grazie