“correlaciÓn no implica causalidad” · cuando llueve es más probable que truene, pero no es...

8
“CORRELACIÓN NO IMPLICA CAUSALIDAD” Daniel Manzano Este artículo ha obtenido el primer premio del concurso DIPC de divulgación del evento Ciencia Jot Down 2016 Hay afirmaciones que no sólo son ciertas, sino que además son poderosas. Una de mis favoritas es sin duda: «Correlación no implica causalidad». En el mundo de los debates públicos, de las peleas en Twitter y los flames en Menéame siempre es útil contar con herramientas como esta. La frase en sí viene a significar que el hecho de que dos eventos se den habitualmente de manera consecutiva no implica que uno sea causa del otro. Así cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves envuelto en una discusión sobre, por ejemplo, si el modelo de educación finés es el ejemplo a seguir en España. No tienes ni idea de pedagogía, ni del modelo educativo español, ni del finés. Si fuera una discusión en un bar no pasaría nada, podrías decir que no te interesa, pero es en internet y ya se sabe lo que eso implica. En el cibermundo no vas a reconocer que no sabes de un tema. Tienes que discutir, y aún más importante, tienes que ganar. Tu oponente dialéctico está más preparado que tú. Te bombardea con datos y estudios sobre el informe PISA, sobre los distintos métodos pedagógicos y sobre muchas otras cosas que no te interesan. Da igual, porque tú estás curtido en mil ciberbatallas y sabes como contraatacar. Esperas un momento de descuido de tu oponente. Entonces te colocas bien el palillo que sujetas con los dientes y afirmas: «Todo eso está muy bien pero no demuestra nada, porque la correlación no implica causalidad». Ni siquiera importa si estás defendiendo el modelo finés o atacándolo. Cualquier dato que se te haya dado ha quedado refutado. Correlación no implica causalidad. El debate termina, y has ganado. ¿Pero tiene realmente este argumento una base sólida? No lo dudes, cualquier persona con conocimientos básicos de estadística te lo podrá confirmar. En cualquier caso vamos a indagar un poco más para que sepas usarlo correctamente. Para eso nada mejor que usar un par de ejemplos. El ejemplo más clásico es el de los piratas y el calentamiento global. Este se basa en un estudio desarrollado nada menos que por Bobby Henderson, el creador de la Iglesia pastafari. Su intención era combatir los argumentos de los creacionistas, un grupo muy

Upload: others

Post on 14-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

“CORRELACIÓN NO IMPLICA CAUSALIDAD”

Daniel Manzano

Este artículo ha obtenido el primer premio del concurso DIPC de divulgación del evento Ciencia Jot Down 2016

Hay afirmaciones que no sólo son ciertas, sino que además son poderosas. Una de mis

favoritas es sin duda: «Correlación no implica causalidad». En el mundo de los debates

públicos, de las peleas en Twitter y los flames en Menéame siempre es útil contar con

herramientas como esta. La frase en sí viene a significar que el hecho de que dos eventos

se den habitualmente de manera consecutiva no implica que uno sea causa del otro. Así

cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos.

Imagínate que por un giro del destino te ves envuelto en una discusión sobre, por ejemplo,

si el modelo de educación finés es el ejemplo a seguir en España. No tienes ni idea de

pedagogía, ni del modelo educativo español, ni del finés. Si fuera una discusión en un bar

no pasaría nada, podrías decir que no te interesa, pero es en internet y ya se sabe lo que

eso implica. En el cibermundo no vas a reconocer que no sabes de un tema. Tienes que

discutir, y aún más importante, tienes que ganar. Tu oponente dialéctico está más

preparado que tú. Te bombardea con datos y estudios sobre el informe PISA, sobre los

distintos métodos pedagógicos y sobre muchas otras cosas que no te interesan. Da igual,

porque tú estás curtido en mil ciberbatallas y sabes como contraatacar. Esperas un

momento de descuido de tu oponente. Entonces te colocas bien el palillo que sujetas con

los dientes y afirmas: «Todo eso está muy bien pero no demuestra nada, porque la

correlación no implica causalidad». Ni siquiera importa si estás defendiendo el modelo

finés o atacándolo. Cualquier dato que se te haya dado ha quedado refutado. Correlación

no implica causalidad. El debate termina, y has ganado.

¿Pero tiene realmente este argumento una base sólida? No lo dudes, cualquier persona

con conocimientos básicos de estadística te lo podrá confirmar. En cualquier caso vamos

a indagar un poco más para que sepas usarlo correctamente. Para eso nada mejor que usar

un par de ejemplos.

El ejemplo más clásico es el de los piratas y el calentamiento global. Este se basa en un

estudio desarrollado nada menos que por Bobby Henderson, el creador de la Iglesia

pastafari. Su intención era combatir los argumentos de los creacionistas, un grupo muy

Page 2: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

dado a encontrar correlaciones donde no las hay y a concluir que hay una causa detrás.

Casualmente la causa que siempre encuentran es la misma, Dios, causa que, de nuevo

casualmente, coincide con lo que estaban intentando demostrar a priori. Para ilustrar el

hecho de que dos fenómenos se den al mismo tiempo no implica que uno cause el otro

Henderson representó la temperatura global de la Tierra en función del número de piratas

en el mundo.

Pirates Vs Temp.svg: RedAndr / Osado (CC). Fuente: Wikipedia

Claramente se aprecia que a medida que el número de piratas se ha reducido la

temperatura de la atmósfera ha aumentado. Según los argumentos de los creacionistas, y

otros grupos favorables a encontrar causas donde no las hay, esto significaría que la

escasez de piratas es la verdadera causa del calentamiento global. No hay otra explicación.

Por este motivo los seguidores de la religión de Henderson se disfrazan de piratas en el

momento del culto, para combatir así el cambio climático.

Veamos otro ejemplo. La página web Spurious Correlations se dedica a buscar en

distintas bases de datos correlaciones absurdas entre series de datos. Uno de los más

populares es el que aparece en la siguiente gráfica, que representa a través de los años

tanto el número de ahogamientos en piscina producidos en los Estados Unidos como el

número de películas realizadas por Nicolas Cage.

Page 3: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

Fuente: tylervigen.com

La correlación es clara. Cuantas más películas hace el bueno de Nicolas más gente muere

ahogada. Lo mejor será que el pobre se retire y así ahorrará sufrimiento al mundo.

Dado que es difícil de creer que la gente se ahoge por culpa de Nicolas Cage, o que los

piratas determinen la temperatura global, podemos concluir que estas correlaciones no

implican que una cosa sea la causa de la otra. Veamos entonces la explicación canónica

a estas gráficas. Que dos fenómenos se den a la vez, o que uno preceda al otro, no implica

que uno sea la causa del otro. Aunque observamos una correlación entre A (películas de

Cage) y B (ahogamientos en piscina) eso no significa que las películas de Nicolas Cage

provoquen que la gente quiera morir de una manera agónica a la vez que refrescante (1).

¿Y si no es A la causa de B por qué se dan los dos fenómenos a la vez de forma repetida?

Bueno, en general si hay una fuerte correlación entre los fenómenos A y B tenemos cuatro

posibilidades:

1. Que A cause B (que los ahogamientos en piscinas hagan que el bueno de Nicolas quiera hacer más cine para animar a las familias).

2. Que B cause A (yo mismo estuve tentado de ahogarme después de ver La Búsqueda 2).

3. Que haya un tercer fenómeno, C, que provocara tanto A como B (es complicado imaginar alguno, pero a lo mejor el Orden Mundial conspira para reducir la población humana tanto mediante el ahogamiento como mediante el aburrimiento).

4. Puro y duro azar. Hay muchos datos en el mundo, así que si los comparamos todos más tarde o más temprano encontraremos este tipo de correlaciones que no significan nada.

Page 4: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

Este último punto es el más importante de todos, ya que no se puede demostrar que algo

no ha ocurrido por azar. Así que por muchos datos que te pongan sobre la mesa tú no lo

dudes. Ya tenemos una explicación sencilla y todo encaja. Las correlaciones no tienen

implicación ya que todo puede ser debido a la casualidad en lugar de a la causalidad. Así

que si alguien nos dice que el sistema educativo finés es el mejor porque puntúan muy

alto en PISA podemos callarlo con un firme y convencido «correlación no implica

causalidad».

Ya tenemos un arma dialéctica precisa y afinada, e incluso podemos ir más allá. Si

mañana nos levantamos y leemos la siguiente noticia en el periódico no nos pasará nada

Es evidente que ni las autoridades sanitarias ni el redactor del artículo tienen mucha idea

de matemáticas. Nosotros, que estamos armados con un conocimiento todopoderoso,

sabemos que no hay de que preocuparse. La correlación no implica causalidad. Lo mismo

son los yogures o lo mismo no lo son. Lo mejor será aprovechar para comprar esa marca

aprovechando la bajada de precios. Está claro que tenemos un caso de una fuerte

correlación. Todo el mundo que comió tal yogur murió. Mientras tanto el resto de

personas murieron a un ritmo normal. La correlación está fuera de duda.

Si algún alarmista viene a tocarnos las narices podemos usar el mismo argumento que

antes. Tenemos correlación entre el comer yogur y el morir, así que tenemos cuatro

posibilidades:

Page 5: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

1. Los yogures son los causantes de la muerte de las personas. 2. La muerte de las personas es causante de que se comiera antes el yogur. 3. Hay un fenómeno que es causa a la vez de las muertes y de que la gente coma

yogures. 4. Es una simple casualidad. La gente muere, la gente come yogures, ¿qué le vamos a

hacer?

La segunda y tercera posibilidad son bastante improbables. Es difícil de creer que las

muertes causen la ingesta de yogures o que existe un evento que provoque tanto el

consumo de yogures como la muerte de los que los consumen. Sin embargo, demostrar

que no es azar es difícil. La correlación es clara, pero nadie ha demostrado aún que los

yogures estén envenenados.

A estas alturas el avispado lector (o la avispada lectora) ya habrá intuido que este artículo

no es una defensa a ultranza de la frasecita de las narices. Seamos serios. Por mucho que

estemos convencidos de que la correlación no implica causalidad si mañana ocurre algo

así no nos lo plantearíamos ni por un instante. Los yogures están envenenados. No hay

otra posibilidad. Por supuesto que habrá que analizarlos para ver qué ha ocurrido, pero

mientras tanto todos actuaremos guiados por la certeza de que algo ha pasado.

Bryan Keith Lanier

«Man-O-War»

Page 6: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

¿Y qué diferencia este caso del caso de los piratas o de las piscinas? Lo primero es el

sentido común, que nos dice que es posible que unos yogures se envenenen, pero que es

mucho más difícil que el noble oficio de la piratería afecte al clima. Lo segundo es la

correlación en sí. Tenemos que tener en cuenta que no todas las correlaciones son iguales,

y que a partir de ellas podemos sacar muchas conclusiones. La correlación no es una

magnitud dicotómica. No es algo que se tiene o no se tiene, es algo que puede ser muy

grande, o muy pequeño.

Volviendo al escabroso ejemplo de los yogures. Además de saber que hay una

correlación, podemos estimar qué probabilidad hay de que ocurra algo así por casualidad.

Imaginad que vemos en la noticia que un 0.1% de la población española consumió el

citado yogur el día en cuestión. Eso hace unos 460 000 españoles muertos en un día. Este

dato contrastaría con la mortalidad en todo el año 2014, que fue de 395 830 personas

(según datos del INE). Ya el que ocurra algo así es absolutamente improbable. De hecho,

es lo que se suele denominar, estadísticamente imposible. Calcular la probabilidad de

que esto ocurra requiere hacer suposiciones sobre cómo se distribuye la mortalidad entre

la población, las edades de los consumidores de yogur y otros parámetros. Una estimación

muy conservadora me da el resultado de que la probabilidad es menor que una entre

1025(2) Es más probable encontrar algo de principio activo en una disolución homeopática

a que ocurra algo semejante por pura casualidad. Por eso podemos concluir que algo ha

ocurrido, aunque aún no hayamos analizado los yogures.

¿Y qué ocurre entonces con las piscinas y las películas de Nicolas Cage? Pues ocurre

simplemente que ahí la correlación no es tan grande. Ese es el quid de la cuestión y el

mensaje que me gustaría que os quedase después de leer este artículo. Correlación no

implica causalidad, es cierto, pero hay correlaciones más grandes que otras. Como ya

hemos dicho la correlación no es una magnitud binaria. No es tan simple como que exista

o no exista. Hay correlaciones pequeñas como la de las películas de Cage, y hay

correlaciones muy grandes como la del macabro ejemplo del yogur. En el ejemplo de las

piscinas la misma web que lo dio a conocer calcula la probabilidad de que sea azar, un

33.4%. Por supuesto ahí también hay suposiciones detrás, pero la manera de calcularlo es

bastante estándar. ¿Es un 33.4% una probabilidad muy baja? Pues dependerá de para qué.

Si tenemos en cuenta que los autores de la web analizan cientos de miles de cadenas de

datos lo improbable sería que no encontrasen ese tipo de correlaciones espurias.

Simplemente analizando el número de cadenas estudiadas y las correlaciones encontradas

se puede calcular la probabilidad de que sea puro azar o de que pueda tener una causa

más relevante.

Page 7: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

A esto precisamente se dedican algunos analistas especializados en Big Data. Analizan

cantidades ingentes de datos y buscan correlaciones que nadie espera. Después, se

dedican a analizar la probabilidad de que sea azar o no, y si no parece serlo lo analizan

con más profundidad. Puede que dos eventos en apariencia desconectados tengan una

relación causal demasiado difícil de apreciar a simple vista. Si encuentras este tipo de

correlaciones puede llegar a ganar mucho dinero, al ser capaz de predecir movimientos

de los mercados que nadie más puede ver.

AmBr0

«Nicolas Cage»

Nadie duda de que la correlación no implica causalidad. Científicos de todos los campos

dedican cantidades ingentes de tiempo a repetir experimentos para distinguir

correlaciones importantes de correlaciones espurias. Incluso se ha observado que muchos

experimentos científicos con grandes correlaciones tienen una probabilidad alta de ser

puramente casuales. Eso ocurre porque en el mundo se realizan muchos experimentos

continuamente. La probabilidad de que nunca se de una correlación espuria es realmente

baja y son precisamente las correlaciones inesperadas las que más interesan a la

comunidad científica. El único remedio para evitar esto es la repetición de los

experimentos. Sin embargo, todo esto no quiere decir que las correlaciones no tenga

relevancia, o que no sean indicativas de causalidad. Tenemos que saber distinguir entre

correlaciones más y menos probables. Tenemos que analizar cada caso cuantitativamente

Page 8: “CORRELACIÓN NO IMPLICA CAUSALIDAD” · cuando llueve es más probable que truene, pero no es la lluvia la que causa los truenos. Imagínate que por un giro del destino te ves

y averiguar cuál es la probabilidad de que un evento sea aleatorio para saber si debemos

indagar más o no.

Si nos molestamos en mirar los datos antes de aceptarlos o desecharlos aumentaremos

nuestro conocimiento del mundo. Si nos limitamos a desdeñar los datos que contradigan

nuestras ideas preconcebidas con una frase hecha a lo más que podemos aspirar es a ser

el más listo de Menéame. Lo primero es deseable. Lo segundo no es algo que uno deba

incluir en su currículum.

Nicole Tijoux

Notas

(1) Antes de que se me acuse de atacar a Nicolas Cage innecesariamente y empecemos

una discusión gafapasta sobre Leaving Las Vegas me gustaría contrargumentar con sólo

dos palabras: Ghost Rider.

(2) Un uno y veinticinco ceros detrás, o si lo preferís 1000000000000000000000000.