Gracias infinitas, señor McElreath
Los últimos años han marcado un cambio bastante profundo en mi vida laboral.
Desde que me gradué de la universidad en el año 2003, casi que la totalidad de mi vida laboral la he dedicado a trabajos relacionados a temas ambientales. Dada la falta de oportunidades laborales en temas ambientales que ha pasado el país estos últimos años, me atreví a dar un giro y montarme en la ola de esa reciente "moda" corporativa (y hasta el momento bien pagada) de la muy entre comillas "ciencia" de datos.
A pesar de que ya tenía varios años de experiencia en los temas relacionados a modelos predictivos y programación en análisis y visualización de datos, para lograr acoplarme al nuevo rol tuve que ponerme al día en muchas herramientas y técnicas que han tomado notoriedad en los últimos años. Una de estas técnicas que resultaron nuevas para mí y que me han tenido plenamente fascinado es la inferencia bayesiana.
Ahora, ¿qué es esto de inferencia bayesiana? Para decirlo tengo que mencionar que el campo de la estadística se podría agrupar en dos grandes vertientes. En primer lugar tenemos la llamada estadística "clásica" o frecuentista, que tuvo gran trascendencia durante el siglo XX y está fundamentada en gran parte por los aportes del gran y peculiar Sir Ronald Fisher, sus diseños de experimentos y abordaje de sus análisis. Por otro lado tenemos la llamada estadística bayesiana, con una larga historia que inició a finales del siglo XVIII y fundamentada en gran parte por el llamado teorema de Bayes y los aportes iniciales de Pierre-Simon Laplace. Durante el siglo XX los partidarios de ambos grupos tomaron posiciones antagonistas y, en gran parte por la monumental influencia de Fisher y Jerzy Neyman (entre muchísimos otros), la estadística bayesiana pasó a un muy pequeño 2ndo plano hasta casi finales de siglo.
¿Y qué diferencia a estas dos ramas de la estadística?. La respuesta corta y sencilla es que ambas tienen interpretaciones muy distintas del significado de probabilidad. Por un lado, la estadística "clásica" define probabilidad como la proporción que tiene una clase de evento en una serie de observaciones, mientras que en estadística bayesiana la probabilidad se define como la incertidumbre que tenemos sobre algún fenómeno.
Estas dos interpretaciones de probabilidad, con diferencias que pueden parecer triviales, trascienden los simples cálculos numéricos y son capaces de adentrarnos en discusiones profundas sobre la filosofía de la ciencia e inclusive sobre la naturaleza de nuestro universo. La manzana de la discordia entre ambos grupos académicos, principalmente durante mediados del siglo pasado, fue la supuesta subjetividad que permite el enfoque bayesiano dentro del análisis de los datos.
Gracias al aumento del poder computacional y la transparencia que permite el enfoque bayesiano, además de demostrarse su gran utilidad fuera de la academia (investigación de operaciones, por ejemplo), la inferencia bayesiana ha tenido un gran impulso desde finales del siglo pasado y actualmente es una de las áreas con más desarrollo dentro del campo de la estadística, encontrando análisis que usan este enfoque en muchos campos académicos y prácticos (ecología forestal, geografía, epidemiología, hidrología, etc.).
Repensando la estadística
Mi formación universitaria de finales del siglo pasado tuvo varios cursos sobre estadística y diseño de experimentos pero, en parte debido a presentarse usando el enfoque frecuentista, me hizo tener una visión muy errónea de qué era y para qué servía la estadística. La formación tradicional en estadística a nivel de cursos en carreras ajenas a ella, por lo general nos la presenta como una serie de "recetas" que se deben aplicar según el tipo de datos y análisis requerido. El haber tenido la fortuna recientemente de adentrarme en la estadística bayesiana me ha hecho llegar a tener una visión más integral de qué sucede con los datos desde su formulación hasta su análisis, evitando pensar en recetas si no en el proceso de generación de los datos mismos, la incertidumbre en cada una de sus etapas y las preguntas adecuadas que podemos resolver según las mediciones/datos conocidos y los supuestos planteados.
El llegar a poder escribir esos párrafos me tomó varios años de lectura, y entre los tantos libros que leí, hay uno en especial que ha sido de las lecturas más importantes de mis últimos años, el gran Statistical Rethinking de Richard McElreath.
El profesor McElreath, un antropólogo especializado en evolución, en su libro ha logrado lo que muy pocos libros técnicos han hecho: hacer un tema técnico con un alto componente matemático/computacional, fácilmente abordable para una comunidad que no posee una formación formal en estadística. Las referencias que usa para explicar conceptos, el lenguaje amistoso en que está escrito (¿influencia californiana?), el abordar las implicaciones filosóficas de las diferentes etapas del análisis y el uso extensivo de código computacional para las demostraciones, lo hace fascinante de leer. Tanto así que la 2nda edición del libro la he leído completa 2 veces (y la primera edición 1 vez) e hice algo que nunca antes había hecho con ningún otro libro: ¡resolver todos los ejercicios de todos los capítulos!.
Un aporte muy notable de la 2nda edición de Statistical Rethinking es que logra acomodar dentro del planeamiento del análisis bayesiano la inferencia causal. McElreath, guiado en parte por los aportes en análisis de causalidad de los trabajos de Judea Pearl, logra acoplar fácilmente los diferentes componentes de ambos enfoques, dándoles una coherencia lógica y haciendolo fácil de seguir para el practicante/lector. Algo, hasta donde sé, único en el área del análisis bayesiano.
Además del tan admirado libro, sus aportes en conferencias y sus videos del curso de inferencia Bayesiana del Instituto de Antropología Evolutiva del Instituto Max Planck, Richard McElreath recientemente hizo tres posts en su blog relacionados al análisis causal dentro del abordaje bayesiano de los datos. Los tres, considero, valen la pena ser mencionados ya que abren aún más ese tan evitado por muchos y tan ligeramente abordado por otros, campo de la inferencia causal:
- Primera entrada: Pensando como una regresión
- Segunda entrada: Pensando como un gráfico
- Tercer entrada: Pensando como una distribución de probabilidad
Otro enlace que vale la pena ver es su entrada sobre los muestradores MCMC:
- Creando una mejor cadena de Markov
Comentarios
Publicar un comentario