Estadísticas bayesianas para el aprendizaje automático

¿Alguna vez te has preguntado cuál es la probabilidad de que ocurra un evento que nunca antes haya ocurrido?

En este artículo, profundizaremos en el misterioso mundo de las estadísticas bayesianas y cómo algunos de sus principios, como el El teorema de Bernstein-von Mises y la regla de Cromwell pueden ser útiles para analizar problemas de aprendizaje automático en el mundo real.

“Las estadísticas bayesianas son difíciles en el sentido de que es difícil pensar” – Don Berry

Si estaba buscando una inmersión profunda en las matemáticas detrás de las estadísticas bayesianas, este no es el lugar para buscar (aunque publicaré artículos sobre esto en el futuro). Este artículo es principalmente para presentar el enfoque bayesiano a personas nuevas en el concepto.

Imagina por un momento que estás diseñando una planta de energía nuclear. Tiene la tarea de usar los datos para determinar si la planta está funcionando correctamente. Esto puede parecer una tarea relativamente simple hasta que te das cuenta de que en realidad no tienes ningún dato sobre cómo se ve una planta cuando se produce una fusión nuclear.

Si usted es un experto en aprendizaje automático, puede sugerir algún tipo de método no supervisado, como una máquina Boltzmann (restringida), que puede aprender qué es una central eléctrica “normal”. Parece que, por lo tanto, saber cuándo las cosas han ido un poco mal (esto es, de hecho, una forma en que la gente predice las condiciones normales de operación en una planta de energía nuclear).

Sin embargo, si pensamos en este problema de una manera más En general, ¿qué hacemos cuando tenemos pocos o ningún ejemplo negativo con el que comparar?

Esto podría ocurrir por varias razones:
  • La probabilidad del evento es tan baja que no se ha observado que el evento ocurra en todos los datos de muestra (finitos). (El escenario de baja probabilidad)
  • Se han producido observaciones, pero hay muy pocas. (El escenario de datos escasos)
  • El resultado de una falla sería tan catastrófico que solo podría ocurrir una vez, por ejemplo, la destrucción del sol. (El escenario de la catástrofe)

Las estadísticas tradicionales no son adecuadas para este tipo de problemas, y generalmente se requiere un enfoque diferente.

Una pregunta aún más general es cómo nos enfrentamos a situaciones extremadamente bajas (pero estrictamente ¿No es cero) o extremadamente alta (cerca de una pero no estrictamente una) probabilidades? Primero veamos algunas reglas que se desarrollaron para estudiar un famoso problema planteado por el matemático Pierre-Simon Laplace.

El problema de Sunrise

Imagina que una mañana te despertaste y el Sol había decidido tener un dia libre Esto no solo arruinaría (lo más probable) tu día y arruinaría el reloj de tu cuerpo, sino que también cambiaría directamente cómo te sientes respecto al sol. Sería más probable que automáticamente predijera que quizás al día siguiente el Sol no se levantará también. Alternativamente, si el Sol solo estaba teniendo un mal día y regresó al día siguiente, su expectativa de que el Sol se tomaría un día libre nuevamente sería significativamente más alto de lo que era anteriormente.

Entonces, ¿qué pasó aquí? Cambiamos nuestra creencia acerca de la probabilidad de un evento basado en nuevas pruebas. Este es el quid de todas las estadísticas bayesianas y se describe formalmente mediante una ecuación conocida como regla de Bayes.

Regla de Bayes

La regla de Bayes nos dice que debemos comenzar con alguna probabilidad inherente acerca de qué tan probable es que ocurra un evento (antes del hecho). Llamamos a esto una probabilidad previa. Progresivamente, a medida que se nos presentan nuevas observaciones y evidencia, actualizamos nuestra creencia en función de la evidencia y decidimos qué tan probable es nuestra postura actual. Esta creencia actualizada se llama probabilidad posterior (después del hecho).

Volviendo a nuestro problema de Sunrise, todos los días observamos que el Sol sale y cada vez que sucede, estamos un poco más seguros de que volverá a subir el Día siguiente. Sin embargo, si un día descubrimos que el Sol no se levanta, esto afectará drásticamente nuestra probabilidad posterior basada en la nueva evidencia.

Esto se expresa matemáticamente en la siguiente forma, que parece desalentadora pero que puede resumirse: nuestro la creencia actualizada se basa en nuestra creencia inicial y la nueva evidencia que se nos presenta se basa en nuestra creencia actual (la probabilidad).

La probabilidad dice la nueva evidencia que tengo, ¿qué tan probable es que mi creencia sea correcta?

Si creo que la probabilidad de que el Sol no se levante mañana es de un millón a uno, y luego ocurre, la probabilidad de que mi creencia (mi modelo) sea incorrecta es muy alta, y la probabilidad posterior se actualizará para predecir que es así. más probable es que vuelva a suceder.

Teorema de Bayes.

Esta es una idea bastante ingeniosa, y está presente en muchos lugares diferentes, especialmente cuando se trata de los humanos y sus creencias. Por ejemplo, digamos que los mensajes de tu amigo te dicen que una de tus celebridades favoritas ha fallecido. Inicialmente, podrías estar molesto y también ligeramente escéptico. A medida que avanza el día, lee el periódico y le dice que la celebridad murió y que esta creencia se reforzará aún más. Tal vez luego vea las entrevistas en la televisión de su familia de luto en las noticias, y su creencia se reforzará aún más. Sin embargo, si en cambio ve a la persona entrevistada en la televisión sobre un rumor de que había muerto, su creencia de que lo que su amigo le dijo se rebajaría.

Este es un aspecto esencial de la ciencia, las teorías se prueban mediante experimentos. y simulaciones, y mientras más personas realicen estos experimentos y verifiquen las teorías, gradualmente harán que estas teorías sean más sólidas y creíbles. Mientras que, por ejemplo, alguien que es religioso puede decidir que no necesita evidencia empírica (al menos del mismo tipo) para creer en algo, y llamamos a esto fe.

Es interesante cómo algo tan generalizado en nuestra vida cotidiana. Las vidas pueden ser tan fundamentales para las estadísticas y el aprendizaje automático, pero lo es, y discutiremos por qué. Primero, sin embargo, debemos observar algunos problemas que ocurren con el teorema de Bayes para probabilidades muy bajas.

Regla de Cromwell

Oliver Cromwell fue una figura prominente en la historia británica y fue citado en la Asamblea General de la Iglesia de Escocia en 1658, diciendo

“Les ruego, en las entrañas de Cristo, piensen que es posible que puedan equivocarse”.

El uso de esta frase condujo a la definición de La regla de Cromwell por Dennis Lindley, que plantea la idea de que si uno comienza con una probabilidad previa igual a cero (sé que algo no es cierto) o una (sé que algo es verdadero), entonces a pesar de las pruebas que se le muestran, su creencia no se moverá.

Esto nos muestra el peligro de un punto de vista absolutista cuando se observan cosas empíricas que se pueden observar.

Si tengo una creencia tan fuerte que estoy seguro de que estoy en lo cierto, nada de lo que alguien pueda decir o hacer me convencerá de lo contrario. Esta es la altura de la ignorancia y no es algo que queremos incorporar en los modelos de aprendizaje automático.

Si miramos hacia atrás al teorema de Bayes, podemos ver por qué este es el caso si nuestra probabilidad previa es cero y luego multiplicarlo por cualquier cosa nos dará una probabilidad posterior de cero.

En principio (ver la regla de Cromwell ), ninguna posibilidad debe tener su probabilidad establecida en cero, ya que nada en el mundo físico debe suponerse estrictamente imposible (aunque puede ser), incluso si es contrario a todas las observaciones y teorías actuales.

Un ejemplo ideal de dónde esto puede ocurrir está en una red neuronal. Cuando inicia una red neuronal, sus nodos comienzan con algún valor inherente.

Si asigna a todos estos nodos un peso de cero, los nodos no podrán actualizarse, ya que todas las iteraciones de un algoritmo de pendiente de gradiente se multiplicarán por cero. En su lugar, se realizan inicializaciones aleatorias (normalmente no visibles para el usuario) que generalmente previenen problemas como estos.

Otra propiedad intrigante del teorema de Bayes se produce cuando observamos lo que sucede después de un número infinito de observaciones, a menudo llamado Bernstein. -von Mises Theorem.

Bernstein-von Mises Theorem

En términos simples, el teorema de Bernstein-von Mises nos dice que nuestra estimación posterior será asintóticamente independiente de nuestra creencia inicial (anterior) como obtenemos más datos, asumiendo, por supuesto, que obedece la regla de Cromwell.

De alguna manera, esto es análogo a los números de ley en las estadísticas frecuentistas, lo que nos dice que la media de una muestra eventualmente será la misma que la población total, ya que obtenemos más y más datos.

Entonces, ¿cuál es la gran diferencia entre ¿Estadísticas bayesianas y estadísticas normales? ¿Por qué los especialistas en aprendizaje automático y los científicos de datos necesitan estadísticas bayesianas?

Estadísticas bayesianas versus estadísticas del frecuentista

Para aquellos de ustedes que no tienen idea de cuáles son los términos bayesiano y frecuentista, permítanme explicarlo.

Un enfoque frecuentista examina los datos desde el punto de vista de la frecuencia. Por ejemplo, digamos que tengo una moneda sesgada con cabezas en ambos lados.

Doy la vuelta a la moneda 10 veces, y 10 veces me sale cara. Si tomo el resultado promedio de todos los lanzamientos de monedas, obtengo 1, lo que indica que mi próximo lanzamiento tendrá una probabilidad del 100% de ser cara y una probabilidad del 0% de ser cola, esta es una forma frecuente de pensar.

Ahora toma el punto de vista bayesiano. Empiezo con una probabilidad previa que elegiré ser 0.5 porque asumo que la moneda es justa. Sin embargo, lo que es diferente es cómo elijo actualizar mi probabilidad.

Después de cada lanzamiento de una moneda, veré la probabilidad de que mi próxima observación tenga mi creencia actual (que tengo una moneda justa). Progresiva, a medida que muevo más caras, mi probabilidad tenderá a un valor de 1, pero nunca será explícitamente 1.

La diferencia fundamental entre el enfoque bayesiano y frecuentista es sobre dónde está presente la aleatoriedad. En el dominio frecuentista, los datos se consideran aleatorios y los parámetros (por ejemplo, media, varianza) son fijos. En el dominio Bayesiano, los parámetros se consideran aleatorios y los datos son fijos.

Realmente quiero enfatizar un punto en este momento.

No se llama Bayesiano porque estás usando el teorema de Bayes (que es comúnmente usado también en una perspectiva frecuentista).

Se llama bayesiano porque los términos en las ecuaciones tienen un significado subyacente diferente .

Luego, a partir de una diferencia teórica, terminas con una diferencia muy significativa práctica : mientras que antes tenías un solo parámetro como resultado de tu estimador (los datos son aleatorios, los parámetros son fijos), ahora tiene una distribución sobre los parámetros (los parámetros son aleatorios, los datos son fijos), por lo que debe integrarse para obtener la distribución sobre sus datos.

Esta es una de las razones por las que las matemáticas detrás de las estadísticas bayesianas se vuelven un poco más complicadas que las estadísticas normales, y se debe recurrir al uso de métodos de Markov Chain Monte Carlo para muestrear distribuciones a fin de calcular el valor de las integrales intratables.

Otras técnicas ingeniosas, como la Ley del estadístico inconsciente (qué gran nombre, ¿verdad?), También conocido como. LOTUS puede ayudar con las matemáticas.

Entonces, ¿qué metodología es mejor?

Estos métodos son esencialmente dos caras de la misma moneda (es decir, juego de palabras), por lo general le dan los mismos resultados, pero la forma en que llegan es ligeramente diferente.

Tampoco es mejor que el otro. De hecho, incluso tengo profesores en mis clases en Harvard que frecuentemente discuten sobre cuál es mejor.

El consenso general es que “depende del problema” si se puede considerar que hay consenso. Personalmente, encuentro que el enfoque bayesiano es más intuitivo, pero las matemáticas subyacentes son mucho más complicadas que el enfoque frecuentista tradicional.

Ahora que (con suerte) entiendes la diferencia, quizás la broma de abajo te haga reír.

Bayesian vs broma frecuentista.

¿Cuándo debo usar las estadísticas bayesianas?

Las estadísticas bayesianas abarcan una clase específica de modelos que podrían usarse para el aprendizaje automático. Por lo general, se recurre a los modelos bayesianos por uno o más de una variedad de razones, tales como:

  • Tener relativamente pocos puntos de datos
  • Tener intuiciones previas sólidas (de observaciones / modelos preexistentes) sobre cómo funcionan las cosas Tener altos niveles de incertidumbre, o una fuerte necesidad de cuantificar el nivel de incertidumbre acerca de un modelo particular o comparación de modelos
  • Queriendo afirmar algo sobre la probabilidad de la hipótesis alternativa en lugar de simplemente aceptar / rechazando la hipótesis nula

Mirando esta lista, podría pensar que la gente querría usar métodos bayesianos en el aprendizaje automático todo el tiempo.

Sin embargo, ese no es el caso, y sospecho que la relativa escasez de enfoques bayesianos para el aprendizaje automático se debe a:
  • La mayor parte del aprendizaje automático se realiza en el contexto de “big data”, donde la firma de los modelos bayesianos – anteriores – don ‘ En realidad, desempeña un papel muy importante.
  • El muestreo de las distribuciones posteriores en los modelos bayesianos es computacionalmente costoso y lento.

Como podemos ver claramente, hay mucha sinergia entre los enfoques frecuentista y bayesiano, especialmente en el mundo de hoy, donde es grande. Los datos y el análisis predictivo se han vuelto tan prominentes.

Tenemos una gran cantidad de datos para una variedad de sistemas, y podemos hacer inferencias basadas en datos sobre el sistema constantemente y seguir actualizándolos a medida que más y más datos estén disponibles. Dado que las estadísticas bayesianas proporcionan un marco para actualizar el “conocimiento”, de hecho, se utiliza mucho en el aprendizaje automático.

Varias técnicas de aprendizaje automático, como los procesos gaussianos y la regresión lineal simple, tienen versiones bayesianas y no bayesianas.

También hay algoritmos que son puramente frecuentistas (por ejemplo, máquinas de vectores de soporte, bosque aleatorio), y aquellos que son puramente bayesianos (por ejemplo, inferencia variacional, maximización de expectativas). Aprender cuándo usar cada uno de estos y por qué es lo que te convierte en un verdadero científico de datos.

¿Eres un bayesiano o un frecuentista?

Personalmente, no estoy en un campo u otro Esto se debe a que a veces uso estadísticas / aprendizaje automático en un conjunto de datos con miles de características, de las cuales no sé nada. Por lo tanto, no tengo ninguna creencia previa y la inferencia bayesiana parece inapropiada. Sin embargo, a veces tengo una pequeña cantidad de funciones y sé bastante sobre ellas y me gustaría incorporarla a mi modelo, en cuyo caso los métodos bayesianos me darán intervalos / resultados más concluyentes en los que confío.

¿Dónde debería ir para obtener más información sobre las estadísticas bayesianas?

Hay varias clases en línea excelentes que profundizan en las estadísticas bayesianas para el aprendizaje automático.

El mejor recurso que recomendaría es la clase que tomé aquí en Harvard, AM207:

Computación científica avanzada (métodos de optimización estocástica, métodos de inferencia y análisis de datos de Monte Carlo). Aquí puede encontrar todos los recursos de conferencias, notas e incluso cuadernos Jupyter que analizan las técnicas .

Aquí también hay un gran video que habla sobre la conversión entre los dominios bayesiano y frecuentista. (dirígete a unos 11 minutos en el video).

Si quieres convertirte en un gran científico de datos, te sugiero que tengas un control firme sobre las estadísticas bayesianas y cómo se puede usar para resolver problemas. El viaje es difícil y es una curva de aprendizaje empinada, pero es una excelente manera de separarse de otros científicos de datos.

De las discusiones que he tenido con colegas que van a entrevistas de ciencia de datos, el modelado bayesiano es algo que surge bastante a menudo, ¡así que tenlo en cuenta!


¿Subirá el sol mañana? Introducción a Bayesian Statistics for Machine Learning se publicó originalmente en Hacia la ciencia de datos en Medium, donde las personas continúan la conversación al resaltar y responder a esta historia.

Dejá un comentario