Clasificador Bayes en aprendizaje automático

El concepto esencial de aprendizaje supervisado es que hay datos iniciales que se utilizan para entrenar el algoritmo.

La suposición aquí es que existe un clasificador óptimo y relativamente simple que asigna entradas dadas a su clasificación apropiada para la mayoría de las entradas.

Como las entradas pueden distorsionarse o no reconocerse, el clasificador podría no ser capaz de clasificar todas las entradas.

Con el entrenamiento inicial, el objetivo es encontrar una aproximación de un clasificador que funcione tan bien como un clasificador óptimo para que el mismo clasificador se pueda usar con datos no etiquetados / no vistos.

Enfoque del modelo estadístico

Al principio, se etiquetaron los datos de entrenamiento para fines de capacitación. Con los datos de prueba, se asume una cierta distribución de probabilidad y sus parámetros requeridos son precalculados para ser utilizados en el clasificador.

http://www.cs.columbia.edu/~verma/classes/ml/lec/ lec1_intro_mle_bayes_naive_evaluation.pdf

Cuando se dan los datos iniciales, se supone que los datos se eligen INDEPENDIENTEMENTE y se DISTRIBUIDAN IDÉNTICAMENTE (iid) Luego se verifica el tipo de datos para decidir qué modelo de probabilidad se puede usar.

Por ejemplo, si los datos son lanzamientos de monedas, se usa el modelo de Bernoulli, si se trata de tiradas de dados, se puede usar el modelo multinomial.

En mi ejemplo a continuación, se usa el modelo gaussiano, que es el fenómeno más común. Para asegurarse de que la distribución sea normal, a menudo se realiza la prueba de normalidad

En la fase del algoritmo de aprendizaje, su entrada es la información de entrenamiento y la salida son los parámetros necesarios para el clasificador.

Para seleccionar parámetros para el clasificador a partir de los datos de entrenamiento, se puede usar la Estimación de máxima verosimilitud (MLE), la Estimación bayesiana (Máxima a posteriori) o el criterio de optimización de pérdida. En este artículo, voy a repasar un ejemplo del uso de MLE para estimar parámetros para el Clasificador Bayes en aprendizaje automático .

Clasificador Bayes en aprendizaje automático: Usando MLE para estimar los parámetros para el clasificador

El primer paso es que tenemos que darnos cuenta¿Cuál es la distribución de muestra?

Dada una secuencia de datos de entrenamiento, ¿cuál es la estimación de sigma² y mu asumiendo una población gaussiana normal?

Con el enfoque estadístico, asumiremos un modelo de probabilidad, lo que significa que predeciremos qué tan probable es que los datos asuman un determinado modelo de distribución de probabilidad. Entonces podemos encontrar el mejor modelo de probabilidad de ajuste a través de la estimación de probabilidad.

http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf NOTA: L es probable y P es para el modelo de probabilidad

Diferencias entre el modelo de probabilidad y la probabilidad:

(1) Tienen gráficos diferentes (2) Cuando tomas una derivada de una función, la tomas con respecto a diferentes variables (3) argmax se calcula con respecto a diferentes variables.

Es notable que con un valor theta y X específico, la función de verosimilitud y la probabilidad tienen el mismo resultado (NOTA: estoy hablando de un resultado específico en oposición a la lista de resultados, porque tienen diferentes gráficos como resultado).

Por lo tanto, dado un parámetro theta la distribución de probabilidad para la función de verosimilitud y probabilidad es la misma. Dentro de la función de verosimilitud, dado un theta, puede calcular la distribución de probabilidad para los vectores de características.

Ejemplo gaussiano univariante

p. Ej. Dado el peso de un individuo, ¿es esta persona hombre o mujer?

Deje que X sea un conjunto de datos de peso. Deje x_i ser un valor de peso i-th.

Sólo Y sea una clase y y_0 sea masculino y y_1 sea femenino

Clasificador Bayes en aprendizaje automático

http: // www .cs.columbia.edu / ~ verma / classes / ml / lec / lec1_intro_mle_bayes_naive_evaluation.pdf

argmax elige la entrada que proporciona el máximo valor de salida. En este caso, elige el género que da la mayor probabilidad posterior, dado un valor de peso.

http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf [19659006] Utilizando el teorema de Bayes, P [Y|X] se reemplaza por P [X|Y] * P [Y] / P [X]. Tenga en cuenta que solo nos interesa el valor y que nos da la mayor probabilidad, por lo que P [X] no es de nuestro interés y es independiente de P [Y]. Por lo tanto, se puede eliminar de la ecuación.

http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf

Después de calcular la ecuación anterior una vez para y = y_0 y la segunda vez para y = y_1 y se elige el valor y con la probabilidad más alta.

Pero no conocemos P [X|Y] (probabilidad de obtener el vector de características de entrada de peso asumiendo que sea femenino o masculino) y P [Y] (fracción de hombres o mujeres en la población). Aquí es donde MLE (estimación de máxima verosimilitud) desempeña un papel para estimar esas probabilidades.

Estimación de P [Y]

P [Y] se estima en la fase de aprendizaje con máxima verosimilitud. Para estimar la fracción de población de hombres o de mujeres, se calcula una fracción de hombres o mujeres a partir de los datos de entrenamiento utilizando MLE.

Aquí “m” significa población de hombres, p significa probabilidad de obtener la secuencia de solo datos de hombres de los datos de prueba, y (1-p) es para datos de mujeres. “N” es para el tamaño total de la muestra.

Para obtener el P [Y]que es la población fraccional de hombres o mujeres, la derivada de la función de verosimilitud se establece en 0 y podemos resolverlo para p. Entonces obtenemos m / n como la población fraccional.

Estimación de P [X|Y]

P [X|Y] es la probabilidad de obtener los datos de entrada de peso (no importa si es etiquetados o sin etiqueta), asumiendo hombre o mujer.

Para obtener esa probabilidad, necesito saber qué es (1) la distribución de probabilidad de peso de la población, así como (2) los parámetros necesarios para esa distribución.

Se supone una distribución gaussiana normal para la distribución de probabilidad; en este ejemplo, distribución gaussiana univariante.

http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf

Pero no sé mu y sigma². Así que voy a estimar los valores de mu y sigma² de los datos de entrenamiento que tengo usando MLE (Estimación de máxima verosimilitud)

Figura 5

Cada modelo es una distribución de probabilidad de diferentes valores constantes de mu y sigma² con el valor de x dado de peso como una entrada.

Tenga en cuenta que el valor de x del peso es proporcionado por la función de verosimilitud. Como hay un par infinito de mu y sigma, hay un número infinito de estos modelos.

Por ejemplo, suponiendo que el peso promedio para mujeres es de 135 lbs y el valor de peso dado de 110 lbs, la probabilidad de salida es de aproximadamente 0.005.

http://www.wolframalpha.com/input/?i=plot+PDF% 5BNormalDistribution% 5B135, + 15% 5D, + x% 5D + from + x +% 3D + 0 + a + 200
http://www.wolframalpha.com/input/?i=plot+PDF%5BNormalDistribution%5B135 , + 15% 5D, + x% 5D + de + x +% 3D + 0 + a + 200

 

Lo que hace la función de verosimilitud es tomar un modelo con valores mu y sigma² y su probabilidad y resultados una probabilidad de obtener el dado valor de peso para mu y sigma² como entradas.

Piense que la figura 5 está envuelta alrededor de un ciclo for y se ejecuta para cada modelo; en este caso, infinito número de modelos.

Como resultado, se dibuja el gráfico 3-d anterior. Debido a que nuestro objetivo aquí es estimar los valores de sigma y mu, el par de valores de sigma y mu con la probabilidad más alta, que tiene el pico en el gráfico, se elegirá como los valores estimados.

Para estimar el sigma² y valor de mu, necesitamos encontrar el valor de probabilidad de valor máximo del gráfico de función de verosimilitud y ver qué valor de mu y sigma nos da ese valor.

Por lo tanto, tomamos una derivada de la función de verosimilitud y la establecemos en 0 y resolvemos para sigma y mu. Entonces esos valores se usan para calcular P [X|Y].

Ejemplo gaussiano multivariante

p. Ej. Dado el peso x altura de un individuo, ¿es esta persona hombre o mujer?

Es muy similar al ejemplo anterior.

Primero que nada, el clasificador está determinado por el Clasificador Bayes.

http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf

P [Y=male] y P [Y=female] son ​​ anteriores a la clase, que se calculan en la fase de algoritmos de aprendizaje. Para P [X|Y = male] y P [X|Y = female] los parámetros de distribución Gaussiana multivariante se estiman en la fase de algoritmos de aprendizaje.

Así es como se ve la distribución de probabilidad de nuestro modelo:

http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf
Y esta es la probabilidad El gráfico de la función se ve así:
http://www.cs.columbia.edu/~verma/classes/ml/lec/lec1_intro_mle_bayes_naive_evaluation.pdf

Diferencia entre el Clasificador Bayes en aprendizaje automáticoy Naive Bayes :

A diferencia del Clasificador Bayes, Naive Bayes asume que las características son independientes. En nuestro ejemplo anterior, con Naive Bayes supondríamos que el peso y la altura son independientes entre sí, y su covarianza es 0, que es uno de los parámetros requeridos para el modelo gaussiano multivariante.

Ahora la pregunta es ¿Por qué estamos usando el Clasificador Bayes? porque es el clasificador más óptimo, que se prueba aquí .

Entonces eso significa que nuestros problemas de clasificación están resueltos ? No, porque necesitamos muchísimos datos de acuerdo con la desigualdad de Hoeffding.

Si quiero que mi tasa de error sea inferior al 20%, entonces necesito 10¹⁰⁰ datos después de resolver n de la siguiente desigualdad. NOTA: D significa dimensión

Si conozco un parámetro / s para mi distribución de probabilidad, entonces debería resolver n de la siguiente ecuación para estimar el número mínimo de datos necesarios:

Dado que necesitaríamos demasiados datos para la optimización del Clasificador Bayes, el problema de clasificación aún está en curso.


Bayes con estimación de máxima verosimilitud se publicó originalmente en Towards Data Science en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Dejá un comentario