El concepto esencial de aprendizaje supervisado es que hay datos iniciales que se utilizan para entrenar el algoritmo.
La suposición aquí es que existe un clasificador óptimo y relativamente simple que asigna entradas dadas a su clasificación apropiada para la mayoría de las entradas.
Como las entradas pueden distorsionarse o no reconocerse, el clasificador podría no ser capaz de clasificar todas las entradas.
Con el entrenamiento inicial, el objetivo es encontrar una aproximación de un clasificador que funcione tan bien como un clasificador óptimo para que el mismo clasificador se pueda usar con datos no etiquetados / no vistos.
Enfoque del modelo estadístico
Al principio, se etiquetaron los datos de entrenamiento para fines de capacitación. Con los datos de prueba, se asume una cierta distribución de probabilidad y sus parámetros requeridos son precalculados para ser utilizados en el clasificador.
Cuando se dan los datos iniciales, se supone que los datos se eligen INDEPENDIENTEMENTE y se DISTRIBUIDAN IDÉNTICAMENTE (iid) Luego se verifica el tipo de datos para decidir qué modelo de probabilidad se puede usar.
Por ejemplo, si los datos son lanzamientos de monedas, se usa el modelo de Bernoulli, si se trata de tiradas de dados, se puede usar el modelo multinomial.
En mi ejemplo a continuación, se usa el modelo gaussiano, que es el fenómeno más común. Para asegurarse de que la distribución sea normal, a menudo se realiza la prueba de normalidad
En la fase del algoritmo de aprendizaje, su entrada es la información de entrenamiento y la salida son los parámetros necesarios para el clasificador.
Para seleccionar parámetros para el clasificador a partir de los datos de entrenamiento, se puede usar la Estimación de máxima verosimilitud (MLE), la Estimación bayesiana (Máxima a posteriori) o el criterio de optimización de pérdida. En este artículo, voy a repasar un ejemplo del uso de MLE para estimar parámetros para el Clasificador Bayes en aprendizaje automático .
Clasificador Bayes en aprendizaje automático: Usando MLE para estimar los parámetros para el clasificador
El primer paso es que tenemos que darnos cuenta¿Cuál es la distribución de muestra?
Dada una secuencia de datos de entrenamiento, ¿cuál es la estimación de sigma² y mu asumiendo una población gaussiana normal?
Con el enfoque estadístico, asumiremos un modelo de probabilidad, lo que significa que predeciremos qué tan probable es que los datos asuman un determinado modelo de distribución de probabilidad. Entonces podemos encontrar el mejor modelo de probabilidad de ajuste a través de la estimación de probabilidad.
Diferencias entre el modelo de probabilidad y la probabilidad:
(1) Tienen gráficos diferentes (2) Cuando tomas una derivada de una función, la tomas con respecto a diferentes variables (3) argmax se calcula con respecto a diferentes variables.
Es notable que con un valor theta y X específico, la función de verosimilitud y la probabilidad tienen el mismo resultado (NOTA: estoy hablando de un resultado específico en oposición a la lista de resultados, porque tienen diferentes gráficos como resultado).
Por lo tanto, dado un parámetro theta la distribución de probabilidad para la función de verosimilitud y probabilidad es la misma. Dentro de la función de verosimilitud, dado un theta, puede calcular la distribución de probabilidad para los vectores de características.
Ejemplo gaussiano univariante
p. Ej. Dado el peso de un individuo, ¿es esta persona hombre o mujer?
Deje que X sea un conjunto de datos de peso. Deje x_i ser un valor de peso i-th.
Sólo Y sea una clase y y_0 sea masculino y y_1 sea femenino
Clasificador Bayes en aprendizaje automático
argmax elige la entrada que proporciona el máximo valor de salida. En este caso, elige el género que da la mayor probabilidad posterior, dado un valor de peso.
P [Y=male] y P [Y=female] son anteriores a la clase, que se calculan en la fase de algoritmos de aprendizaje. Para P [X|Y = male] y P [X|Y = female] los parámetros de distribución Gaussiana multivariante se estiman en la fase de algoritmos de aprendizaje.
Y esta es la probabilidad El gráfico de la función se ve así:
Diferencia entre el Clasificador Bayes en aprendizaje automáticoy Naive Bayes :
A diferencia del Clasificador Bayes, Naive Bayes asume que las características son independientes. En nuestro ejemplo anterior, con Naive Bayes supondríamos que el peso y la altura son independientes entre sí, y su covarianza es 0, que es uno de los parámetros requeridos para el modelo gaussiano multivariante.
Ahora la pregunta es ¿Por qué estamos usando el Clasificador Bayes? porque es el clasificador más óptimo, que se prueba aquí .
Entonces eso significa que nuestros problemas de clasificación están resueltos ? No, porque necesitamos muchísimos datos de acuerdo con la desigualdad de Hoeffding.
Si quiero que mi tasa de error sea inferior al 20%, entonces necesito 10¹⁰⁰ datos después de resolver n de la siguiente desigualdad. NOTA: D significa dimensión
Si conozco un parámetro / s para mi distribución de probabilidad, entonces debería resolver n de la siguiente ecuación para estimar el número mínimo de datos necesarios:
Dado que necesitaríamos demasiados datos para la optimización del Clasificador Bayes, el problema de clasificación aún está en curso.
Bayes con estimación de máxima verosimilitud se publicó originalmente en Towards Data Science en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.