Interpretar dataset en Machine learning

El aprendizaje automático puede rescatarlo de algunos desastres, pero hay ocasiones en que no lo ayudará. En algún momento, se debe mejorar la precisión del modelo. Ahí es cuando llega a ese entendimiento y explorar e interpretar dataset en Machine learning es críticamente importante.

Para construir un poderoso sistema de aprendizaje automático es vital estar familiarizado con el dataset, conocer las distribuciones de características. Identificar características importantes y sin importancia , descubre tendencias y relaciones entre las características, etc.

No salte a la creación de modelos antes de profundizar en los datos. Recuerde que la calidad de la salida depende de la calidad de la entrada. Entrada de basura, basura.

Los científicos dedican gran parte de su tiempo a la preparación de datos antes de saltar al modelado , porque la comprensión, la generación y la selección de características útiles afectan el rendimiento del modelo. Ayuda a los científicos de datos a verificar las suposiciones necesarias para ajustar los modelos.

Además de interpretar dataset en Machine learning de entrada, también es importante comprender los datos generados a lo largo del proceso de creación del modelo. Por ejemplo, se pueden utilizar diferentes técnicas de exploración y visualización en los datos de activación de Deep Q-Networks (DQN).

Según el tamaño y el tipo de datos, comprender e interpretar dataset en Machine learning puede ser un desafío. Es imposible comprender un dataset y sacar conclusiones simplemente mirando la primera o 100 observaciones seleccionadas al azar de millones de ellas.

No espere trazar estadísticas para cada característica si los datos tienen miles de variables. Es mejor tener un puñado de funciones o una forma de resumirlas. Y recuerde que cada variable no se puede tratar de manera similar si los datos tienen variables heterogéneas.

 ¿Qué se puede hacer?

Use diferentes técnicas de visualización y análisis de datos exploratorios para obtener una mejor comprensión.

Esto incluye resumir las características principales del dataset, encontrar puntos representativos o críticos y descubrir características relevantes.

Después de obtener una comprensión general del dataset, puede pensar qué observaciones y características usar en el modelado.

Estadísticas de resumen con visualización

Las estadísticas de resumen ayudan a analizar la información sobre los datos de muestra. Indica algo sobre las variables del dataset continuo (intervalo) y discreto (nominal).

Analice esas variables individualmente o en conjunto porque pueden ayudar a encontrar:

Valores inesperados; proporción de valores perdidos en comparación con el dataset completo; asimetría y otros problemas.

Se puede comparar la distribución de los valores de las características entre las diferentes características, así como las estadísticas de características para los conjuntos de datos de entrenamiento y prueba. Esto ayuda a descubrir las diferencias entre ellos.

Tenga cuidado con las estadísticas de resumen. La confianza excesiva de las estadísticas de resumen puede ocultar problemas en el dataset. Considere el uso de técnicas adicionales para una comprensión completa.

Interpretar dataset en Machine learning, explicaciones basadas en ejemplos

Suponga que el dataset tiene millones de observaciones con miles de variables. Es desafiante comprender estos datos sin abstracción.

Un enfoque para resolver este problema es usar explicaciones basadas en ejemplos; técnicas que pueden ayudar a elegir observaciones y dimensiones importantes.

Pueden ayudar a interpretar dataset en Machine learning grandes, muy complejos con diferentes distribuciones.

Las técnicas disponibles para resolver este problema incluyen encontrar observaciones y dimensiones para caracterizar, criticar y distinguir los grupos de conjuntos de datos.

Caracterizar:

Como humanos, generalmente usamos ejemplos representativos de los datos para la categorización y la toma de decisiones. Esos ejemplos, generalmente llamados prototipos, son observaciones que mejor describen las categorías de conjuntos de datos. Se pueden usar para interpretar categorías, ya que es difícil hacer interpretaciones usando todas las observaciones en una categoría determinada.

Criticar:

Encontrar prototipos por sí solo no es suficiente para comprender los datos, ya que se generaliza en exceso. Puede haber variaciones entre las características compartidas en un grupo determinado que no pueden ser capturadas por prototipos. Necesitamos mostrar excepciones (críticas) a las reglas. Esas observaciones se pueden considerar como observaciones minoritarias muy diferentes del prototipo, pero aún perteneciendo a la misma categoría.

En las ilustraciones a continuación, las imágenes de robots en cada categoría consisten en robots con diferentes formas de cabeza y cuerpo.

Los robots con disfraces también pueden pertenecer a una de esas categorías, aunque pueden ser muy diferentes de una imagen de robot típica. Esas imágenes son necesarias para comprender los datos ya que son minorías importantes.

 Crítica de Blogpost

El trabajo de Kim en esta área se enfoca en encontrar esas minorías mientras se encuentran prototipos usando un técnica no supervisada llamada crítica de discrepancia máxima media (MMD).

Distinga:

Encontrar representantes puede no ser siempre suficiente. Si la cantidad de funciones es alta, aún será difícil comprender las observaciones seleccionadas. Esto se debe a que los humanos no pueden comprender explicaciones largas y complicadas. Las explicaciones deben ser simples.

Se deben considerar las características más importantes para esas observaciones seleccionadas. La representación subespacial es una solución a ese problema.

Usar el prototipo y la representación subespacial ayuda a la interpretabilidad. Un método que puede usarse para lograr esto es Bayesian Case Model (BCM) un método de aprendizaje no supervisado donde los datos subyacentes se modelan utilizando un modelo mixto y un conjunto de características que son importantes para cada clúster.

Además de comprender las características importantes, también es necesario comprender las diferencias entre los clusters para muchas aplicaciones, como el diagnóstico diferencial.

Para eso, encuentre dimensiones distintivas en los datos. Una mente que el modelo de brecha (MGM) combina enfoques extractivos y selectivos e informa un conjunto global de dimensiones distinguibles para ayudar con la exploración posterior.

 Blogpost distingue

En el ejemplo anterior, mirando el características extraídas de diferentes imágenes de robot podemos decir que la forma de la cabeza es una dimensión distintiva. Sin embargo, no podemos decir eso para los ojos ya que se ven muy similares.

Interpretar dataset en Machine learning: Técnicas de incrustación

Una incrustación es un mapeo de valores discretos, como palabras u observaciones, a vectores. Diferentes técnicas de incrustación ayudan a visualizar la representación de menor dimensión.

Las incrustaciones pueden tener cientos de dimensiones. La forma común de entenderlos es proyectarlos en dos o tres dimensiones.

Son útiles para muchas cosas:
  • Úselos para explorar vecindarios locales. Puede ser útil explorar los puntos más cercanos a un punto determinado para asegurarse de que están relacionados entre sí. Seleccione esos puntos y realice un análisis adicional. Úselos para comprender el comportamiento de un modelo.
  • Úselos para analizar la estructura global, buscando grupos de puntos. Esto ayuda a encontrar clusters y outliers.
Hay muchos métodos para obtener incrustaciones, incluyendo:
  • Análisis de componentes principales: Se trata de un algoritmo determinístico lineal para capturar la variación de datos en el menor número posible de dimensiones. Este es un Algoritmo efectivo para reducir la dimensionalidad de los datos, especialmente si existen relaciones lineales fuertes entre las variables.

 Blogpost PCA

Se puede usar para resaltar las variaciones y eliminar las dimensiones. Es posible retener los primeros componentes principales que consideran una cantidad significativa de variación si es necesario para interpretar los datos.

Los componentes principales restantes representan cantidades triviales de varianza. No deben conservarse para su interpretabilidad y análisis.

  • Incrustación vecinal estocástica distribuida en T (t-SNE): un algoritmo de reducción de dimensión que intenta preservar los vecindarios locales en los datos. No es lineal y no determinista; y permite la creación de 2 o proyecciones en 3D. T-SNE encuentra estructuras que otros métodos pueden pasar por alto.

 Blogpost TSNE

Es muy útil para visualizar e interpretar dataset en machine learning, pero hay muchas cosas que requieren precaución.

Si bien preserva la estructura local, puede distorsionar la estructura global. Si se necesita más información sobre t-SNE, consulte un excelente artículo en destill.pub, “ Cómo usar t-SNE de manera efectiva.

El uso de incrustaciones t-SNE puede ayudar a reducir la dimensión de los datos y encontrar estructuras. Sin embargo, si se trata de un dataset en machine learning muy grande. Entender las proyecciones aún puede ser difícil. Es útil verificar la geometría de los datos para obtener una mejor comprensión.

Análisis de datos topológicos (TDA)

La topología estudia las características geométricas conservadas cuando deformamos el objeto sin romperlo. El análisis de datos topológicos proporciona herramientas para estudiar las características geométricas de los datos mediante topología.

Esto incluye detectar y visualizar características y las medidas estadísticas relacionadas con ellas. Las características geométricas pueden ser grupos, bucles y zarcillos distintos en los datos. Si hay un bucle en esta red, la conclusión es que un patrón ocurre periódicamente.

Los algoritmos de Mapper en TDA son útiles para la visualización de datos y la agrupación. Se pueden crear redes topológicas de un dataset en machine learning en el que los nodos son el grupo de observaciones similares y los bordes conectan los nodos si tienen una observación común.

Conclusión

Cuando se trata de comprender e interpretar datos, no hay Una solución que se adapta a todos. Elija la que mejor se adapte a sus necesidades. Cuando hay grandes datos brutos, use ejemplos representativos para explicar la distribución subyacente.

Si se trata de un amplio dataset, encuentre las dimensiones importantes para comprender las muestras representativas porque es difícil comprender todas las características de muestras representativas.

En última instancia, es el trabajo del científico de datos utilizar las herramientas disponibles para resolver el misterio y explicar en formas comprensibles.

Dejá un comentario