La estructura de datos para el aprendizaje automático Parte 1.

Cómo los nuevos avances en semántica y el tejido de datos pueden ayudarnos a ser mejores en Machine Learning. Además, una nueva definición de aprendizaje automático.

Imagen de Héizel Vázquez

Introducción

Si busca el aprendizaje automático en línea, encontrará alrededor de 2,050,000,000 resultados. Sí, de verdad. No es fácil encontrar esa descripción o definición que se adapte a cada uso o caso, pero hay sorprendentes. Aquí propondré una definición diferente de aprendizaje automático, centrada en un nuevo paradigma, el tejido de datos.

Objetivos

General

Explicar la conexión del tejido de datos con el aprendizaje automático.

Específicos

  • Give una descripción del tejido de datos y los ecosistemas para crearlo.
  • Explique en pocas palabras qué es el aprendizaje automático.
  • Proponga una forma de visualizar las percepciones del aprendizaje automático dentro del tejido de datos.

Teoría principal

Si podemos construir un tejido de datos que sea compatible con todos los datos de la empresa, entonces se puede pensar en un

insight en su interior como un dent en eso. El proceso automático de descubrir qué es esa percepción, se llama aprendizaje automático .

Sección 1. ¿Qué es el Data Fabric?

He hablado antes sobre el tejido de datos, y le di una definición (lo pondré aquí de nuevo a continuación).

Hay varias palabras que debemos mencionar cuando hablamos del tejido de datos: gráficos, conocimiento-gráfico, Ontología, semántica, datos enlazados. Lee el artículo de arriba si quieres esas definiciones; y luego podemos decir que:

Data Fabric es la plataforma que soporta todos los datos de la empresa. Cómo se gestiona, describe, combina y accede universalmente. Esta plataforma está formada por un Enterprise Knowledge Graph para crear un entorno de datos uniforme y unificado.

Vamos a romper esa definición en partes. Lo primero que necesitamos es un gráfico de conocimiento .

El gráfico de conocimiento consiste en colecciones integradas de datos e información que también contiene un gran número de enlaces entre diferentes datos. La clave aquí es que, en lugar de buscar posibles respuestas, bajo este nuevo modelo buscamos una respuesta. Queremos los hechos, de dónde provienen esos hechos es menos importante. Los datos aquí pueden representar conceptos, objetos, cosas, personas y en realidad lo que tenga en mente. El gráfico llena las relaciones, las conexiones entre los conceptos.

Los gráficos de conocimiento también te permiten crear estructuras para las relaciones en el gráfico. Con esto, es posible establecer un marco para estudiar datos y su relación con otros datos ( ¿Recordamos ontología? ).

En este contexto, podemos hacer esta pregunta a nuestro lago de datos:

¿Qué existe aquí?

El concepto del lago de datos también es importante porque necesitamos un lugar para almacenar nuestros datos, gobernarlos y ejecutar nuestros trabajos. Pero necesitamos un lago de datos inteligente, un lugar que entienda lo que tenemos y cómo usarlo, ese es uno de los beneficios de tener un tejido de datos.

El tejido de datos debe ser uniforme y unificado, lo que significa que debemos hacer una esfuerzo para poder organizar todos los datos de la organización en un lugar y realmente gestionarlos y gestionarlos.

Sección 2. ¿Qué es el aprendizaje automático?

http://www.cognub.com/index.php/ plataforma cognitiva /

El aprendizaje automático ha existido desde hace un tiempo. Hay excelentes descripciones, libros, artículos y blogs al respecto, por lo que no voy a aburrirte con 10 párrafos sobre lo que es.

Solo quiero aclarar algunos puntos.

El aprendizaje automático es no es mágico.

El aprendizaje automático forma parte del flujo de trabajo de la ciencia de datos. Pero no es el final.

El aprendizaje automático necesita datos para existir. Al menos por ahora.

Bien, después de eso, permítanme darles una definición personalizada y personalizada del aprendizaje automático:

El aprendizaje automático es el proceso automático de comprensión de patrones en datos y algunas representaciones de datos mediante el uso de algoritmos que pueden extraiga esos patrones sin estar específicamente programado para eso, para crear modelos que resuelvan un problema particular (o múltiple).

Puede estar de acuerdo con esta definición o no, hay grandes en la literatura en este momento, solo creo que este es simple y útil para lo que quiero expresar.

Sección 3. Aprendizaje automático en el tejido de datos

En la teoría de la gravedad de Einstein (Relatividad General), propuso matemáticamente que la masa puede deformar el espacio-tiempo. Y esa deformación es lo que entendemos por gravedad. Sé que si no estás familiarizado con la teoría, puede sonar extraño. Déjeme intentar explicarlo.

En el espacio-tiempo “plano” de la relatividad especial, donde la gravedad está ausente, las leyes de la mecánica adquieren una forma especialmente simple: mientras ninguna fuerza externa actúe sobre un objeto, se moverá en una línea recta a través del espacio-tiempo: a una velocidad constante a lo largo de un camino recto (primera ley de la mecánica de Newton).

Pero cuando tenemos masa y aceleración podemos decir que estamos en presencia de la gravedad. Como dijo Wheeler:

Spacetime le dice a la materia cómo moverse; la materia le dice al espacio-tiempo cómo curvarse.

https://medium.com/media/d49ac03b2bbc8eb12f82f6dbf4a8aba4/href

En la imagen de arriba, los “cubos” son una representación del tejido espacio-temporal, y cuando la masa se mueve dentro de ella , lo deforma, la forma en que se mueven las “líneas” nos diría cómo se comportará un objeto cercano a ese. Así que la gravedad es algo así como:

https://medium.com/media/28f8058cbe3be47b04dacb57d0facb25/href

Así que cuando tenemos masa podemos hacer una “abolladura” en el espacio-tiempo, y después de eso lo que vemos cuando Están cerca de esa abolladura, es la gravedad. Tenemos que estar lo suficientemente cerca del objeto para sentirlo.

Eso es exactamente lo que propongo, qué es el aprendizaje automático en el tejido de datos. Sé que sueno loco. Déjeme explicarme.

Digamos que hemos creado una estructura de datos. Para mí, la mejor herramienta que hay para mí es Anzo como mencioné en otros artículos.

https://www.cambridgesemantics.com/

Puedes construir algo llamado “The Enterprise Knowledge Graph” con Anzo, y de Por supuesto, cree su estructura de datos.

Los nodos y los bordes del gráfico capturan de manera flexible un gemelo de alta resolución de cada fuente de datos, estructurado o no estructurado. El gráfico puede ayudar a los usuarios a responder cualquier pregunta de forma rápida e interactiva, permitiendo a los usuarios conversar con los datos para descubrir insights .

Por cierto, esta es la forma en que estoy imaginando una idea:

Image por Héizel Vázquez

Si tenemos el tejido de datos:

Imagen por Héizel Vázquez

lo que propongo es que una idea se puede pensar como dent en eso. Y el proceso automático de descubrir qué es esa visión, es el aprendizaje automático.

Imagen de Héizel Vázquez

Así que ahora podemos decir:

El aprendizaje automático es el proceso automático de descubrir perspectivas ocultas en el tejido de datos. mediante el uso de algoritmos que pueden encontrar esas percepciones sin estar específicamente programados para eso, para crear modelos que resuelvan un problema (o múltiples) en particular.

Las percepciones generadas con el tejido son en sí mismos datos nuevos que se vuelven explícitos / manifiestos como parte de la tela. es decir, las perspectivas pueden hacer crecer el gráfico, lo que podría generar nuevas percepciones.

En el tejido de datos tenemos un problema, al intentar encontrar esas percepciones ocultas en los datos y luego, mediante el aprendizaje automático, podemos descubrirlos. ¿Cómo se vería esto en la vida real?

La ​​gente en Cambridge Semantics también tiene la respuesta con Anzo. La solución Anzo para Aprendizaje automático reemplaza este trabajo tedioso y propenso a errores con una moderna plataforma de datos diseñada para integrar, armonizar y transformar rápidamente los datos de todas las fuentes de datos relevantes en conjuntos de datos optimizados listos para el Aprendizaje automático.

La funcionalidad avanzada de transformación de datos es esencial para que la ingeniería de características rápida y efectiva ayude a separar las señales clave del negocio del ruido irrelevante.

Recuerde, los datos son lo primero este nuevo paradigma integra y armoniza todas las fuentes de datos relevantes, estructuradas y desestructuradas datos similares: utilizando una base de datos gráfica integrada y una capa de datos semánticos. La estructura de datos transmite el contexto empresarial y el significado de sus datos, lo que facilita la comprensión y el uso adecuados por parte de los usuarios empresariales.

La ​​reproducibilidad es importante para la ciencia de datos y, por supuesto, para el aprendizaje automático, por lo que necesitamos una manera fácil de reutilizar la estructura armonizada. y datos no estructurados mediante la gestión de catálogos de conjuntos de datos, así como aspectos continuos de las integraciones de datos, como el procesamiento de la calidad de los datos, y esto es lo que proporciona el tejido de datos. También conserva el linaje y la procedencia de extremo a extremo para los datos que comprenden conjuntos de datos de aprendizaje automático, de modo que es fácil descubrir qué transformaciones de datos se requieren cuando se trata de usar modelos en producción.

En los siguientes artículos, daré un ejemplo concreto de cómo hacer el aprendizaje automático en este nuevo marco.

Conclusiones

El aprendizaje automático no es nuevo, pero hay un nuevo paradigma para hacerlo, y tal vez sea el futuro del campo (qué optimista soy yo) ). Dentro del tejido de datos, tenemos nuevos conceptos como ontología, semántica, capas, conocimiento-gráfico, etc .; pero todos ellos pueden mejorar la forma en que pensamos y hacemos el aprendizaje automático.

En este paradigma, descubrimos información oculta en el tejido de datos mediante el uso de algoritmos que pueden encontrar esa información sin estar específicamente programados para eso, para crear modelos que resuelven un problema (s) particular (o múltiple).

Gracias al increíble equipo en Ciencia y Datos por ayudar con este artículo.

Gracias también por leer esto. Espero que hayas encontrado algo interesante aquí :). Si estos artículos te ayudan, ¡compártelos con tus amigos!

Si tienes alguna pregunta, sígueme en Twitter:

Favio Vázquez (@FavioVaz) | Twitter

y LinkedIn:

Favio Vázquez – Fundador – Ciencia y Datos | LinkedIn

Nos vemos allí:)


El tejido de datos para el aprendizaje automático. Parte 1. fue publicado originalmente en Hacia la ciencia de datos en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Dejá un comentario