Es el momento de cambiar la discusión de “Big Data” a “Deep Data”.
La exageración sobre Big Data está en decadencia. La nube, Hadoop y sus variantes la han solucionado.
“Big Data” es donde mucha gente sigue gastando bastante dinero en la construcción de infraestructuras más grandes para procesar, mantener y administrar estas inmensas bases de datos.
Esta búsqueda ciega de “Big” está generando algunos costos considerables y evitables en infraestructura y recursos humanos.
En lugar de recopilar todos los datos posibles para lograr “Big Data”, ahora debemos ser más cuidadosos y juiciosos.
Ahora debemos dejar que algunos datos caigan al suelo y buscar variedad en volumen y calidad en cantidad. Esto tendrá muchos beneficios a largo plazo.
Los mitos de Big Data
Para entender esta transición de “Big Data” a “Deep Data”; veamos primero algunas de las nociones erróneas que tenemos sobre el big data. Estos son algunos de los grandes mitos:
- Todos los datos pueden y deben ser capturados y almacenados.
- Más datos siempre ayudan a construir un modelo predictivo más preciso.
- Los costos de almacenamiento de más datos son casi cero. Los costos de cómputo de más datos son casi cero.
Aquí están las realidades:
- Los datos del IoT y el tráfico web aún superan nuestra capacidad de capturarlos todos. Algunos datos deben dejarse caer al suelo en la ingestión. Necesitamos ser inteligentes. Necesitamos clasificar nuestros datos en función del valor.
- El mismo ejemplo de datos repetido mil veces no mejora la precisión de un modelo predictivo.
- El costo de almacenar más datos no es solo el dólar por terabyte que Amazon Los servicios web te cobran. También es la complejidad adicional de encontrar y administrar múltiples fuentes de datos y el “peso virtual” de mover y usar esa información por parte de su personal. Estos costos son a menudo más altos que los costos de almacenamiento y cómputo.
- Los algoritmos de AI que necesitan los recursos computacionales pueden superar rápidamente incluso a una infraestructura de nube elástica.
El problema con creer en estos mitos es que diseñará sus sistemas de información de manera que se vean bien en el papel o en el largo plazo, pero demasiado engorroso en el marco de tiempo inmediato para que sea útil.
Cuatro problemas con Big Data
Aquí hay cuatro problemas con creer ciegamente que “más es mejor” cuando se trata de datos:
-
Más de lo mismo no existe ” t ayuda.
En la construcción de modelos de Machine learning para la IA, la diversidad de ejemplos de entrenamiento es de importancia crítica. La razón de esto es que los modelos están tratando de determinar los límites del concepto. Por ejemplo, si su modelo está tratando de definir el concepto de “trabajador retirado” utilizando la edad y la ocupación; entonces los ejemplos repetidos de Contadores Públicos Certificados de 32 años de edad le hacen poco bien al modelo ya que ninguno de ellos está retirado. Es más útil obtener ejemplos en el límite del concepto de la edad de 65 años y ver cómo varía la jubilación con la ocupación.
-
Los datos ruidosos pueden dañar un modelo.
Si los datos nuevos contienen errores, o son imprecisos, solo servirá para enturbiar el límite entre dos conceptos que una IA está tratando de aprender. Más datos, en este caso, no ayudarán y podrían reducir la precisión de sus modelos existentes.
-
Los datos grandes ralentizan todo.
Construir un modelo en un terabyte de datos puede llevar mil veces más que construir un modelo en un gigabyte de datos. O podría tardar diez mil veces más dependiendo del algoritmo de aprendizaje. data science se trata de una experimentación rápida. Mejor ser ágil e imperfecto. Fallar rapido.
-
Modelos implementables de Big Data.
El objetivo final de cualquier modelo predictivo es crear un modelo altamente preciso que se pueda implementar para el negocio. A veces, el uso de datos más oscuros de los recesos oscuros del lago de datos puede resultar en una mayor precisión, pero los datos utilizados pueden no ser confiables para la implementación real. Es mejor tener un modelo menos preciso que se ejecute rápidamente y pueda ser utilizado por las empresas.
Deep Data: Cuatro cosas para hacer mejor
Hay varias cosas que puedes hacer para combatir el ‘lado oscuro’ de los datos masivos y avanzar hacia un mentalidad de Deep Data:
-
Comprenda el intercambio de precisión / ejecución.
Con demasiada frecuencia, los data sciences asumen que el objetivo son modelos más precisos. Comience su proyecto con expectativas de ROI explícitas basadas en la precisión y la velocidad de implementación.
-
Cree cada modelo con una muestra aleatoria.
Si tienes big data, entonces no hay razón para usar todo. Si tiene una buena función de muestreo aleatorio; entonces puede predecir con precisión la precisión de un modelo construido con toda la base de datos a partir de pequeñas muestras. Trabaje rápidamente con muestras pequeñas y luego construya el modelo final con toda la base de datos.
-
Descargue algunos datos.
Si está abrumado con la transmisión de datos desde dispositivos IoT y otras fuentes, siéntase libre de ser inteligente al lanzar algunos datos. No puede comprar el disco suficiente para almacenarlo todo y acumulará todo lo que está trabajando en las etapas posteriores de su línea de producción de data science.
-
Busque más fuentes de datos.
Muchos de los avances recientes en la inteligencia artificial no provienen de conjuntos de datos más grandes, sino de la capacidad de los algoritmos de Machine Learning para acceder a datos que antes no estaban disponibles para ellos. Por ejemplo, los grandes conjuntos de datos de texto, imagen, video y audio que son comunes hoy en día no existían hace veinte años. Esté constantemente atento a estas nuevas oportunidades de datos.
Deep Data: Cuatro cosas que mejoran
Si se enfoca en Deep Data en lugar de solo en datos masivos, disfrutará de muchos beneficios. Estas son algunas de las claves:
-
Todo será más rápido.
Con datos más pequeños, su movimiento de datos, experimentación, entrenamiento y puntuación de los modelos serán mucho más rápidos.
-
Se requiere menos almacenamiento y cálculo
Un enfoque en los Deep Data significa que será más inteligente al usar un disco más pequeño y una huella de cómputo en la nube. Esto se traduce directamente en menores costos de infraestructura. ¡Contrata más data sciences y expertos en inteligencia artificial con el dinero que ahorras!
-
Menos tensión en TI y data sciences más felices.
Con una cultura de Deep Data; TI tendrá menos probabilidades de hacer recados para el equipo de data science o de tener que eliminar trabajos fuera de control que están absorbiendo todos los recursos de la nube.
Los data sciences pueden dedicar más tiempo a construir y probar modelos en lugar de mover datos o esperar a que se completen largas sesiones de capacitación.
-
Se pueden resolver problemas más difíciles
Construir un modelo de IA no es una experiencia mágica que solo puede ser ejecutada por investigadores de tipo asistente. Es mucho más sobre logística que magia.
Es similar a la historia de un profesor de arte que le dijo a la mitad de su clase que su calificación se basaría en la cantidad de piezas de arte que produjeron y que la otra mitad de la clase se calificaría según la calidad de su mejor obra. No es de extrañar que la cantidad de alumnos produzca la mayor cantidad de obras de arte. Sorprendentemente también produjeron artículos de la más alta calidad. La cantidad a veces engendra calidad. En nuestro caso, más modelos probados bajo las mismas restricciones de recursos pueden significar un mejor modelo.
Big Data y los avances tecnológicos han avanzado en gran medida en el impulso de muchas empresas a convertirse en datos en sus procesos de toma de decisiones.
Con el aumento de la inteligencia artificial y nuestra capacidad para saturar incluso esos poderosos recursos, ahora necesitamos ser más precisos en lo que necesitamos de nuestros datos.
Lo que se necesita ahora es construir una cultura de comprensión de los Deep Data y no solo de Big Data.