Big Data Integration: El qué, por qué y cómo?

Big Data integration es un paso importante y esencial en cualquier proyecto de Big Data. Hay, sin embargo, varias cuestiones a tener en cuenta. En términos generales, Big Data Integration combina datos que se originan en una variedad de diferentes fuentes y formatos de software, y luego proporciona a los usuarios una vista traducida y unificada de los datos acumulados.

La gestión de Big Data “integrado” garantiza una mayor confianza en la toma de decisiones y proporciona información superior. El proceso de integración de grandes conjuntos de datos puede ser bastante complicado y puede presentar varios desafíos .

Algunos de los desafíos que se enfrentan durante el proceso de integración incluyen:

Incertidumbre de los datos, administración.
Sincronización a través de las fuentes de datos.
Información de hallazgos y disponibilidad de habilidades.

Un objetivo principal de la implementación de Big Data es presentar los datos de formas nuevas y únicas.

Para obtener nuevos conocimientos y, en los negocios, nuevas ventajas. Reconocer las necesidades de la organización antes de “organizar” los datos es útil en una amplia gama de proyectos de Big Data, que incluyen investigación empresarial y científica.

Big Data Integration combina datos tradicionales, redes sociales, datos de Internet of Things (IoT) y datos transaccionales. Los datos que no son compatibles, o que no se han traducido / transformado, son esencialmente inútiles para tales proyectos.

John Thielens, el Director de tecnología de Cleo , un servicio de soluciones de Big Data integration , dice:

“Mucho de lo que se discute sobre Big Data tiene que ver con las maravillas de las poderosas herramientas de análisis de hoy en día. Pero antes de que se pueda realizar cualquier análisis, la integración de datos tiene que suceder. Eso significa que sus datos, históricos, operativos y en tiempo real, deben ser obtenidos, transferidos, transformados y aprovisionados para los usuarios, con tecnologías que prometen seguridad y control en todo el camino “.

Herramientas de Big Data integration

A medida que las herramientas “tradicionales” para la integración de datos continúan evolucionando, deben ser reevaluadas por sus habilidades para procesar la creciente variedad de datos no estructurados, así como el creciente volumen de Big Data. Las tecnologías de integración deben tener una plataforma común para admitir la calidad de datos y la creación de perfiles.

La integración de datos de diferentes aplicaciones toma datos de un entorno (la fuente) y los envía a otro entorno de datos (el destino). En los almacenes de datos tradicionales, las tecnologías ETL (extracción, transformación y carga) se utilizan para organizar los datos. Esas tecnologías han evolucionado, y continúan evolucionando, para funcionar en entornos de Big Data.

Cuando se trabaja con Big Data, las herramientas que admiten procesos de integración por lotes, con integración en tiempo real a través de varias fuentes, pueden ser bastante útiles.

Una compañía farmacéutica, por ejemplo, puede querer combinar los datos almacenados en su sistema MDM ( Master Data Management ) y Big Data de fuentes que describen los resultados del uso de medicamentos recetados.

Cuando se utiliza la nube, los datos se pueden organizar mediante la integración de la plataforma como servicio (iPaaS). Este servicio es generalmente fácil de usar y puede incluir datos de fuentes basadas en la nube, como Software-as-a-Service (SaaS).

Las organizaciones utilizan los sistemas MDM para promover la recopilación, agregación, consolidación y entrega de datos confiables en toda la organización. Además, se están utilizando nuevas herramientas, como Scribe y Sqoop, para admitir la integración de Big Data. También hay un creciente énfasis en las tecnologías ETL en la investigación de Big Data.

Mike Tuchen, CEO de Talend , un servicio de soluciones de código abierto de ETL, dijo:

“Se está produciendo un cambio único en la generación en la industria a medida que se redefine toda la pila de Data Management. Las compañías ahora reconocen que los datos son una ventaja competitiva y se están alejando de las soluciones de integración heredadas a soluciones más ágiles y modernas que están optimizadas para Hadoop “.

Los desafíos de la Big Data integration

Encontrar personal:

aunque la cantidad de científicos de datos y analistas de Big Data sigue creciendo, todavía falta gente para ocupar todos los puestos en la industria de investigación de Big Data.

El experto típico en Big Data ha adquirido experiencia en la implementación de herramientas y tiene una comprensión de cómo organizar los datos para investigarlos mejor.

Los científicos de datos y los analistas de Big Data deben estar familiarizados con las herramientas tradicionales de bases de datos relacionales, así como con los análisis en memoria, los marcos de administración de datos NoSQL y los ecosistemas de Hadoop.

Incorporación de los datos:

los problemas relacionados con el acceso a los datos provenientes de una amplia gama de fuentes también son un desafío. Las habilidades necesarias para navegar los procesos de extracción son necesarias para el objetivo de analizar y procesar Big Data.

Sincronización:

Los datos provenientes de una amplia gama de fuentes utilizan diferentes horarios y tasas, y pueden desincronizarse rápidamente del sistema de origen. La sincronización de datos proporciona consistencia en los sistemas y se actualiza continuamente para mantener esa consistencia. En los sistemas tradicionales de administración de datos, el proceso de extracción, migración y transformación de datos promueve la desincronización.

Herramientas de administración de datos:

La incompatibilidad entre las herramientas de administración de Big Data puede causar problemas. Pueden ser enfoques NoSQL incompatibles: la representación jerárquica de objetos y el almacenamiento de valores clave proporcionan dos buenos ejemplos. El rango de herramientas NoSQL ha causado cierta confusión con respecto a la compatibilidad de los diferentes enfoques. La selección de las herramientas adecuadas para un sistema de integración de datos altamente funcional requiere previsión. Las pequeñas organizaciones que planean iniciar el almacenamiento de datos se enfrentan a una decisión sobre las herramientas que usarán.

Elegir una estrategia:

La integración de Big Data a menudo comienza con una simple necesidad de compartir información. A menudo, esto es seguido por un interés en desglosar los “silos de datos” para fines de análisis. Las empresas a menudo saltan de un proyecto a otro sin un plan de organización.

Para cumplir con objetivos que a veces son contradictorios, e incluyen necesidades de seguridad y cumplimiento, se debe desarrollar una verdadera estrategia de integración de datos .

Teniendo en cuenta el panorama general

Ignorar la integración de Big Data es, a largo plazo, ineficiente y consume mucho tiempo. Muchos líderes de organizaciones dan por sentado la tecnología. Creyendo que todas las soluciones de integración de datos son iguales, sin evaluarlas y probarlas.

En verdad, hay una variedad de tecnologías de integración de datos disponibles, en términos de funciones y los problemas que abordan. Las consideraciones deben incluir el rendimiento, la gobernabilidad de los datos y la seguridad.

Las organizaciones que implementan soluciones de integración de Big Data a menudo ignoran estas consideraciones. Porque no entienden que estos conceptos están realmente relacionados con la integración de datos.

Estos son conceptos que deben ser componentes básicos del proceso de integración de datos. Comenzando con una arquitectura lógica y pasando a la implementación física. Si no están integrados inicialmente, deberán agregarse más tarde. Si bien la integración de rendimiento, gobierno y seguridad puede parecer obvia para algunos, la mayoría de las organizaciones los ignoran durante la fase de planificación.

En el lado positivo, la tecnología de integración de datos continúa mejorando y ha cambiado con los cambios en la infraestructura, como la nube y Big Data . A pesar de su flexibilidad y su continua evolución. Todavía debe haber algunas reflexiones duras durante la fase de planificación para configurar un sistema de Big Data Integration.

Bases de datos de Big Data

Los elementos básicos de una base de datos de Big Data organizan los datos de formas novedosas en comparación con las bases de datos relacionales tradicionales. Esto es principalmente el resultado de la escalabilidad y el uso de datos estructurados y no estructurados.

Para que un análisis de Big Data sea útil, debe ser comprendido y confiable por la administración superior. Los conceptos básicos de un ecosistema de Big Data incluyen Cassandra, Hadoop, Hbase, MongoDB y muchos otros.

Si bien cada uno tiene sus propias formas de extraer y cargar datos, varios usan Hadoop como base. Elegir la mejor plataforma de Big Data requiere una reflexión seria.

Cassandra

Ha combinado dos tecnologías de Big Data, Dynamo y BigTable de código abierto de Google.

Esta plataforma es “extremadamente” escalable y está diseñada para hacer frente a los desafíos de la gestión de datos en las empresas modernas. También está descentralizado, proporcionando mecanismos de redundancia. Cassandra viene con la integración de Hadoop y el soporte MapReduce. Las debilidades de Cassandra incluyen opciones limitadas para recuperar datos. Y las tareas en segundo plano hacen que su desempeño sea “ocasionalmente” impredecible.

Hadoop

Viene con tres grandes fortalezas. Funciona con datos estructurados y no estructurados, es rentable (de código abierto) y es rápido. Las fuentes pueden provenir de redes sociales, datos de flujo de clics o agencias gubernamentales. Como sistema de almacenamiento de datos, Hadoop es una solución sorprendentemente rentable. Como almacenamiento separado, el sistema primario puede funcionar más rápidamente. También proporciona copias de seguridad automáticas para datos perdidos. Por otro lado, Hadoop no proporciona seguridad y puede ser fácilmente hackeado. Tampoco es muy bueno trabajar con datos “pequeños”.

Hbase

Una plataforma muy popular con varias fortalezas, incluida la compatibilidad con la coherencia, la fragmentación y la conmutación por error , y la carga compartida. También viene con algunas debilidades . Si el “Hmaster” falla, lleva un “largo tiempo” recuperarlo. También tiene problemas con las consultas y no puede proporcionar más de una indexación dentro de la tabla.

MongoDb

Es una base de datos de documentos muy rápida, y ofrece propiedades ACID. Tiene un mecanismo de conmutación por error que funciona automáticamente. Es compatible con mecanismos de autenticación comunes como LDAP y AD y hace que la replicación sea muy fácil. La separación automática permite la escalabilidad horizontal y la base de datos facilita las consultas. Lamentablemente, no es compatible con las operaciones JOIN, ni con las transacciones. También tiene algunas limitaciones de memoria debido a los métodos de indexación.

La publicación Big Data Integration 101: The What, Why, and How apareció primero en DATAVERSITY .