apache hive es una solución de almacenamiento de datos construida encima de Hadoop y proporciona lenguaje de consulta SQL del mismo nombre: HiveQL.
Que requiere HiveQL?, en principio una curva de aprendizaje mínima para las personas con conocimientos de SQL, por lo que los analistas de datos son público objetivo para desarrollar tareas relacionadas con esto.
El trabajo de desarrollo de hive se inició en Facebook en el año 2007; Actualmente apache hive es un proyecto de Apache bajo Hadoop.
Sabemos que hadoop nos proporciona diversas herramientas la cuales proporcionan una funcionalidad específica.
Teniendo en cuenta lo mencionado anteriormente es intuitiva la pregunta:
Que proporciona apache hive?
hive brinda la capacidad de una estructura a varios formatos de datos además de una interfaz sencilla para consultas ad hoc, analizar y resumir grandes cantidades de datos; como así también el acceso a los archivos en varios almacenes de datos tales como HDFS y HBase
También esta bueno que veamos lo que no proporciona:
apache hive NO proporciona latencia o tiempo real las consultas bajas y a pesar de que una consulta o query tenga pequeñas cantidades de datos la misma pueden tardar minutos.
apache hive esta diseñado para la escalabilidad y facilidad de uso en lugar de respuestas de baja latencia
• Traduce declaraciones HiveQL en un conjunto de sets de MapReduce Jobs que luego son ejecutados en un clúster Hadoop: