Apache Hadoop - Una mirada más cercana
Apache Hadoop ofrece soluciones para la recopilación y el procesamiento de datos a gran escala. El ASF sirve como repositorio central y punto de distribución de los proyectos, y Apache sirve como núcleo de la comunidad de usuarios y desarrolladores. Apache Hadoop pretende facilitar el despliegue de aplicaciones de gran tamaño gracias a su compatibilidad con la plataforma Java y el servidor. Apache Hadoop fue desarrollado por Juhan Lamb Pedrick, Alex Balcov, Michael J. Cafarella, Gerald M. Glassner y Raymond C. Tsouline. Se basa en la tecnología del sistema de gestión de bases de datos NoSQL que se desarrolló por primera vez en Facebook y que posteriormente utilizaron Twitter y Google.
Apache Hadoop incluye una amplia tecnología que incluye Map-Reduce, Yago, Summation, y mucho más. Apache Hadoop se desarrolló para hacer que el marco de trabajo Map-Reduce fuera más eficaz y sencillo de utilizar, al tiempo que proporcionaba una interfaz de usuario intuitiva para los programadores. Apache Hadoop pretende pasar de las instalaciones de servidor tradicionales a un sistema distribuido totalmente paralelo, que ejecuta miles de tareas en paralelo. Es capaz de manejar grandes cantidades de tareas con gran cantidad de datos permitiendo a cada trabajador dividir el trabajo en pequeños trozos para que las grandes tareas puedan ser divididas eficientemente por el clúster subyacente.
Análisis de datos distribuidos Con la ayuda de Apache Hadoop, los usuarios pueden acceder a los datos en tiempo real desde cualquier dispositivo, sin necesidad de costosos sistemas distribuidos o medios de almacenamiento. Apache Hadoop ofrece tecnologías de almacenamiento y procesamiento de datos altamente escalables y eficaces. El marco de trabajo Map Reduce permite a los usuarios reducir eficazmente la complejidad de los mapas, lo que permite el desarrollo de gráficos más complejos y aplicaciones de Business Intelligence (BI). Los usuarios también pueden construir aplicaciones sencillas de Extracción-Transformación-Carga (ETL), que permiten a los gestores de ETL manejar eficientemente transformaciones complejas.