Cloudera Data Analyst Training

28 horas

1840,00 €

Presencial o Live Virtual Class

Acerca de este curso
Dirigido a
Objetivos
Contenidos
Solicitar Info

Solicitar Info

Actualmente no existen convocatorias programadas para este curso. Recuerda que puedes contactar con nosotros para solicitarnos cursos Private Training en otras fechas y ciudades.

Acerca de este curso

Este curso se centra en Apache Hive y Cloudera Impala, y tiene como objetivo enseñar a los alumnos a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares.

Apache Hive hace que los datos multi-estructurados sean accesibles a para los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.

PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Curso dirigido a analistas de datos, especialistas en inteligencia de negocio, desarrolladores, arquitectos de sistemas y administradores de bases de datos. Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. Aunque no es obligatorio, se recomienda el manejo de algún lenguaje de scripting (Bash scripting, Perl, Python, Ruby). No son necesarios conocimientos de Hadoop.

Objetivos del curso

Al finalizar la formación, el participante sabrá:

La manera en la que el ecosistema open source de herramientas Big Data aborda desafíos que no pueden abarcar los RDBMSs tradicionales.
Uso de Apache Hive y Apache Impala para proporcionar acceso mediante el uso de SQL a los datos.
La sintaxis y los formatos de datos que utilizan Hive e Impala, incluyendo las funciones y las subconsultas.
Crear, modificar y borrar tablas, vistas y bases de datos; cargar datos; y guardar los resultados en consultas.
Crear y usar particiones y diferentes tipos de archivos.
Combinar dos o más datasets con el uso de JOIN o UNION, según sea conveniente.
Comprensión detallada de las funciones analíticas y las funciones de ventana y uso de ambas.
Almacenar y consultar estructuras de datos complejas o anidadas.
Procesar y analizar datos semi-estructurados o no estructurados.
Técnicas para la optimización de las consultas en Hive e Impala.
Extender las capacidades de Hive e Impala con la utilización de parámetros, formatos personalizados de archivos, SerDes y scripts externos.
Determinar si Hive, Impala, un RDBMS o una combinación de todos ellos es lo mejor para una tarea determinada.

Contenidos

Introducción

Fundamentos Hadoop

¿Por qué Hadoop?
Aspectos generales de Hadoop
Almacenamiento de datos: HDFS
Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
Procesamiento y análisis de datos: Hive, e Impala
Integración de datos: Sqoop
Otras herramientas de datos de Hadoop
Explicación del escenario con ejercicios

Introducción a Hive e Impala

¿Qué es Hive?
¿Qué es Impala?
¿Por qué utilizar Hive e Impala?
Schema y almacenamiento de datos
Comparación entre Hive y bases de datos tradicionales
Casos de uso

Consultas con Hive e Impala

Tablas y bases de datos
Sintaxis básica en consultas Hive e Impala
Tipos de datos
Empleo de Hue para ejecutar consultas
Empleo de Beeline (la Shell de Hive)
Empleo de la Shell de Impala

Operadores comunes y funciones integradas

Operadores
Funciones escalares
Funciones de agregación

Administración de datos

Almacenamiento de datos
Creación de bases de datos y tablas
Carga de datos
Alteración de bases de datos y tablas
Simplificación de consultas con vistas
Almacenamiento de resultados de consultas

Almacenamiento de datos y rendimiento

Partición de tablas
Carga de datos en tablas particionadas
Cuándo utilizar el particionamiento
Elección del formato de archivo
Uso de los formatos de archivo Avro y Parquet

Trabajando con múltiples Datasets

UNION y Joins
Manejo de valores NULL en Joins
Joins avanzados

Funciones analíticas y funciones de ventana

Utilización de funciones analíticas comunes
Otras funciones analíticas
Ventanas deslizantes

Datos complejos

Datos complejos con Hive
Datos complejos con Impala

Análisis de texto

Empleo de expresiones regulares
Procesamiento de texto con SerDes en Hive
Análisis de Sentiment y n-grams

Optimización Hive

Rendimiento de las consultas
Bucketing
Indexación de datos
Hive en Spark

Optimización de Impala

Ejecución de consultas
Mejorar el rendimiento de Impala

Extendiendo Hive e Impala

Customizar SerDes y formatos de archivo en Hive
Transformación de datos con Scripts personalizados en Hive
Funciones definidas por el usuario
Consultas parametrizadas

Elección de la mejor opción

Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
¿Cuál elegir?

Conclusión

Apache Kudu

¿Qué es Kudu?
Tablas Kudu
Uso de Impala con Kudu

Convocatorias abiertas

Actualmente no existen convocatorias programadas para este curso. Recuerda que puedes contactar con nosotros para solicitarnos cursos Private Training en otras fechas y ciudades.