Cloudera

Cloudera Data Analyst Training - Virtual English

Live Virtual Class
Duración
28 horas
Precio
2695,00 €
Próximas convocatorias
Acerca de este curso
A quién va dirigido
Objetivos del curso
Certificación asociada
Contenidos
Convocatorias abiertas

Próximas convocatorias
Ver todas las convocatorias

04 nov 19
07 nov 19

Live Virtual Class | Inglés | De Lunes a Jueves (09:00h - 17:00h)
28 h.    2695 €
16 dic 19
19 dic 19

Live Virtual Class | Inglés | De Lunes a Jueves (09:00h - 17:00h)
28 h.    2695 €

Acerca de este curso

Este curso se centra en Apache Hive y Cloudera Impala, y tiene como objetivo enseñar a los alumnos a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares.

Apache Hive hace que los datos multi-estructurados sean accesibles a para los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Curso dirigido a analistas de datos, especialistas en inteligencia de negocio, desarrolladores, arquitectos de sistemas y administradores de bases de datos. Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. Aunque no es obligatorio, se recomienda el manejo de algún lenguaje de scripting (Bash scripting, Perl, Python, Ruby). No son necesarios conocimientos de Hadoop.

Objetivos del curso

Al finalizar la formación, el participante sabrá:

  • La manera en la que el ecosistema open source de herramientas Big Data aborda desafíos que no pueden abarcar los RDBMSs tradicionales.
  • Uso de Apache Hive y Apache Impala para proporcionar acceso mediante el uso de SQL a los datos.
  • La sintaxis y los formatos de datos que utilizan Hive e Impala, incluyendo las funciones y las subconsultas.
  • Crear, modificar y borrar tablas, vistas y bases de datos; cargar datos; y guardar los resultados en consultas.
  • Crear y usar particiones y diferentes tipos de archivos.
  • Combinar dos o más datasets con el uso de JOIN o UNION, según sea conveniente.
  • Comprensión detallada de las funciones analíticas y las funciones de ventana y uso de ambas.
  • Almacenar y consultar estructuras de datos complejas o anidadas.
  • Procesar y analizar datos semi-estructurados o no estructurados.
  • Técnicas para la optimización de las consultas en Hive e Impala.
  • Extender las capacidades de Hive e Impala con la utilización de parámetros, formatos personalizados de archivos, SerDes y scripts externos.
  • Determinar si Hive, Impala, un RDBMS o una combinación de todos ellos es lo mejor para una tarea determinada.

Certificación asociada

La Certificación Cloudera Certified Data Analyst, ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas:

  • Preparar los datos.
  • Proporcionar estructura a los datos.
  • Análisis de datos.

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Data Analyst.

Más información sobre la certificación CCA Data Analyst en el siguiente enlace.

Contenidos

Introducción

Fundamentos Hadoop

  • ¿Por qué Hadoop?
  • Aspectos generales de Hadoop
  • Almacenamiento de datos: HDFS
  • Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
  • Procesamiento y análisis de datos: Hive, e Impala
  • Integración de datos: Sqoop
  • Otras herramientas de datos de Hadoop
  • Explicación del escenario con ejercicios

Introducción a Hive e Impala

  • ¿Qué es Hive?
  • ¿Qué es Impala?
  • ¿Por qué utilizar Hive e Impala?
  • Schema y almacenamiento de datos
  • Comparación entre Hive y bases de datos tradicionales
  • Casos de uso

Consultas con Hive e Impala

  • Tablas y bases de datos
  • Sintaxis básica en consultas Hive e Impala
  • Tipos de datos
  • Empleo de Hue para ejecutar consultas
  • Empleo de Beeline (la Shell de Hive)
  • Empleo de la Shell de Impala

Operadores comunes y funciones integradas

  • Operadores
  • Funciones escalares
  • Funciones de agregación

Administración de datos

  • Almacenamiento de datos
  • Creación de bases de datos y tablas
  • Carga de datos
  • Alteración de bases de datos y tablas
  • Simplificación de consultas con vistas
  • Almacenamiento de resultados de consultas

Almacenamiento de datos y rendimiento

  • Partición de tablas
  • Carga de datos en tablas particionadas
  • Cuándo utilizar el particionamiento
  • Elección de formato de almacenamiento
  • Gestión de metadatos
  • Control de acceso a datos

Trabajando con múltiples Datasets

  • UNION y Joins
  • Manejo de valores NULL en Joins
  • Joins avanzados

Funciones analíticas y funciones de ventana

  • Utilización de funciones analíticas comunes
  • Otras funciones analíticas
  • Ventanas deslizantes

Datos complejos

  • Datos complejos con Hive
  • Datos complejos con Impala

Análisis de texto

  • Empleo de expresiones regulares
  • Procesamiento de texto con SerDes en Hive
  • Análisis de los sentimientos y n-grams

Optimización Hive

  • Rendimiento de las consultas
  • Bucketing
  • Indexación de datos
  • Hive en Spark

Optimización de Impala

  • Ejecución de consultas
  • Mejorar el rendimiento de Impala

Extendiendo Hive e Impala

  • Customizar SerDes y formatos de fichero en Hive
  • Transformación de datos con Scripts personalizados en Hive
  • Funciones definidas por el usuario
  • Consultas parametrizadas

Elección de la mejor opción

  • Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
  • ¿Cuál elegir?

Conclusión

Convocatorias abiertas

04 nov 19
07 nov 19

Live Virtual Class | Inglés | De Lunes a Jueves (09:00h - 17:00h)
28 h.    2695 €
16 dic 19
19 dic 19

Live Virtual Class | Inglés | De Lunes a Jueves (09:00h - 17:00h)
28 h.    2695 €