Cloudera

Cloudera Data Analyst Training - Virtual

Elige la convocatoria

inscribirme
Virtual Class
Duración
28 horas
Idioma
Precio
2695,00 €
Próximas convocatorias
Acerca de este curso
A quién va dirigido
Objetivos del curso
Certificación asociada
Contenidos
Convocatorias abiertas

Próximas convocatorias
Ver todas

29 may 17
02 jun 17

Virtual Class | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
26 jun 17
30 jun 17

Virtual Class | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €

Acerca de este curso

El curso se centra en Apache Pig, Apache Hive y Cloudera Impala, y tiene como objetivo enseñar a los alumnos a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares.

Apache Hive hace que los datos multi-estructurados sean accesibles a para los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Apache Pig aplica los fundamentos de lenguajes de scripting familiares para el cluster Hadoop. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Curso dirigido a analistas de datos, especialistas en inteligencia de negocio, desarrolladores, arquitectos de sistemas y administradores de bases de datos. Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. Aunque no es obligatorio, se recomienda el manejo de algún lenguaje de scripting (Bash scripting, Perl, Python, Ruby). No son necesarios conocimientos de Hadoop.

Objetivos del curso

Al finalizar la formación, el participante sabrá:

  • Las características que Pig, Hive e Impala ofrecen para la adquisición, almacenamiento y análisis de datos.
  • Fundamentos de Apache Hadoop y datos ETL (extracción, transformación y carga), entrada y procesamiento con herramientas Hadoop.
  • Cómo Pig, Hive e Impala mejoran la productividad para tareas típicas de análisis.
  • Unión de múltiples conjuntos de datos y análisis de datos dispares con Pig.
  • Organizar datos en tablas, realizar transformaciones y simplificar complejas queries con Hive.
  • Realizar de consultas complejas en tiempo real en conjuntos de datos.

Certificación asociada

La Certificación Cloudera Certified Data Analyst, ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas:

  • Preparar los datos
  • Proporcionar estructura a los datos
  • Análisis de datos

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Data Analyst.

Más información sobre la certificación CCA Data Analyst en el siguiente enlace.

Contenidos

Introducción

Fundamentos Hadoop

  • ¿Por qué Hadoop?
  • Aspectos generales de Hadoop
  • Almacenamiento de datos: HDFS
  • Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
  • Procesamiento y análisis de datos: Pig, Hive, e Impala
  • Integración de datos: Sqoop
  • Otras herramientas de datos de Hadoop
  • Explicación del escenario de ejercicios

Introducción a Pig

  • ¿Qué es Pig?
  • Características de Pig
  • Casos de empleo de Pig
  • Interación con Pig

Análisis de datos básico con Pig

  • Sintaxis Pig Latin
  • Carga de datos
  • Tipos simples de datos
  • Definición de campos
  • Datos de salida
  • Vistas y esquemas
  • Filtrado y ordenación de datos
  • Funciones habituales

Procesado de datos complejos con Pig

  • Formatos de almacenamiento
  • Tipos de datos complejos y anidados
  • Agrupaciones
  • Funciones predefinidas para datos complejos
  • Iteración de datos agrupados

Operaciones con multiconjuntos de datos con Pig

  • Técnicas para combinar conjuntos de datos
  • Unión de conjuntos de datos con Pig
  • Conjunto de operaciones
  • División de conjuntos de datos

Troubleshooting y optimización de Pig

  • Troubleshooting en Pig
  • Inicio de sesión
  • Empleo de UI web Hadoop
  • Muestreo de datos y depuración
  • Visión general del rendimiento
  • Comprensión del plan de ejecución
  • Consejos para mejorar el rendimiento de Jobs en Pig

Introducción a Hive e Impala

  • ¿Qué es Hive?
  • ¿Qué es Impala?
  • Schema y almacenamiento de datos
  • Comparación entre Hive y bases de datos tradicionales
  • Casos de empleo de Hive

Consultas con Hive e Impala

  • Tablas y bases de datos
  • Sintaxis básica en consultas Hive e Impala
  • Tipos de datos
  • Diferencias entre sintaxis de consultas Hive e Impala
  • Empleo de Hue para ejecutar consultas
  • Empleo de la shell de Impala

Administración de datos

  • Almacenamiento de datos
  • Creación de bases de datos y tablas
  • Carga de datos
  • Alteración de bases de datos y tablas
  • Simplificación de consultas con vistas
  • Almacenamiento de resultados de consultas

Almacenamiento y datos de rendimiento

  • Partición de tablas
  • Elección de formato de almacenamiento
  • Gestión de metadatos
  • Control de acceso a datos

Análisis de datos relacional con Hive y Impala

  • Unión de conjuntos de datos
  • Funciones predefinidas habituales
  • Agregaciones y Windowing

Trabajar con Impala

  • Cómo Impala ejecuta consultas
  • Extendiendo Impala con funciones definidas por el usuario
  • Mejora del rendimiento Impala

Analizando texto y datos complejos con Hive

  • Valores complejos en Hive
  • Empleo de expresiones regulares en Hive
  • Análisis de los sentimientos y N•Grams
  • Conclusión

Optimización Hive

  • Rendimiento de las consultas
  • Control de plan de ejecución de tareas
  • Bucketing
  • Indexación de datos

Extensión de Hive

  • SerDes
  • Transfomación de datos con Scripts personalizados
  • Funciones definidas por usuarios
  • Consultas parametrizadas

Elección de la mejor opción

  • Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales
  • ¿Cuál elegir?

Conclusión

Convocatorias abiertas

29 may 17
02 jun 17

Virtual Class | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
26 jun 17
30 jun 17

Virtual Class | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €