Cloudera
Cloudera Data Analyst Training - Virtual

Elige la convocatoria

inscribirme Solicitar Info

Datos de la convocatoria seleccionada:

Virtual
Horario
Duración
28 horas
Idioma
Precio
2695,00 €
Próximos cursos
Acerca de este curso
A quién va dirigido
Objetivos del curso
Contenidos
Convocatorias abiertas

Próximos cursos

30 ene 17
03 feb 17
Cloudera Data Analyst Training - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme
03 abr 17
07 abr 17
Cloudera Data Analyst Training - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme
29 may 17
02 jun 17
Cloudera Data Analyst Training - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme

Acerca de este curso

Este curso se centra en Apache Pig, Apache Hive y Cloudera Impala, y tiene como objetivo enseñar a los alumnos a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares.

Apache Hive hace que los datos multi-estructurados sean accesibles a para los analistas, administradores de bases de datos, y otras personas sin conocimientos de programación Java. Apache Pig aplica los fundamentos de lenguajes de scripting familiares para el cluster Hadoop. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Curso dirigido a analistas de datos, especialistas en inteligencia de negocio, desarrolladores, arquitectos de sistemas y administradores de bases de datos.

Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. Aunque no es obligatorio, se recomienda el manejo de algún lenguaje de scripting (Bash scripting, Perl, Python, Ruby).

No son necesarios conocimientos de Hadoop.

Objetivos del curso

El curso Cloudera Data Analyst Training centra su contenido en Apache Pig, Apache Hive y Cloudera Impala.

Al finalizar esta formación estará altamente capacitado en aplicar análisis de datos tradicionales y tendrá la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data.

Contenidos

- Introducción.

- Fundamentos Hadoop.

  • ¿Porqué Hadoop?.
  • Aspectos generales de Hadoop.
  • Almacenamiento de datos: HDFS.
  • Procesamiento de datos distribuidos: YARN, MapReduce, y Spark.
  • Procesamiento y análisis de datos: Pig, Hive, e Impala.
  • Integración de datos: Sqoop.
  • Otras herramientas de datos de Hadoop.
  • Explicación del escenario de ejercicios.

- Introducción a Pig.

  • ¿Qué es Pig?.
  • Características de Pig.
  • Casos de empleo de Pig.
  • Interación con Pig.

- Análisis de datos básico con Pig.

  • Sintaxis Pig Latin.
  • Carga de datos.
  • Tipos simples de datos.
  • Definición de campos.
  • Datos de salida.
  • Vistas y esquemas.
  • Filtrado y ordenación de datos.
  • Funciones habituales.

- Procesado de datos complejos con Pig.

  • Formatos de almacenamiento.
  • Tipos de datos complejos y anidados.
  • Agrupaciones.
  • Funciones predefinidas para datos complejos.
  • Iteración de datos agrupados.

- Operaciones con multiconjuntos de datos con Pig.

  • Técnicas para combinar conjuntos de datos.
  • Unión de conjuntos de datos con Pig.
  • Conjunto de operaciones.
  • División de conjuntos de datos.

- Troubleshooting y optimización de Pig.

  • Troubleshooting en Pig.
  • Inicio de sesión.
  • Empleo de UI web Hadoop.
  • Muestreo de datos y depuración.
  • Visión general del rendimiento.
  • Comprensión del plan de ejecución.
  • Consejos para mejorar el rendimiento de Jobs en Pig.

- Introducción a Hive e Impala.

  • ¿Qué es Hive?.
  • ¿Qué es Impala?.
  • Schema y almacenamiento de datos.
  • Comparación entre Hive y bases de datos tradicionales.
  • Casos de empleo de Hive.

- Consultas con Hive e Impala.

  • Tablas y bases de datos.
  • Sintaxis básica en consultas Hive e Impala.
  • Tipos de datos.
  • Diferencias entre sintaxis de consultas Hive e Impala.
  • Empleo de Hue para ejecutar consultas.
  • Empleo de la shell de Impala.

- Administración de datos.

  • Almacenamiento de datos.
  • Creación de bases de datos y tablas.
  • Carga de datos.
  • Alteración de bases de datos y tablas.
  • Simplificación de consultas con vistas.
  • Almacenamiento de resultados de consultas.

- Almacenamiento y datos de rendimiento.

  • Partición de tablas.
  • Elección de formato de almacenamiento.
  • Gestión de metadatos.
  • Control de acceso a datos.

- Análisis de datos relacional con Hive y Impala.

  • Unión de conjuntos de datos.
  • Funciones predefinidas habituales.
  • Agregaciones y Windowing.

- Trabajar con Impala.

  • Cómo Impala ejecuta consultas.
  • Extendiendo Impala con funciones definidas por el usuario.
  • Mejora del rendimiento Impala.

- Analizando texto y datos complejos con Hive.

  • Valores complejos en Hive.
  • Empleo de expresiones regulares en Hive.
  • Análisis de los sentimientos y N-Grams.
  • Conclusión.

- Optimización Hive.

  • Rendimiento de las consultas.
  • Control de plan de ejecución de tareas.
  • Bucketing.
  • Indexación de datos.

- Extensión de Hive.

  • SerDes.
  • Transfomación de datos con Scripts personalizados.
  • Funciones definidas por usuarios.
  • Consultas parametrizadas.

- Elección de la mejor opción.

  • Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales.
  • ¿Cuál elegir?.

- Conclusión.

Convocatorias abiertas

30 ene 17
03 feb 17
Cloudera Data Analyst Training - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme
03 abr 17
07 abr 17
Cloudera Data Analyst Training - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme
29 may 17
02 jun 17
Cloudera Data Analyst Training - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme