Cloudera

Cloudera Developer Training for Apache Hadoop

28 horas
1840,00 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

El curso permitirá a los alumnos aprender a diseñar potentes herramientas de procesamiento de datos por medio del empleo de Apache Hadoop.

PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

El curso está dirigido a desarrolladores que quieren aprender a utilizar Apache Hadoop para desarrollar potentes herramientas de procesamiento de datos.

Esta formación oficial está diseñada para desarrolladores con algo de experiencia en programación (preferiblemente Java). No son necesarios los conocimientos previos en Hadoop.

Objetivos del curso

Tras la finalización de la formación, el participante conocerá:

  • Las tecnologías clave de Hadoop.
  • Cómo funciona HDFS MapReduce.
  • Cómo desarrollar aplicaciones MapReduce.
  • Cómo crear unidades de testeo (unit tests) para aplicaciones MapReduce.
  • Cómo usar los combiners, partitioners, y la caché distribuida de un MapReduce.
  • Mejores prácticas para el desarrollo y depuración de aplicaciones MapReduce.
  • Cómo implementar la entrada y salida de datos de aplicaciones MapReduce.
  • Algoritmos para tareas comunes de MapReduce.
  • Cómo unir conjuntos de datos en MapReduce.
  • Cómo se integra Hadoop en el CPD.
  • Cómo usar los algoritmos Machine Learning de Mahout.
  • Cómo utilizar Hive y Pig para el desarrollo rápido de aplicaciones.
  • Cómo crear grandes workflows utilizando Oozie.

Certificación asociada

Las Certificaciones oficiales Cloudera acreditan al alumno como un profesional experto y reconocido para trabajar en Apache Hadoop. Actualmente son numerosas las empresas que están buscando nuevas oportunidades de negocio en esta tecnología y las Certificaciones Cloudera proporcionan a quien las posee una clara ventaja, aportando referencias y evidencias contrastadas de sus habilidades y destrezas en el creciente sector del Big Data, el software de open source y los servicios asociados.

Las personas que consigan la certificación Cloudera Certified Developer for Apache Hadoop (CCDH) han demostrado su conocimiento técnico, habilidades y capacidades para escribir, mantener y optimizar los proyectos Apache Hadoop.

La Certificación Cloudera Certified Developer for Apache Hadoop, ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas:

  1. Core Hadoop Concepts.
  2. Storing Files in Hadoop.
  3. Job Configuration and Submission.
  4. Job Execution Environment.
  5. Input and Output.
  6. Job Lifecycle.
  7. Data processing.
  8. Key and Value Types.
  9. Common Algorithms and Design Patterns.
  10. The Hadoop Ecosystem.

Tras la realización del presente curso oficial estará capacitado para superar el examen de certificación: Cloudera Certified Developer for Apache Hadoop (CCDH).

Más información sobre la certificación CCDH en el siguiente enlace.

Contenidos

- Introducción.

- Objetivos de Hadoop.

  • Problemática tradicional en sistemas de gran escala.
  • Introducción a Hadoop.
  • Cómo resuelve Hadoop problemas.

- Hadoop: Conceptos básicos y HDFS.

  • El proyecto Hadoop y sus componentes.
  • El sistema distribuido de ficheros de Hadoop HDFS (Hadoop Distributed File System).

- Introducción a MapReduce.

  • Descripción de los aspectos generales de MapReduce.
  • Ejemplo: WordCount.
  • Mappers.
  • Reducers.

- Cluster y Ecosistema Hadoop.

  • Descripción de los aspectos generales del cluster Hadoop.
  • Trabajos y tareas Hadoop.
  • Otros componentes del Ecosistema Hadoop.

- Escribir un programa MapReduce en Java.

  • Conceptos básicos de APIs MapReduce.
  • Escribir Drivers MapReduce, Mappers y Reducers en Java.
  • Acelerar el funcionamiento de Hadoop empleando Eclipse.
  • Diferencias entre APIs MapReduce antiguas y nuevas.

- Escribir programas MapReduce empleando Streaming.

  • Escribir programas Mappers y Reducers empleando APIs Streaming.

- Unidad de ejercicios de programas MapReduce.

  • Los entornos de prueba JUnit y MRUnit.
  • Testeo con MRUnit.
  • Ejecución de testeo de profundidad en APIs Hadoop.

- Profundizar en la API de Hadoop.

  • Empleo de la Clase ToolRunner.
  • Configuración y desactivación de tareas Map y Reduce.
  • Disminución de datos intermedios con combinadores.
  • Acceso programático a HDFS.
  • Empleo de caché distribuida.
  • Empleo de librerías de APIs Map, Reduce y Partition.

- Practica de desarrollo de técnicas y trucos.

  • Estrategias de depurado para código MapReduce.
  • Testeo local de código MapReduce empleando LocalJobRunner.
  • Acceso y escritura de ficheros log.
  • Recuperación de información de trabajo con contadores.
  • Reempleo de objetos.
  • Creación de trabajos MapReduce Map, Reduce o Partition.
  • Trabajo en conjunto de tareas Reduce y Partition.
  • Determinación de número óptimo de tareas reduce para un trabajo.
  • Escribir tareas Partition customizadas.

- Salida y entrada de datos.

  • Creación customizada de implementaciones Writable y Writable-Comparable.
  • Conceptos a considerar en el empleo de compresión de archivos.
  • Implementación customizada de formatos de entrada y salida (InputFormats y OutputFormats).

- Algoritmos comunes en MapReduce.

  • Clasificación y búsqueda de grandes conjuntos de datos.
  • Computación de Term Frequency e Inverse Document Frequency.
  • Cálculo de Co-ocurrencia de palabra.
  • Creación y modelado de órdenes secundarias.

- Acceso a conjuntos de datos en trabajos MapReduce.

  • Escribir accesos Map-Side.
  • Escribir accesos Reduce-Side.

- Integración de flujo de trabajo de Hadoop en entornos empresariales existentes.

  • Integración de Hadoop ien entornos existentes.
  • Carga de datos en HDFS desde RDBMS empleando Sqoop.
  • Administración de datos en tiempo real empleando Flume.
  • Acceso HDFS desde sistemas confiables con FuseDFS y HttpFS.

- Introducción a Hive, Imapala, y Pig.

  • Objetivos de Hive, Impala, y Pig.
  • Descripción de los aspectos generales de Hive.
  • Descripción de los aspectos generales de Impala.
  • Descripción de los aspectos generales de Pig.
  • Elección entre Hive, Impala, y Pig.

- Introducción a Oozie.

  • Descripción de los aspectos generales de Oozie.
  • Creación de flujos de trabajo con Oozie.

- Conclusión.

Convocatorias abiertas