Cloudera

Cloudera Developer Training for Spark and Hadoop

28 horas
1995 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

23 nov 2020 - 26 nov 2020   |  

28 h.    1995 €

Cloudera Developer Training for Spark and Hadoop

28 h | 1995 € | Madrid o Live Virtual Class | Español
De Lunes a Jueves (09:00h - 17:00h)
Calendario de sesiones

23 nov 2020 - 26 nov 2020   |  

28 h.    1995 €

Cloudera Developer Training for Spark and Hadoop

28 h | 1995 € | Barcelona o Live Virtual Class | Español
De Lunes a Jueves (09:00h - 17:00h)
Calendario de sesiones

Acerca de este curso

El curso ofrece los conceptos clave y la experiencia que los participantes necesitan para introducir y procesar datos en un clúster Hadoop utilizando las herramientas y técnicas más actuales tales como Spark (incluyendo Spark Streaming y Spark SQL), Flume, Kafka y Sqoop. Este curso proporciona la mejor preparación para los desafíos del mundo real que enfrentan los desarrolladores de Hadoop. Con Spark, los desarrolladores pueden escribir sofisticadas aplicaciones en paralelo para tomar mejores decisiones, más rápidas y acciones interactivas, aplicadas a una amplia variedad de casos de uso, arquitecturas e industrias.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Este curso está diseñado para desarrolladores e ingenieros que tienen experiencia en programación, pero no se requieren conocimientos previos de Hadoop y / o Spark.

  • Durante el curso se presentan ejemplos de Apache Spark y ejercicios prácticos en Scala y Python, así que se requiere la capacidad de programar como mínimo en uno de estos dos lenguajes de programación.
  • Se recomienda estar familiarizado con la línea de comandos básica de Linux.
  • El conocimiento básico de SQL es útil.

Objetivos del curso

A la finalización de la formación, el participante adquirirá los siguientes conocimientos:

  • Como se ajusta el ecosistema de Apache Hadoop con el ciclo de vida del procesamiento de datos
  • Como se distribuyen, almacenan y procesan los datos en un Clúster de Hadoop
  • Escribir, configurar y desplegar aplicaciones Apache Spark en un Clúster de Hadoop
  • Utilizar la Spark shell y aplicaciones Spark para explorar, procesar y analizar datos distribuidos
  • Realizar consultas de datos con Spark SQL, Dataframes y Datasets
  • Uso de Spark Streaming para procesar datos en tiempo real

Certificación incluida

Este curso oficial es el recomendado por Cloudera para la preparación del siguiente examen de certificación oficial valorado en 295,00€, que incluimos en el precio del curso a todos los miembros del programa PUE Alumni.

La superación de este examen es requisitos imprescindible para obtener la certificación Cloudera Certified Associate Spark and Hadoop Developer. Esta certificación ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas:

  • Ingesta de datos.
  • Transformación, almacenamiento y organización.
  • Análisis de datos.

Contenidos

Introducción a Apache Hadoop y el ecosistema Hadoop

  • Aspectos generales de Apache Hadoop
  • Proceso de datos
  • Ejercicios prácticos

Archivos de almacenamiento de Apache Hadoop

  • Componentes del Clúster Apache Hadoop
  • Arquitectura HDFS
  • Uso de HDFS

Proceso de datos en un clúster de Apache Hadoop

  • Arquitectura YARN
  • Trabajando con YARN

Fundamentos de Apache Spark

  • ¿Qué es Apache Spark?
  • Arranque del Spark Shell
  • Uso de Spark Shell
  • Primeros pasos con Datasets y Dataframes
  • Operaciones en Dataframe

Trabajar con Dataframes y Schemas

  • Crear Dataframes a partir de Data Sources
  • Guardar DataFrames en Data Sources
  • DataFrame Schemas
  • Primeros pasos con Datasets y Dataframes
  • Rapidez y lentitud de ejecución

Análisis de datos con consultas de DataFrame

  • Consultar DataFrames con el empleo de expresiones de columna
  • Agrupación y agregación de consultas
  • Unión de DataFrames

RDDs: Sumario

  • Vistazo general sobre RDD
  • RDD Data Sources
  • Creando y guardando RDDs
  • Operaciones con RDDs

Transformación de datos con RDDs

  • Escritura y paso de funciones de transformación
  • Ejecuciones de transformación
  • Conversión entre RDDs y DataFrames

Agregación de datos con Pair RDDs

  • Key-Value Pair RDDs
  • Map-Reduce
  • Otras operaciones Pair RDD

Consulta y vistas de tablas mediante SQL

  • Datasets y DataFrames
  • Creación de Datasets
  • Ejecución y guardado de Datasets
  • Operaciones de Dataset

Creación, configuración y ejecución de aplicaciones Spark

  • Creación de una aplicación Spark
  • Compilar y ejecutar la aplicación
  • Application Deployment Mode
  • La interfaz Spark Application Web UI
  • Configuración de las propiedades de la aplicación

Procesamiento distribuido Spark

  • Apache Spark en un Clúster
  • Particiones RDD
  • Ejemplo: Particionamiento en consultas
  • Etapas y Tareas
  • Planificación de tareas de ejecución
  • Ejemplo: Programar la ejecución de Catalyst
  • Ejemplo: Programar la ejecución de un RDD

Persistencia de datos distribuidos

  • Persistencia en Datasets y DataFrames
  • Persistencia en niveles de almacenamiento
  • Visualización de RDDs persistentes

Patrones comunes al procesar datos con Spark

  • Casos comunes de uso de Spark
  • Algoritmos de iteración en Apache Spark
  • Machine Learning
  • Caso práctico

Introducción a las Estructuras Streaming

  • Visión general de Apache Spark Streaming
  • Creación de Streaming DataFrames
  • Transformación de Dataframes
  • Ejecución de consultas Streaming

Estructuras Streaming con Apache Kafka

  • Vistazo general
  • Recepción de mensajes Kafka
  • Envío de mensajes Kafka

Agregación y unión de Streaming Dataframes

  • Agregación Streaming
  • Unión de Streaming Dataframes

Conclusión

Procesamiento de mensajes con Apache Kafka

  • ¿Qué es Apache Kafka?
  • Visión general de Apache Kafka
  • Escalado de Apache Kafka
  • Arquitectura de un Clúster Apache Kafka
  • Herramientas Apache Kafka de la linea de comandos

Convocatorias abiertas

23 nov 2020 - 26 nov 2020   |  

28 h.    1995 €

Cloudera Developer Training for Spark and Hadoop

28 h | 1995 € | Madrid o Live Virtual Class | Español
De Lunes a Jueves (09:00h - 17:00h)
Calendario de sesiones

23 nov 2020 - 26 nov 2020   |  

28 h.    1995 €

Cloudera Developer Training for Spark and Hadoop

28 h | 1995 € | Barcelona o Live Virtual Class | Español
De Lunes a Jueves (09:00h - 17:00h)
Calendario de sesiones