Cloudera

Cloudera Developer Training for Spark and Hadoop - Presencial / Virtual Castellano

Elige la convocatoria

inscribirme
Presencial o virtual class
Duración
28 horas
Idioma
Precio
1670,00 €
Próximas convocatorias
Acerca de este curso
A quién va dirigido
Objetivos del curso
Certificación asociada
Contenidos
Convocatorias abiertas

Próximas convocatorias
Ver todas

25 jun 18
29 jun 18

Madrid | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
25 jun 18
29 jun 18

Virtual Class | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €

Acerca de este curso

El curso ofrece los conceptos clave y la experiencia que los participantes necesitan para introducir y procesar datos en un clúster Hadoop utilizando las herramientas y técnicas más actuales tales como Spark 2 (incluyendo Spark Streaming y Spark SQL), Flume, Kafka y Sqoop. Este curso proporciona la mejor preparación para los desafíos del mundo real que enfrentan los desarrolladores de Hadoop. Con Spark 2, los desarrolladores pueden escribir sofisticadas aplicaciones en paralelo para tomar mejores decisiones, más rápidas y acciones interactivas, aplicadas a una amplia variedad de casos de uso, arquitecturas e industrias.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

El curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop.

Objetivos del curso

A la finalización de la formación, el participante conocerá:

  • Uso del Spark Shell para análisis interactivo de datos.
  • Las características de los conjuntos de datos distribuidos resilientes de Spark.
  • Como ejecutar Spark en un cluster.
  • Programación paralela con Spark.
  • Creación de aplicaciones Spark.
  • Procesamiento de datos en streaming con Spark.

Certificación asociada

La Certificación Cloudera Certified Associate Spark and Hadoop Developer ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas:

  • Ingesta de datos
  • Transformación, almacenamiento y organización
  • Análisis de datos

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Associate Spark and Hadoop Developer.

Más información sobre la certificación CCA Spark and Hadoop Developer en el siguiente enlace.

Contenidos

Introducción

Introducción a Apache Hadoop y el ecosistema Hadoop

  • Aspectos generales de Apache Hadoop
  • Almacenamiento e ingesta de datos
  • Proceso de datos
  • Análisis de datos y exploración
  • Otras herramientas del ecosistema
  • Ejercicios prácticos

Archivos de almacenamiento de Apache Hadoop

  • Componentes del Clúster Apache Hadoop
  • Arquitectura HDFS
  • Uso de HDFS

Proceso de datos en un clúster de Apache Hadoop

  • Arquitectura YARN
  • Trabajando con YARN

Fundamentos de Apache Spark

  • ¿Qué es Apache Spark?
  • Arranque del Spark Shell
  • Uso de Spark Shell
  • Primeros pasos con Datasets y Dataframes
  • Operaciones en Dataframe

Trabajar con Dataframes y Schemas

  • Crear Dataframes a partir de Data Sources
  • Guardar DataFrames en Data Sources
  • DataFrame Schemas
  • Primeros pasos con Datasets y Dataframes
  • Rapidez y lentitud de ejecución

Análisis de datos con consultas de DataFrame

  • Consultar DataFrames con el empleo de expresiones de columna
  • Agrupación y agregación de consultas
  • Unión de DataFrames

RDDs: Sumario

  • Vistazo general sobre RDD
  • RDD Data Sources
  • Creando y guardando RDDs
  • Operaciones con RDDs

Transformación de datos con RDDs

  • Escritura y paso de funciones de transformación
  • Ejecuciones de transformación
  • Conversión entre RDDs y DataFrames

Agregación de datos con Pair RDDs

  • Key-Valué Pair RDDs
  • Mal-Reduce
  • Otras operaciones Pair RDD

Consulta y vistas de tablas con Spark SQL

  • Datasets y DataFrames
  • Creación de Datasets
  • Ejecución y guardado de Datasets
  • Operaciones de Dataset

Creación, configuración y ejecución de aplicaciones Spark

  • Creación de una aplicación Spark
  • Compilar y ejecutar la aplicación
  • Application Deployment Mode
  • La interfaz Spark Application Web UI
  • Configuración de las propiedades de la aplicación

Procesamiento distribuido

  • Apache Spark en un Clúster
  • Particiones RDD
  • Ejemplo: Particionamiento en consultas
  • Etapas y Tareas
  • Planificación de tareas de ejecución
  • Ejemplo: Programar la ejecución de Catalyst
  • Ejemplo: Programar la ejecución de un RDD

Persistencia de datos distribuidos

  • Persistencia en Datasets y DataFrames
  • Persistencia en niveles de almacenamiento
  • Visualización de RDDs persistentes

Patrones comunes al procesar datos con Spark

  • Casos comunes de uso de Spark
  • Algoritmos de iteración en Apache Spark
  • Machine Learning
  • Caso práctico

Spark Streaming: Introducción a DStreams

  • Vista general de Spark Streaming
  • Caso práctico
  • DStreams
  • Desarrollo de aplicaciones en Streaming

Spark Streaming: procesamiento de múltiples lotes

  • Operaciones Multi-Batch
  • Time Slicing
  • Operaciones de estado
  • Operaciones Sliding Window
  • Vista previa: Streaming estructurado

Apache Spark Streaming: Data Sources

  • Vista general de Streaming Data Source
  • Apache Flume y Apache Kafka Data Sources
  • Ejemplo: uso de un Kafka Direct Data Source

Conclusión

Convocatorias abiertas

25 jun 18
29 jun 18

Madrid | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
25 jun 18
29 jun 18

Virtual Castellano | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €