Cloudera Data Engineering: Developing Applications with Apache Spark

Presencial / Live Virtual Class

28 horas

1840.00 €

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

Este curso de cuatro días proporciona al candidato los conceptos clave y el conocimiento que los desarrolladores necesitan para utilizar Apache Spark para desarrollar aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).

Los ejercicios que contiene esta formación permiten a los estudiantes practicar la escritura de aplicaciones Spark que se integran con los componentes principales de CDP, como Hive y Kafka. Los participantes aprenderán cómo usar Spark SQL para consultar datos estructurados, cómo usar Spark Streaming para procesar datos de transmisión en tiempo real y cómo trabajar con "big data" almacenado en un sistema de archivos distribuido.

Una vez finalizado el curso, los candidatos serán capaces de crear aplicaciones para tomar decisiones mejores y más rápidas, además de saber ejecutar un análisis interactivo aplicado a una amplia variedad de casos de uso, arquitecturas e industrias.

PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Este curso está diseñado para desarrolladores e ingenieros de datos que quieran mejorar, mediante Apache Spark, su desarrollarlo de aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).

Prerrequisitos

Experiencia básica en Linux y un dominio básico de lenguajes de programación como Python o Scala
Conocimiento básico de SQL también resultará de utilidad
No se requieren conocimientos previos de Spark y Hadoop

Objetivos del curso

Este curso enseña a los participantes las siguientes habilidades:

Distribuir, almacenar y procesar datos en un clúster CDP
Escribir, configurar e implementar aplicaciones Apache Spark
Usar los intérpretes de Spark y las aplicaciones de Spark para explorar, procesar y analizar datos distribuidos
Consultar datos con tablas Spark SQL, DataFrames y Hive
Usar Spark Streaming junto con Kafka para procesar un flujo de datos

Contenidos

Módulo 1: Introducción a Zeppelin

¿Por qué Notebooks?
Notas de Zeppelin
Demo: Apache Spark en 5 minutos

Módulo 2: Introducción a HDFS

Descripción general de HDFS
Componentes e interacciones de HDFS
Interacciones HDFS adicionales
Descripción general de Ozone
Ejercicio: Trabajar con HDFS

Módulo 3: Introducción a YARN

Descripción general de YARN
Componentes e interacción de YARN
Trabajar con YARN
Ejercicio: Trabajar con YARN

Módulo 4: Historial de procesamiento distribuido

Los Años del Disco: 2000 -> 2010
Los Años de la Memoria: 2010 -> 2020
Los años de la GPU: 2020 ->

Módulo 5: Trabajar con RDDs

Conjuntos de datos distribuidos resilientes (RDDs)
Ejercicio: Trabajar con RDDs

Módulo 6: Trabajar con DataFrames

Introducción a DataFrames
Ejercicio: Introducción a DataFrames
Ejercicio: Lectura y escritura de DataFrames
Ejercicio: Trabajar con Columns
Ejercicio: Trabajando con Complex Types
Ejercicio: Combinar y dividir DataFrames
Ejercicio: Resumir y agrupar DataFrames
Ejercicio: Trabajar con UDFs
Ejercicio: Trabajar con Windows

Módulo 7: Introducción a Apache Hive

Acerca de Apache Hive

Módulo 8: Integración de Hive y Spark

Integración de Hive y Spark
Ejercicio: Integración de Spark con Hive

Módulo 9: Visualización de datos con Zeppelin

Introducción a la visualización de datos con Zeppelin
Análisis de Zeppelin
Colaboración Zeppelin
Ejercicio: AdventureWorks

Módulo 10: Desafíos del procesamiento distribuido

Shuffle
Skrew
Order

Módulo 11: Procesamiento distribuido Spark

Procesamiento distribuido Spark
Ejercicio: Explorar el orden de ejecución de consultas

Módulo 12: Persistencia distribuida de Spark

Persistencia de DataFrame y Dataset
Niveles de almacenamiento de persistencia
Visualización de RDDs persistentes
Ejercicio: Dataframes persistentes

Módulo 13: Escribir, configurar y ejecutar aplicaciones Spark

Escribir una aplicación Spark
Creación y ejecución de una aplicación
Modo de despliegue de aplicaciones
La interfaz de usuario (UI) web de la aplicación Spark
Configuración de las propiedades de la aplicación
Ejercicio: Escribir, configurar y ejecutar una aplicación Spark

Módulo 14: Introducción a Structured Streaming

Introducción a Structured Streaming
Ejercicio: Procesamiento de datos en Streaming

Módulo 15: Procesamiento de mensajes con Apache Kafka

¿Qué es Apache Kafka?
Descripción general de Apache Kafka
Escalado de Apache Kafka
Arquitectura de un clúster de Apache Kafka
Herramientas de líneas de comandos de Apache Kafka

Módulo 16: Structured Streaming con Apache Kafka

Recibir mensajes de Kafka
Envío de mensajes Kafka
Ejercicio: Trabajar con mensajes Streaming de Kafka

Módulo 17: Agregar y unir Streaming DataFrames

Agregar Streaming
Unir Streaming DataFrames
Ejercicio: Agregar y unir Streaming DataFrames

Apéndice: Trabajar con conjuntos de datos en Scala

Trabajar con conjuntos de datos en Scala
Ejercicio: Uso de conjuntos de datos en Scala

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

training@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?