Cloudera

Cloudera Developer Training for Spark and Hadoop - Presencial / Virtual Castellano

Elige la convocatoria

inscribirme
Presencial o virtual class
Duración
28 horas
Idioma
Precio
1670,00 €
Próximas convocatorias
Acerca de este curso
A quién va dirigido
Objetivos del curso
Certificación asociada
Contenidos
Convocatorias abiertas

Certificación asociada: CCA Spark and Hadoop Developer

Próximas convocatorias
Ver todas

25 sep 17
29 sep 17
Confirmada |
Madrid | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
25 sep 17
29 sep 17

Barcelona | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
13 nov 17
17 nov 17

Madrid | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €

Acerca de este curso

Best Cloudera Training Partner EMEA FY17 & Best Instructor EMEA FY17 +info

El curso ofrece los conceptos clave y la experiencia que los participantes necesitan para introducir y procesar datos en un clúster Hadoop utilizando las herramientas y técnicas más actuales tales como Spark (incluyendo Spark Streaming y Spark SQL), Flume, Kafka y Sqoop. Este curso proporciona la mejor preparación para los desafíos del mundo real que enfrentan los desarrolladores de Hadoop. Con Spark, los desarrolladores pueden escribir sofisticadas aplicaciones en paralelo para tomar mejores decisiones, más rápidas y acciones interactivas, aplicadas a una amplia variedad de casos de uso, arquitecturas e industrias.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

El curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop.

Objetivos del curso

A la finalización de la formación, el participante conocerá:

  • ¿Cómo se distribuyen, almacenan y procesan los datos en un Cluster Hadoop.
  • Cómo utilizar Sqoop y carga real-time de datos con Flume.
  • Cómo procesar los datos en cluster con Apache Spark.
  • Cómo presentar datos estructurados como tablas en Impala y Hive.
  • Cómo elegir el mejor formato de almacenamiento para diferentes patrones de uso de datos.
  • Buenas prácticas para el almacenamiento de datos.

Certificación asociada:

La Certificación Cloudera Certified Associate Spark and Hadoop Developer ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguientes áreas:

  • Ingesta de datos
  • Transformación, almacenamiento y organización
  • Análisis de datos

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Associate Spark and Hadoop Developer.

Más información sobre la certificación CCA Spark and Hadoop Developer en el siguiente enlace.

Contenidos

Introducción

Introducción a Apache Hadoop y el ecosistema Hadoop

  • Aspectos generales de Apache Hadoop
  • Almacenamiento e ingesta de datos
  • Proceso de datos
  • Análisis de datos y exploración
  • Otras herramientas del ecosistema
  • Ejercicios prácticos

Archivos de almacenamiento de Apache Hadoop

  • Problemas con sistemas tradicionales de gran escala
  • Arquitectura HDFS
  • Uso de HDFS
  • Formato de archivos de Apache Hadoop

Proceso de datos en un cluster de Apache Hadoop

  • Arquitectura YARN
  • Trabajando con YARN

Relación de datos importados con Apache Sqoop

  • Aspectos generales de Apache Sqoop
  • Importación de datos
  • Importación de opciones de archivos
  • Exportación de datos

Fundamentos de Apache Spark

  • ¿Qué es Apache Spark?
  • Uso de Spark Shell
  • RDDs (Resilient Distributed Datasets)
  • Programación funcional en Spark

Trabajar con RDDs

  • Otras operaciones generales con RDD

Agregación de datos en pares RDDs

  • Key-value en pares RDDs
  • Map-Reduce
  • Otras operaciones de pares RDD

Escritura y ejecución de aplicaciones de Apache Spark

  • Comparación de Spark Applications con Spark Shell
  • Creación del SparkContext
  • Construcción de una aplicación de Spark (Scala y Java)
  • Ejecución de una aplicación de Spark
  • Uso de Spark Web UI

Configuración de aplicaciones de Apache Spark

  • Configurando propiedades de Spark
  • Logging

Procesos pararlelos en Apache Spark

  • Revisión: Apache Spark en un clúster
  • Particiones RDD
  • Particionado de RDDs basado en archivos
  • HDFS y localización de los datos
  • Ejecución de operaciones paralelas
  • Fases y tareas

Persistencia de RDD

  • Parentesco de RDD
  • Vista general de la persistencia de RDD
  • Persistencia distribuida

Patrones comunes de proceso de datos en Apache Spark

  • Casos comunes de uso de Apache Spark
  • Algoritmos iterativos en Apache Spark
  • Machine Learning
  • Ejemplo: k-means

DataFrames y Spark SQL

  • Apache Spark SQL y SQLContext
  • Creación de DataFrames
  • Transformación y consultas de DataFrames
  • Guardado de DataFrames
  • DataFrames y RDDs
  • Comparación de Apache Spark SQL, Impala y Hive-on-Spark
  • Apache Spark SQL en Spark 2.x

Procesamiento de mensajes con Apache Kafka

  • ¿Qué es Apache Kafka?
  • Aspectos generales de Apache Kafka
  • Escalado de Apache Kafka
  • Arquitectura del clúster de Apache Kafka
  • Herramientas de línea de comandos de Apache Kafka

Captura de datos con Apache Flume

  • ¿Qué es Apache Flume?
  • Arquitectura básica de Flume
  • Flume Sources
  • Flume Sinks
  • Canales de Flume
  • Configuración de Flume

Integración de Apache Flume y Apache Kafka

  • Vista general
  • Casos de uso
  • Configuración

Apache Spark Streaming: Introducción a DStreams

  • Aspectos generales de Apache Spark Streaming
  • Ejemplo: Streaming Request Count
  • DStreams
  • Desarrollo de aplicaciones de Streaming

Apache Spark Streaming: Procesado de múltiples Batches

  • Operaciones Multi-Batch
  • Time Slicing
  • Estado de las operaciones
  • Operaciones Sliding Window

Apache Spark Streaming: Data Sources

  • Vista general de Streaming Data Source
  • Apache Flume y Apache Kafka Data Sources
  • Ejemplo: uso de un Kafka Direct Data Source

Conclusión

Convocatorias abiertas

25 sep 17
29 sep 17

Barcelona | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
25 sep 17
29 sep 17
Confirmada |
Madrid | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
25 sep 17
29 sep 17
Confirmada |
Virtual Castellano | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
13 nov 17
17 nov 17

Madrid | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €
13 nov 17
17 nov 17

Virtual Castellano | Español | De Lunes a Viernes (09:00h - 14:35h)
28 h.    1670 €