Cloudera
Cloudera Developer Training for Apache Spark - Virtual

Elige la convocatoria

inscribirme Solicitar Info

Datos de la convocatoria seleccionada:

Virtual
Horario
Duración
21 horas
Idioma
Precio
2195,00 €
Acerca de este curso
A quién va dirigido
Objetivos del curso
Contenidos
Convocatorias abiertas

Acerca de este curso

Este curso permite a los participantes construir aplicaciones completas y unificadas Big Data que combinan lotes, streaming y análisis interactivos en todos sus datos. Con Spark, los desarrolladores pueden escribir aplicaciones sofisticadas paralelas para las decisiones empresariales más rápidas y que dan mejores resultados al usuario; se aplican en una amplia variedad de casos y con multitud de arquitecturas. Este curso forma parte del developer learning path.

Apache Spark es el sucesor de nueva generación en MapReduce. Spark es un poderoso motor de procesamiento, de código abierto para los datos en el cluster Hadoop, optimizado para la velocidad, facilidad de uso, y análisis avanzados. Spark Framework soporta streaming de procesamiento de datos complejos y algoritmos iterativos, permitiendo a las aplicaciones ejecutarse hasta 100 veces más rápido que los programas tradicionales de Hadoop MapReduce.

A quién va dirigido

Curso orientado a desarrolladores y diseñadores de software con experiencia en lenguajes de programación Python y Scala. Asimismo es aconsejable poseer conocimientos básicos en Linux.

No se requieren conocimientos previos de Hadoop.

Objetivos del curso

El curso Cloudera Developer Training for Apache Spark capacita a los participantes en la construcción de aplicaciones complejas y unificadas Big Data que combinen lotes, streaming y análisis interactivos en todos sus datos.

Contenidos

- Introducción: ¿Porqué Spark?.

  • Problemas habituales con escalabilidad de sistemas grandes.
  • Introducción a Spark.

- Spark: Conceptos básicos.

  • ¿Qué es Apache Spark?.
  • Empleo del Shell Spark.
  • Los conjuntos elásticos de datos distribuidos (RDDs).
  • Programación de funciones con Spark.

- Trabajos con RDDs.

  • Operaciones RDD.
  • Key-Value Pair RDDs.
  • MapReduce y operaciones Pair RDD.

- The Hadoop Distributed File System.

  • ¿Porqué HDFS?.
  • Arquitectura HDFS.
  • Empleo de HDFS.

- Funcionamiento de Spark en un Cluster.

  • Aspectos generales.
  • Un Cluster Standalone Spark.
  • El Spark Standalone Web UI.

- Programación en paralelo con Spark.

  • Particiones RDD y localización de datos en HDFS.
  • Trabajos con particionados.
  • Ejecución en paralelo.

- El almacenamiento en caché y la persistencia.

  • Alineamiento RDD.
  • Aspectos generales de la caché.
  • Persistencia distribuida.

- Trabajo con aplicaciones Spark.

  • Aplicaciones Spark vs. Spark Shell .
  • Creación del SparkContext.
  • Configuración de propiedades Spark.
  • Construcción y ejecución de aplicaciones Spark.
  • Logging.

- Spark, Hadoop, y Enterprise Data Center.

  • Aspectos generales.
  • Spark y Ecosistema Hadoop.
  • Spark y MapReduce.

- Spark Streaming.

  • Aspectos generales de Spark Streaming.
  • Ejemplo: Streaming Word Count.
  • Otras operaciones Streaming.
  • Operaciones de ventana deslizante.
  • Desarrollo de aplicaciones Streaming Spark.

- Algoritmos comunes en Spark.

  • Algoritmos Iterativos.
  • Análisis Gráfico.
  • Aprendizaje Automático.

- Mejora del rendimiento de Spark.

  • Variables compartidas: Variables de difusión.
  • Variables compartidas: Acumuladores.
  • Problemas habituales de rendimiento.

- Conclusión.

Convocatorias abiertas

02 nov 16
04 nov 16
Confirmada | Cloudera Developer Training for Apache Spark - Virtual
Virtual | Inglés | Miércoles - Jueves - Viernes (09:00h - 17:00h)
21 h.    2195 €
inscribirme