Cloudera
Cloudera Developer Training for Spark and Hadoop I - Virtual

Elige la convocatoria

inscribirme Solicitar Info

Datos de la convocatoria seleccionada:

Virtual
Horario
Duración
28 horas
Idioma
Precio
2695,00 €
Próximos cursos
Acerca de este curso
A quién va dirigido
Objetivos del curso
Certificación asociada
Contenidos
Convocatorias abiertas
Certificación asociada: Certificación Cloudera Certified Associate Spark and Hadoop Developer

Próximos cursos

23 ene 17
27 ene 17
Cloudera Developer Training for Spark and Hadoop I - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme
06 mar 17
10 mar 17
Cloudera Developer Training for Spark and Hadoop I - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme
05 jun 17
09 jun 17
Cloudera Developer Training for Spark and Hadoop I - Virtual
Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
28 h.    2695 €
inscribirme

Acerca de este curso

Este curso de 28 horas ofrece a los participantes los conceptos clave y la especialización necesaria para procesar datos en un clúster Hadoop utilizando los productos y técnicas más actuales como Apache Spark, Impala, Hive, Flume, y Sqoop.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Este curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop.

Objetivos del curso

A la finalización de la formación, el participante conocerá:

  • ¿Cómo se distribuyen, almacenan y procesan los datos en un Cluster Hadoop.
  • Cómo utilizar Sqoop y carga real-time de datos con Flume.
  • Cómo procesar los datos en cluster con Apache Spark.
  • Cómo presentar datos estructurados como tablas en Impala y Hive.
  • Cómo elegir el mejor formato de almacenamiento para diferentes patrones de uso de datos.
  • Buenas prácticas para el almacenamiento de datos.

Certificación asociada

La Certificación Cloudera Certified Associate Spark and Hadoop Developer ha sido diseñada para comprobar que los candidatos controlan los conceptos y habilidades requeridas en las siguiente áreas:

  • Ingesta de datos
  • Transformación, almacenamiento y organización
  • Análisis de datos

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Associate Spark and Hadoop Developer.

Más información sobre la certificación CCA Spark and Hadoop Developer en el siguiente enlace.

Contenidos

- Introducción

    - Introducción a Hadoop y el Ecosistema Hadoop

    • Problemas con los sistemas a gran escala tradicionales.
    • Hadoop!.
    • El Ecosistema Hadoop.

    - Arquitectura Hadoop y HDFS

    • Procesamiento Distribuido en un Cluster.
    • Almacenamiento: Arquitectura HDFSStorage.
    • Almacenamiento: Usando HDFS.
    • Administración de Recursos: Arquitectura YARN.
    • Administración de Recursos: Trabajando con YARN.

    - Importando Datos Relacionales con Apache Sqoop

    • Sqoop.
    • Exportación e Importación Básicos.
    • Limitando Resultados.
    • Mejorando el Rendimiento de Sqoop.
    • Sqoop 2.

    - Introducción a Impala y Hive

    • ¿Por qué usar Impala y Hive?.
    • Comparando Hive con Bases de Datos tradicionales.
    • Casos de Uso de Hive.

    - Modelando y Administrando Datos con Impala y Hive

    • Almacenamiento de Datos.
    • Creando Bases de Datos y Tablas.
    • Cargando Datos en Tablas.
    • HCatalog.
    • Cacheo de Metadatos de Impala.

    - Formato de Datos

    • Seleccionando un Formato de Archivos.
    • Soporte de Formatos de Archivo en la herramienta Hadoop.
    • Esquemas Avro.
    • Usando Avro con Hive y Sqoop.
    • Evolución del Esquema Avro.
    • Compresión.

    - Particionado de Datos

    • Particionando.
    • Particionando en Impala y Hive.

    - Capturando Datos con Apache Flume

    • ¿Qué es Apache Flume?.
    • Arquitectura Flume Básica.
    • Recursos de Flume.
    • Pilas de Flume.
    • Canales de Flume.
    • Configuración Flume.

    - Bases de Spark

    • ¿Qué es Apache Spark?.
    • Usando la consola de Spark.
    • RDDs (Resilient Distributed Datasets - Sets de Datos Resistentes Distribuidos).
    • Programación Funcional en Spark.

    - Trabajando con RDDs en Spark

    • RDDs en detalle.
    • Pares Llave-Valor en RDDs.
    • Programación Funcional en Spark.

    - Escribiendo y Desplegando Aplicaciones Spark

    • Aplicación Spark vs. Consola de Spark.
    • Creanto el SparkContext.
    • Construyendo una Aplicación Spark (Scala y Java).
    • Ejecutando una Aplicación Spark.
    • La Interfaz de usuario de una Aplicación Web Spark.
    • Configurando Propiedades Spark.
    • Logs.

    - Programación Paralela en Spark

    • Revisión: Spark en un Cluster.
    • Particiones RDD.
    • Particionando Archivos RDDs.
    • HDFS y Localización de Datos.
    • Ejecutando Operaciones Palalelas.
    • Tareas y Estados.

    - Cacheo y Persistencia Spark

    • Linaje RDD.
    • Cacheo.
    • Persistencia Distribuida.

    - Patrones Comunes en Procesamiento de Datos en Spark

    • Casos de Uso Spark Comunes.
    • Algoritmos Iterativos en Spark.
    • Análisis y Procesamiento gráfico.
    • Aprendiendo Máquina.
    • Ejemplo: k-means.

    - Preview: Spark SQL

    • Spark SQL y el Contexto SQL.
    • Creando DataFrames.
    • Transformando y Consultando DataFrames.
    • Guardando DataFrames.
    • Comparando Spark SQL con Impala.

    - Conclusión

    Convocatorias abiertas

    23 ene 17
    27 ene 17
    Cloudera Developer Training for Spark and Hadoop I - Virtual
    Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
    28 h.    2695 €
    inscribirme
    06 mar 17
    10 mar 17
    Cloudera Developer Training for Spark and Hadoop I - Virtual
    Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
    28 h.    2695 €
    inscribirme
    05 jun 17
    09 jun 17
    Cloudera Developer Training for Spark and Hadoop I - Virtual
    Virtual | Inglés | De Lunes a Viernes (09:00h - 14:35h)
    28 h.    2695 €
    inscribirme