Cloudera

Designing and Building Big Data Applications - Virtual English

28 horas
2695,00 €
Live Virtual Class
Live Virtual Class

Acerca de este curso

El curso para el diseño y construcción de aplicaciones Big Data prepara al alumno para analizar y resolver problemas del mundo real utilizando Apache Hadoop y herramientas asociadas al centro de datos empresariales. Este curso forma parte de la ruta de aprendizaje desarrollador.

Usted va a trabajar a través de todo el proceso de diseño y construcción de soluciones, incluyendo los datos de ingestión, determinar el formato de archivo adecuado para el almacenamiento, el procesamiento de los datos almacenados, y presentar los resultados al usuario final en una forma fácil de interpretar. Irá más allá de MapReduce para utilizar elementos adicionales del centro de datos empresarial y desarrollar aplicaciones de convergencia que son altamente relevantes para el negocio.

PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Los participantes ya deben haber asistido a Cloudera Desarrollador Formación para Apache Hadoop o tener experiencia profesional equivalente. Se requiere un buen conocimiento de Java y conocimientos básicos de Linux. También será recomendable tener experiencia de manejo básico de SQL.

Objetivos del curso

Al finalizar la formación, el participante sabrá:

  • Creación de un conjunto de datos con el SDK de Kite
  • Desarrollar componentes personalizados Flume para la ingestión de datos
  • La gestión de un flujo de trabajo de varias etapas con Oozie
  • Análisis de los datos con Crunch
  • Escritura de funciones definidas por el usuario para Hive e Impala
  • Transformar datos con Morphlines
  • Indexación de datos con Cloudera Search

Contenidos

Introducción

Arquitectura de Aplicaciones

  • Definición del entorno
  • Entender el entorno de desarrollo
  • La identificación y recolección de datos de entrada
  • Selección de herramientas para análisis de datos
  • La presentación de resultados al usuario

Definición y empleo de grupos de datos

  • Administración de metadatos
  • ¿Qué es Apache Avro?
  • Avro Schemas
  • Evolución de Avro Schema
  • Selección de formato de archivos
  • Consideraciones sobre rendimiento

Empleo del módulo de datos Kite SDK

  • ¿Qué es el Kite SDK?
  • Conceptos fundamentales de módulos de datos
  • Creación de grupos de datos empleando el Kite SDK
  • Carga, acceso y eliminación de grupos de datos

Importación de datos relacionales con Apache Sqoop

  • ¿Qué es Apache Sqoop?
  • Principales importaciones
  • Limitar los resultados
  • Mejora del rendimiento de Sqoop
  • Sqoop 2

Captura de datos con Apache Flume

  • ¿Qué es Apache Flume?
  • Arquitectura básica de Flume
  • Recursos Flume
  • Flume Sinks
  • Configuración de Flume
  • Registro de eventos de aplicación en Hadoop

Desarrollo personalizado de componentes Flume

  • Flujo de datos Flume y Common Extension Points
  • Recursos personalizados en Flume
  • Desarrollo de código de consulta Flume
  • Desarrollo de código Flume Event•Driven
  • Interceptores personalizados en Flume
  • Desarrollo de una cabecera de Interceptores de modificación de Flume
  • Desarrollo de un filtro interceptor en Flume
  • Escribiro objetos interceptores Avr con canal de flujo personalizados

Administración de flujos de trabajo con Apache Oozie

  • La necesidad de gestión de flujo de trabajo
  • ¿Qué es Apache Oozie?
  • El flujo de trabajo Oozie
  • Validación, empaquetamiento y despliegue
  • Ejecución y seguimiento de flujos de trabajo empleando CLI
  • Hue UI para Oozie

Procesamiento de Pipelines de datos con Apache Crunch

  • ¿Qué es Apache Crunch?
  • Entender Crunch Pipeline
  • Comparación entre Crunch y Java MapReduce
  • Trabajo con proyectos Crunch
  • Lectura y escritura de datos en Crunch
  • APIs de colecciones de datos
  • Funciones
  • Clases de servicios públicos en la API Crunch

Trabajos con tablas en Apache Hive

  • ¿Qué es Apache Hive?
  • Acceso Hive
  • Sintaxis de consultas básicas
  • Crear y llenar tablas Hive
  • Cómo Hive lee datos
  • Empleo de RegexSerDe en Hive
  • Esquema del curso: Diseño y construcción de Aplicaciones Big Data

Desarrollo de funciones predefinidas por usuarios

  • ¿Qué son las funciones predefinidas por usuarios?
  • Implementación de funciones predefinidas por usuarios
  • Desarrollo de librerías configurables en Hive
  • Registo de funciones predefinidas por usuarios

Ejecución de consultas interactivas con Impala

  • ¿Qué es Impala?
  • Comparación entre Hive e Impala
  • Ejecución de consultas en Impala
  • Soporte para funciones predefinidas por usuarios
  • Gestión de datos y metadatos

Acercamiento a Cloudera Search

  • ¿Qué es Cloudera Search?
  • Arquitectura Search
  • Formato de documentos soportados

Indexación de datos con Cloudera Search

  • Administración de colecciones y Schemas
  • Morphlines
  • Indexación de datos en modo Batch
  • Indexación de datos próxima al tiempo real

Presentación de resultados a usuarios

  • Sintaxis de consultas Solr
  • Construcción de Search UI con Hue
  • Acceso a Impala a través de JDBC
  • Alimentación de una aplicación Web personalizada con Impala y Search

Conclusión

Convocatorias abiertas