Cloudera

Introduction to Apache Kudu

8 horas
595 €
Presencial
Presencial

Acerca de este curso

Esta formación enseña a sus participantes los conceptos básicos de Apache Kudu, un sistema de almacenamiento de datos para la plataforma de Hadoop que está optimizado para consultas analíticas. El curso cubre casos de uso comunes y la arquitectura Kudu.

Este curso permite a sus participantes crear, administrar y consultar tablas Kudu, y desarrollar aplicaciones Spark que usan Kudu.

Después de la formación, los participantes estarán preparados para diferenciar Kudu con otros sistemas de almacenamiento, casos de uso en los que Kudu es la solución más óptima, diseño de tablas para almacenar datos de la manera más optimizada, las principales técnicas de la administración de datos, desarrollar aplicaciones Apache Spark con Kudu.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Esta formación está diseñada para personas involucradas con el desarrollo del software y el análisis de datos, desarrolladores de software, ingenieros de datos, DBA, científicos de datos y analistas de datos.

  • Los estudiantes deben saber SQL.
  • Se recomienda cierta familiaridad con Impala, pero no es obligatorio.
  • Los estudiantes también deben saber cómo desarrollar aplicaciones Apache Spark utilizando Python o Scala.
  • Se espera experiencia básica de Linux.

Objetivos del curso

Mediante explicaciones completes y ejercicios prácticos los participantes aprenderán:

  • Una explicación de alto nivel de Kudu.
  • ¿Cómo se compara con otros sistemas de almacenamiento relevantes y qué casos de uso se implementarían mejor con Kudu?.
  • Aprende sobre la arquitectura de Kudu y sobre cómo diseñar tablas que almacenarán datos para un rendimiento óptimo.
  • Aprender técnicas de gestión de datos sobre cómo insertar, actualizar o eliminar registros de tablas Kudu utilizando Impala, así como métodos de carga masiva.
  • Desarrollar aplicaciones Apache Spark con Apache Kudu.

Contenidos

Introducción

Descripción general y arquitectura

  • ¿Qué es Kudu?
  • ¿Por qué usar Kudu?
  • Casos de uso de Kudu
  • Descripción general de la arquitectura
  • Herramientas Kudu
  • Puntos esenciales

Tablas Apache Kudu

  • Tablas Kudu
  • Opciones de almacenamiento de datos
  • Diseñando esquemas
  • Tablas de particionamiento para un mejor rendimiento
  • Uso de herramientas Kudu con tablas
  • Puntos esenciales

Uso de Apache Kudu con Apache Impala

  • Descripción general de Apache Impala
  • Creación y consulta de tablas
  • Eliminar tablas
  • Cargando y modificando datos en tablas Kudu
  • Definición de la estrategia de particionamiento
  • Puntos esenciales

Desarrollo de aplicaciones Apache Spark con Apache Kudu

  • Apache Spark y Apache Kudu
  • Kudu, Spark SQL y DataFrames
  • Gestión de datos de tablas Kudu con Scala
  • Creación de tablas Kudu con Scala
  • Puntos esenciales

Conclusión

Convocatorias abiertas