Cloudera

Building an Open Data Lakehouse using Apache Iceberg - Virtual English

21 horas
2230,00 €
Live Virtual Class
Live Virtual Class

Acerca de este curso

Este curso presenta Apache Iceberg, un formato de tabla abierto de alto rendimiento para organizar conjuntos de datos analíticos a escala de petabytes en un sistema de archivos o almacenamiento de objetos, disponible en Cloudera Data Warehouse y Cloudera Data Engineering tanto en cloud pública como privada.. Combinado con Cloudera Data Platform, Iceberg permite a los usuarios construir una arquitectura Data Lakehouse abierta para análisis multifunción y desplegar pipelines end-to-end a gran escala.

Este curso cubre varios aspectos de Apache Iceberg, tales como la arquitectura, operaciones internas, operaciones de lectura y escritura, y funciones avanzadas, al tiempo que se establecen comparaciones con Hive y se aprovechan los conocimientos y la experiencia de los estudiantes.

A quién va dirigido

Este curso está dirigido a clientes nuevos y existentes que utilizan Cloudera Data Warehouse o Cloudera Data Engineering en Cloud privada o pública y que están interesados en beneficiarse del uso de Apache Iceberg.

El curso está diseñado para Ingenieros de Datos, Desarrolladores de SQL de Hive, Ingenieros de Streaming de Kafka, Científicos de Datos y Administradores de CDP.

Se requiere un conocimiento general de HDFS y experiencia con Hive y Spark.

Objetivos del curso

Este curso enseña a los participantes las siguientes habilidades:

  • Obtener un profundo entendimiento de los beneficios de Iceberg, snapshots y sus funcionalidades.
  • Ser capaz de construir tablas externas y gestionadas, configurando copy-on-write y merge-on-read para optimizar la gestión de datos.
  • Realizar rollbacks y time travel, navegar por la evolución de esquemas y particiones, y utilizar particiones ocultas.
  • Crear y fusionar ramas de tablas, dominando el procedimiento de Write-Audit-Publish (WAP) de Iceberg.
  • Realizar eficientemente tareas de mantenimiento de tablas y abordar desafíos de migración de datos.

Contenidos

Introducción.

  • Apache Hive.
  • ¿Por qué Iceberg?
  • Data Lakehouses.
  • ¿Qué es Iceberg?

Catálogos.

  • Revisión de la Configuración del Catálogo Iceberg.

Conceptos de Iceberg.

  • Snapshots.
  • Capa de Metadatos: Lista de Manifiesto, Archivos de Manifiesto.
  • Time Travel.
  • Evolución del Esquema.
  • Partición Oculta.
  • Write-Audit-Publish (WAP).
  • Ramas, Etiquetas, Clonación sin copia (Zero-Copy-Clone).

Diseño de Tabla Iceberg.

  • Tablas Gestionadas y Externas.
  • Revisión de Propiedades de Tabla.
  • Copy-On-Write (COW) vs Merge-On-Read (MOR).
  • Particiones Ocultas.
  • Comparar Diseño de Particiones en Hive vs. Iceberg.
  • Metadatos de Tabla
  • Mantenimiento de Tablas

Data-As-Code.

  • Iceberg Personas
  • Write-Audit-Publish (WAP)
  • Ramas y Etiquetado

Migración de Tablas de Hive a Iceberg.

  • In-place Migration.
  • Shallow Migration.

Convocatorias abiertas