05 nov 2024 - 08 nov 2024 | DENG-251: Building an Open Data Lakehouse using Apache Iceberg - Virtual English |
Acerca de este curso
Este curso presenta Apache Iceberg, un formato de tabla abierto de alto rendimiento para organizar conjuntos de datos analíticos a escala de petabytes en un sistema de archivos o almacenamiento de objetos, disponible en Cloudera Data Warehouse y Cloudera Data Engineering tanto en cloud pública como privada.. Combinado con Cloudera Data Platform, Iceberg permite a los usuarios construir una arquitectura Data Lakehouse abierta para análisis multifunción y desplegar pipelines end-to-end a gran escala.
Este curso cubre varios aspectos de Apache Iceberg, tales como la arquitectura, operaciones internas, operaciones de lectura y escritura, y funciones avanzadas, al tiempo que se establecen comparaciones con Hive y se aprovechan los conocimientos y la experiencia de los estudiantes.
A quién va dirigido
Este curso está dirigido a clientes nuevos y existentes que utilizan Cloudera Data Warehouse o Cloudera Data Engineering en Cloud privada o pública y que están interesados en beneficiarse del uso de Apache Iceberg.
El curso está diseñado para Ingenieros de Datos, Desarrolladores de SQL de Hive, Ingenieros de Streaming de Kafka, Científicos de Datos y Administradores de CDP.
Se requiere un conocimiento general de HDFS y experiencia con Hive y Spark.
Objetivos del curso
Este curso enseña a los participantes las siguientes habilidades:
- Obtener un profundo entendimiento de los beneficios de Iceberg, snapshots y sus funcionalidades.
- Ser capaz de construir tablas externas y gestionadas, configurando copy-on-write y merge-on-read para optimizar la gestión de datos.
- Realizar rollbacks y time travel, navegar por la evolución de esquemas y particiones, y utilizar particiones ocultas.
- Crear y fusionar ramas de tablas, dominando el procedimiento de Write-Audit-Publish (WAP) de Iceberg.
- Realizar eficientemente tareas de mantenimiento de tablas y abordar desafíos de migración de datos.
Contenidos
Introducción.
- Apache Hive.
- ¿Por qué Iceberg?
- Data Lakehouses.
- ¿Qué es Iceberg?
Catálogos.
- Revisión de la Configuración del Catálogo Iceberg.
Conceptos de Iceberg.
- Snapshots.
- Capa de Metadatos: Lista de Manifiesto, Archivos de Manifiesto.
- Time Travel.
- Evolución del Esquema.
- Partición Oculta.
- Write-Audit-Publish (WAP).
- Ramas, Etiquetas, Clonación sin copia (Zero-Copy-Clone).
Diseño de Tabla Iceberg.
- Tablas Gestionadas y Externas.
- Revisión de Propiedades de Tabla.
- Copy-On-Write (COW) vs Merge-On-Read (MOR).
- Particiones Ocultas.
- Comparar Diseño de Particiones en Hive vs. Iceberg.
- Metadatos de Tabla
- Mantenimiento de Tablas
Data-As-Code.
- Iceberg Personas
- Write-Audit-Publish (WAP)
- Ramas y Etiquetado
Migración de Tablas de Hive a Iceberg.
- In-place Migration.
- Shallow Migration.
Convocatorias abiertas
05 nov 2024 - 08 nov 2024 | DENG-251: Building an Open Data Lakehouse using Apache Iceberg - Virtual English |