11 nov 2024 - 14 nov 2024 | DOPS-242: Ingesting with Cloudera DataFlow |
Acerca de este curso
Una de las funciones más críticas de una empresa impulsada por datos es la capacidad para gestionar la ingesta y el flujo de datos en ecosistemas complejos. ¿Tiene su equipo las herramientas y conjuntos de habilidades necesarios para tener éxito?
Apache NiFi y este curso proporcionan los conceptos fundamentales y la experiencia necesaria para automatizar la ingesta, el flujo, la transformación y la salida de datos utilizando NiFi.
El curso también abarca el ajuste, la solución de problemas y la monitorización del proceso de flujo de datos, así como la integración de un dataflow dentro del ecosistema híbrido Cloudera CDP con sistemas externos.
A quién va dirigido
Este curso está diseñado para desarrolladores, ingenieros de datos, administradores y otros perfiles con interés en aprender el enfoque innovador sin código y gráfico de NiFi para la ingesta de datos.
Prerrequisitos
Aunque no se requiere experiencia en programación, se presume conocimientos básicos de Linux y la exposición previa a conceptos y aplicaciones de big data es útil.
Objetivos del curso
Los asistentes que completen con éxito este curso serán capaces de:
- Definir, configurar, organizar y gestionar dataflows.
- Transformar y rastrear datos mientras fluyen hacia su destino.
- Hacer un seguimiento de los cambios en los dataflows con NiFi Registry.
- Utilizar el lenguaje de expresión de NiFi para controlar dataflows.
- Optimizar dataflows para un mejor rendimiento y mantenimiento.
- Conectar dataflows con otros sistemas, como Apache Kafka, Apache Hive, y HDFS.
- Utilizar el Data Flow Service.
Contenidos
Introducción a Cloudera Flow Management
- Descripción general de Cloudera Data-In-Motion
- Interfaz de Usuario de NiFi
- Catálogo de Dataflow
- ReadyFlows
- Demostración guiada por el instructor: Interfaz de Usuario de NiFi
- Ejercicio Práctico: Construye tu primer Dataflow
Procesadores
- Descripción general de los Procesadores
- Panel de Superficie del Procesador
- Panel de Configuración del Procesador
- Ejercicio Práctico: Comenzar a Construir un Dataflow Utilizando Procesadores
Conexiones
- Descripción general de las Conexiones
- Configuración de la Conexión
- Menú Contextual del Conector
- Ejercicio Práctico: Conectar Procesadores en Dataflow
Flujos de Datos
- Comando y Control de un Dataflow
- Relaciones del Procesador
- Contrapresión
- Priorizadores
- Etiquetas
- Ejercicio Práctico: Construir un Dataflow Más Complejo
- Ejercicio Práctico: Crear una Bifurcación Utilizando Relaciones
- Ejercicio Práctico: Establecer Umbrales de contrapresión
Grupos de Procesadores
- Anatomía de un Grupo de Procesadores
- Puertos de Entrada y Salida
- Ejercicio Práctico: Simplificar Dataflows Utilizando Grupos de Procesadores
Proveniencia del FlowFile
- Eventos de Data Provenance
- Linaje del FlowFile
- Reproducción de un FlowFile
- Ejercicio Práctico: Utilizar Data Provenance
Parámetros
- Contextos de Parámetros
- Referencias a Parámetros
- Gestión de Parámetros
- Migración desde Variables
- Ejercicio Práctico: Crear, Utilizar y Gestionar Parámetros
Definiciones de Flujo y Plantillas
- Descripción General de la Definición de Flujo
- Creación de una Definición de Flujo
- Importación y Despliegue de un Flujo
- Uso de (migración desde) Plantillas
- Ejercicio Práctico: Crear, Utilizar y Gestionar Definiciones de Flujo
Registro de Apache NiFi
- Descripción General del Registro de Apache NiFi
- Uso del Registro
- Ejercicio Práctico: Versionar Flujos Utilizando el Registro de NiFi
Atributos del FlowFile
- Descripción General de los Atributos del FlowFile
- Enrutamiento en Atributos
- Ejercicio Práctico: Trabajar con Atributos del FlowFile
Lenguaje de Expresión de NiFi
- Descripción General del Lenguaje de Expresión de NiFi
- Sintaxis
- Editor de Lenguaje de Expresión
- Establecer Valores Condicionales
- Ejercicio Práctico: Utilizar el Lenguaje de Expresión de NiFi
Servicios de Control
- Descripción General de los Servicios de Control
- Servicios de Control Comunes
- Ejercicio Práctico: Agregar un Controlador de Apache Hive
Componentes Basados en Registros
- Datos orientados a registros
- Procesadores basados en registros
- Registro del Esquema Avro
- Formato del Esquema
Lectura y Escritura de Datos de Registro
- Consulta de Datos de Registro
- Procesador QueryRecord
- Escritura de Datos de Registro
- Ejercicio Práctico: Pendiente de Determinar (¿Crear una función para leer y escribir datos?)
Enriqueciendo Datos de Registro
- Operaciones ETL
- Procesador Split and Join
- Procesadores Update Record
- Procesadores Wait and Notify
Arquitectura de NiFi
- Descripción General de la Arquitectura de NiFi
- Arquitectura de NiFi en la Cloud Pública
- Arquitectura de NiFi en la Cloud Privada
Funciones del Dataflow
- Descripción General
- Funciones Serverless
- Demostración: Desplegar una Definición de Flujo como Función
Optimización del Dataflow
- Descripción General de la Optimización del Dataflow
- Tasa de Control
- Gestión de Recursos
- Ejercicio Práctico: Construir un Dataflow Optimizado
Monitorización, Informes y Solución de Problemas
- Monitorización desde NiFi
- Informes
- Ejemplos de Tareas Comunes de Informes
- Ejercicio Práctico: Monitorización e Informes
Seguridad de NiFi
- Visión general de la seguridad en NiFi
- Asegurando el acceso a la interfaz de usuario de NiFi
- Gestión de metadatos
Integración de NiFi
- Arquitectura de integración de NiFi
- ReadyFlows disponibles
- Un vistazo más cercano a NiFi y Apache Hive
Convocatorias abiertas
11 nov 2024 - 14 nov 2024 | DOPS-242: Ingesting with Cloudera DataFlow |