25 nov 2024 - 28 nov 2024 | DANA-262: Analyzing with Cloudera Data Warehouse - Virtual English |
Acerca de este curso
Este curso de Análisis con Data Warehouse te enseñará a aplicar habilidades tradicionales de análisis de datos e inteligencia empresarial a grandes conjuntos de datos. Este curso presenta las herramientas que los profesionales de datos necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting habituales.
A quién va dirigido
Este curso está diseñado para analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos.
Prerrequisitos
- Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.
Objetivos del curso
Los asistentes que completen con éxito este curso serán capaces de:
- Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas.
- Identificar diferencias entre Hive e Impala, ya sea en sintaxis, formatos de datos o funcionalidades soportadas.
- Escribir y ejecutar consultas que utilicen funciones, tanto dede agregado como subconsultas.
- Utilizar joins y unions para combinar conjuntos de datos.
- Crear, modificar y eliminar tablas, vistas y bases de datos.
- Cargar datos en tablas y almacenar resultados de consultas.
- Seleccionar formatos de archivos e implementar políticas de particionamiento para mejorar el rendimiento.
- Utilizar funciones analíticas y de ventana para obtener información detallada sobre sus datos.
- Almacenar y consultar estructuras de datos complejas o anidadas.
- Procesar y analizar datos semiestructurados y no estructurados.
- Optimizar y ampliar las capacidades de Hive e Impala.
- Determinar si Hive, Impala, un sistema de gestión de bases de datos relacionales (RDBMS) o una combinación de estos es la mejor elección para una tarea específica.
- Utilizar los beneficios de CDP Data Storage.
- Creación de bases de datos y tablas.
- Carga de datos.
- Alteración de bases de datos y tablas.
- Almacén de Datos en la Cloud Pública.
Contenidos
Fundamentos para el Análisis de Big Data
- Visión General del Análisis de Big Data
- Almacenamiento de Datos: HDFS
- Procesamiento Distribuido de Datos: YARN,
- MapReduce y Spark
- Procesamiento y Análisis de Datos: Hive e Impala
- Integración de Bases de Datos: Sqoop
- Otras Herramientas de Datos
- Explicación del Escenario del Ejercicio
Introducción a Hive e Impala
- ¿Qué es Hive?
- ¿Qué es Impala?
- ¿Por qué utilizar Hive e Impala?
- Schema y almacenamiento de datos
- Comparación entre Hive y bases de datos tradicionales
- Casos de uso
Consultas con Hive e Impala
- Tablas y bases de datos
- Sintaxis básica en consultas Hive e Impala
- Tipos de datos
- Empleo de Hue para ejecutar consultas
- Empleo de Beeline (la Shell de Hive)
- Empleo de la Shell de Impala
Operadores comunes y funciones integradas
- Operadores
- Funciones escalares
- Funciones de agregado
Administración de datos
- Almacenamiento de datos
- Creación de bases de datos y tablas
- Carga de datos
- Modificación de bases de datos y tablas
- Simplificación de consultas con vistas
- Almacenamiento de resultados de consultas
Almacenamiento de datos y rendimiento
- Particionamiento de tablas
- Carga de datos en tablas particionadas
- Cuándo utilizar particionamiento
- Selección del formato de archivo
- Uso de los formatos de archivo Avro y Parquet
Trabajando con múltiples Datasets
- UNION y Joins
- Manejo de valores NULL en Joins
- Joins avanzados
Funciones analíticas y Windowing
- Utilización de funciones analíticas comunes
- Otras funciones analíticas
- Ventanas deslizantes
Datos complejos
- Datos complejos con Hive
- Datos complejos con Impala
Análisis de texto
- Empleo de expresiones regulares con Hive e Impala
- Procesamiento de texto con SerDes en Hive
- Análisis de Sentimiento y n-grams en Hive
Optimización de Apache Hive
- Comprendiendo cómo se ejecutan las consultas
- Optimización basada en Costes y Estadísticas
- Bucketing
- Optimizaciones de ficheros ORC
- Indexación de datos
- Hive en Spark
Optimización de Apache Impala
- Cómo Impala ejecuta las consultas
- Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
- Customizar SerDes y formatos de archivo en Hive
- Transformación de datos con Scripts personalizados en Hive
- Funciones definidas por el usuario
- Consultas parametrizadas
Selección de la Mejor Herramienta para cada Tarea
- Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
- ¿Cuál elegir?
CDP Public Cloud Data Warehouse
- Visión General del Data Warehouse en la Nube Pública
- Autoescalado
- Gestión de Data Warehouse
- Consulta de Datos mediante CLI e Integración con Terceros
Appendix: Apache Kudu
- ¿Qué es Kudu?
- Tablas Kudu
- Uso de Impala con Kudu
Convocatorias abiertas
25 nov 2024 - 28 nov 2024 | DANA-262: Analyzing with Cloudera Data Warehouse - Virtual English |