DANA-262: Analyzing with Cloudera Data Warehouse - Virtual English
                                    Live Virtual Class
                                       
                                    
                                    28 horas
                                       
                                    
                                        2970.00 €
                                Actualmente no existen convocatorias programadas para estos cursos
Acerca de este curso
Este curso de Análisis con Data Warehouse te enseñará a aplicar habilidades tradicionales de análisis de datos e inteligencia empresarial a grandes conjuntos de datos. Este curso presenta las herramientas que los profesionales de datos necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting habituales.
A quién va dirigido
Este curso está diseñado para analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos.
Prerrequisitos
- Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.
 
Objetivos del curso
Los asistentes que completen con éxito este curso serán capaces de:
- Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas.
 - Identificar diferencias entre Hive e Impala, ya sea en sintaxis, formatos de datos o funcionalidades soportadas.
 - Escribir y ejecutar consultas que utilicen funciones, tanto dede agregado como subconsultas.
 - Utilizar joins y unions para combinar conjuntos de datos.
 - Crear, modificar y eliminar tablas, vistas y bases de datos.
 - Cargar datos en tablas y almacenar resultados de consultas.
 - Seleccionar formatos de archivos e implementar políticas de particionamiento para mejorar el rendimiento.
 - Utilizar funciones analíticas y de ventana para obtener información detallada sobre sus datos.
 - Almacenar y consultar estructuras de datos complejas o anidadas.
 - Procesar y analizar datos semiestructurados y no estructurados.
 - Optimizar y ampliar las capacidades de Hive e Impala.
 - Determinar si Hive, Impala, un sistema de gestión de bases de datos relacionales (RDBMS) o una combinación de estos es la mejor elección para una tarea específica.
 - Utilizar los beneficios de CDP Data Storage.
 - Creación de bases de datos y tablas.
 - Carga de datos.
 - Alteración de bases de datos y tablas.
 - Almacén de Datos en la Cloud Pública.
 
Contenidos
Fundamentos para el Análisis de Big Data
- Visión General del Análisis de Big Data
 - Almacenamiento de Datos: HDFS
 - Procesamiento Distribuido de Datos: YARN,
 - MapReduce y Spark
 - Procesamiento y Análisis de Datos: Hive e Impala
 - Integración de Bases de Datos: Sqoop
 - Otras Herramientas de Datos
 - Explicación del Escenario del Ejercicio
 
Introducción a Hive e Impala
- ¿Qué es Hive?
 - ¿Qué es Impala?
 - ¿Por qué utilizar Hive e Impala?
 - Schema y almacenamiento de datos
 - Comparación entre Hive y bases de datos tradicionales
 - Casos de uso
 
Consultas con Hive e Impala
- Tablas y bases de datos
 - Sintaxis básica en consultas Hive e Impala
 - Tipos de datos
 - Empleo de Hue para ejecutar consultas
 - Empleo de Beeline (la Shell de Hive)
 - Empleo de la Shell de Impala
 
Operadores comunes y funciones integradas
- Operadores
 - Funciones escalares
 - Funciones de agregado
 
Administración de datos
- Almacenamiento de datos
 - Creación de bases de datos y tablas
 - Carga de datos
 - Modificación de bases de datos y tablas
 - Simplificación de consultas con vistas
 - Almacenamiento de resultados de consultas
 
Almacenamiento de datos y rendimiento
- Particionamiento de tablas
 - Carga de datos en tablas particionadas
 - Cuándo utilizar particionamiento
 - Selección del formato de archivo
 - Uso de los formatos de archivo Avro y Parquet
 
Trabajando con múltiples Datasets
- UNION y Joins
 - Manejo de valores NULL en Joins
 - Joins avanzados
 
Funciones analíticas y Windowing
- Utilización de funciones analíticas comunes
 - Otras funciones analíticas
 - Ventanas deslizantes
 
Datos complejos
- Datos complejos con Hive
 - Datos complejos con Impala
 
Análisis de texto
- Empleo de expresiones regulares con Hive e Impala
 - Procesamiento de texto con SerDes en Hive
 - Análisis de Sentimiento y n-grams en Hive
 
Optimización de Apache Hive
- Comprendiendo cómo se ejecutan las consultas
 - Optimización basada en Costes y Estadísticas
 - Bucketing
 - Optimizaciones de ficheros ORC
 - Indexación de datos
 - Hive en Spark
 
Optimización de Apache Impala
- Cómo Impala ejecuta las consultas
 - Mejorar el rendimiento de Impala
 
Extendiendo Hive e Impala
- Customizar SerDes y formatos de archivo en Hive
 - Transformación de datos con Scripts personalizados en Hive
 - Funciones definidas por el usuario
 - Consultas parametrizadas
 
Selección de la Mejor Herramienta para cada Tarea
- Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
 - ¿Cuál elegir?
 
CDP Public Cloud Data Warehouse
- Visión General del Data Warehouse en la Nube Pública
 - Autoescalado
 - Gestión de Data Warehouse
 - Consulta de Datos mediante CLI e Integración con Terceros
 
Appendix: Apache Kudu
- ¿Qué es Kudu?
 - Tablas Kudu
 - Uso de Impala con Kudu
 

                            
                        
                        
                            
                            
        













