DANA-262: Analyzing with Cloudera Data Warehouse

Presencial / Live Virtual Class

28 horas

1840.00 €

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

Este curso de Análisis con Data Warehouse te enseñará a aplicar habilidades tradicionales de análisis de datos e inteligencia empresarial a grandes conjuntos de datos. Este curso presenta las herramientas que los profesionales de datos necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting habituales.

A quién va dirigido

Este curso está diseñado para analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos.

Prerrequisitos

Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.

Objetivos del curso

Los asistentes que completen con éxito este curso serán capaces de:

Utilizar Apache Hive y Apache Impala para acceder a datos mediante consultas.
Identificar diferencias entre Hive e Impala, ya sea en sintaxis, formatos de datos o funcionalidades soportadas.
Escribir y ejecutar consultas que utilicen funciones, tanto dede agregado como subconsultas.
Utilizar joins y unions para combinar conjuntos de datos.
Crear, modificar y eliminar tablas, vistas y bases de datos.
Cargar datos en tablas y almacenar resultados de consultas.
Seleccionar formatos de archivos e implementar políticas de particionamiento para mejorar el rendimiento.
Utilizar funciones analíticas y de ventana para obtener información detallada sobre sus datos.
Almacenar y consultar estructuras de datos complejas o anidadas.
Procesar y analizar datos semiestructurados y no estructurados.
Optimizar y ampliar las capacidades de Hive e Impala.
Determinar si Hive, Impala, un sistema de gestión de bases de datos relacionales (RDBMS) o una combinación de estos es la mejor elección para una tarea específica.
Utilizar los beneficios de CDP Data Storage.
Creación de bases de datos y tablas.
Carga de datos.
Alteración de bases de datos y tablas.
Almacén de Datos en la Cloud Pública.

Contenidos

Fundamentos para el Análisis de Big Data

Visión General del Análisis de Big Data
Almacenamiento de Datos: HDFS
Procesamiento Distribuido de Datos: YARN,
MapReduce y Spark
Procesamiento y Análisis de Datos: Hive e Impala
Integración de Bases de Datos: Sqoop
Otras Herramientas de Datos
Explicación del Escenario del Ejercicio

Introducción a Hive e Impala

¿Qué es Hive?
¿Qué es Impala?
¿Por qué utilizar Hive e Impala?
Schema y almacenamiento de datos
Comparación entre Hive y bases de datos tradicionales
Casos de uso

Consultas con Hive e Impala

Tablas y bases de datos
Sintaxis básica en consultas Hive e Impala
Tipos de datos
Empleo de Hue para ejecutar consultas
Empleo de Beeline (la Shell de Hive)
Empleo de la Shell de Impala

Operadores comunes y funciones integradas

Operadores
Funciones escalares
Funciones de agregado

Administración de datos

Almacenamiento de datos
Creación de bases de datos y tablas
Carga de datos
Modificación de bases de datos y tablas
Simplificación de consultas con vistas
Almacenamiento de resultados de consultas

Almacenamiento de datos y rendimiento

Particionamiento de tablas
Carga de datos en tablas particionadas
Cuándo utilizar particionamiento
Selección del formato de archivo
Uso de los formatos de archivo Avro y Parquet

Trabajando con múltiples Datasets

UNION y Joins
Manejo de valores NULL en Joins
Joins avanzados

Funciones analíticas y Windowing

Utilización de funciones analíticas comunes
Otras funciones analíticas
Ventanas deslizantes

Datos complejos

Datos complejos con Hive
Datos complejos con Impala

Análisis de texto

Empleo de expresiones regulares con Hive e Impala
Procesamiento de texto con SerDes en Hive
Análisis de Sentimiento y n-grams en Hive

Optimización de Apache Hive

Comprendiendo cómo se ejecutan las consultas
Optimización basada en Costes y Estadísticas
Bucketing
Optimizaciones de ficheros ORC
Indexación de datos
Hive en Spark

Optimización de Apache Impala

Cómo Impala ejecuta las consultas
Mejorar el rendimiento de Impala

Extendiendo Hive e Impala

Customizar SerDes y formatos de archivo en Hive
Transformación de datos con Scripts personalizados en Hive
Funciones definidas por el usuario
Consultas parametrizadas

Selección de la Mejor Herramienta para cada Tarea

Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
¿Cuál elegir?

CDP Public Cloud Data Warehouse

Visión General del Data Warehouse en la Nube Pública
Autoescalado
Gestión de Data Warehouse
Consulta de Datos mediante CLI e Integración con Terceros

Appendix: Apache Kudu

¿Qué es Kudu?
Tablas Kudu
Uso de Impala con Kudu

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

training@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?