Cloudera Data Scientist

Presencial / Live Virtual Class

28 horas

1840.00 €

Solicitar Info

Actualmente no existen convocatorias programadas para estos cursos

Acerca de este curso

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Este curso de cuatro días cubre enterprise data science y el aprendizaje automático utilizando Apache Spark en Cloudera Data Science Workbench (CDSW). Los participantes utilizarán Spark SQL para cargar, explorar, limpiar, unir y analizar datos y Spark MLlib para especificar, entrenar, evaluar, ajustar e implementar pipelines de aprendizaje automático. Se sumergirán en los fundamentos de la arquitectura y el modelo de ejecución de Spark necesarios para configurar, monitorear y ajustar de manera efectiva sus aplicaciones de Spark. Los participantes también aprenderán cómo Spark se integra con componentes clave de la plataforma Cloudera como HDFS, YARN, Hive, Impala y Hue, así como sus paquetes favoritos de Python.

PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Este curso está diseñado para científicos de datos que usan Python o R para trabajar con pequeños conjuntos de datos en una sola máquina y que necesitan ampliar sus flujos de trabajo de data science y aprendizaje automático a grandes conjuntos de datos en clústeres distribuidos.

Aquellos ingenieros de datos, analistas de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán provechosa esta formación.

Requisitos previos

Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.

Objetivos del curso

Los participantes recorrerán un flujo de trabajo integral de data science y aprendizaje automático basado en escenarios y conjuntos de datos realistas de una empresa de tecnología ficticia. El material del curso se presenta a través de una secuencia de breves conferencias, demostraciones interactivas, extensos ejercicios prácticos y discusiones animadas. Las demostraciones y los ejercicios se realizan en Python (con PySpark) utilizando Cloudera Data Science Workbench (CDSW). Se proporcionarán ejemplos complementarios que utilizan R (con sparklyr).

Contenidos

Módulo 1. Introducción

Módulo 2. Descripción general de la ciencia de datos (data science)

Qué hacen los científicos de datos
Qué procesos utilizan los científicos de datos
Qué herramientas utilizan los científicos de datos

Módulo 3. Cloudera Data Science Workbench (CDSW)

Introducción a Cloudera Data Science Workbench
Cómo funciona Cloudera Data Science Workbench
Cómo utilizar Cloudera Data Science Workbench
Ingresando código
Obteniendo ayuda
Acceder a la línea de comandos de Linux
Trabajar con paquetes de Python
Formatear la salida de la sesión

Módulo 4. Casos de estudio

DuoCar
Cómo funciona DuoCar
Conjuntos de datos de DuoCar
Objetivos comerciales de DuoCar
Plataforma de ciencia de datos DuoCar
Clúster DuoCar Cloudera EDH
HDFS
Apache Spark
Apache Hive
Apache Impala
Matiz
HILO
Arquitectura de clúster de DuoCar

Módulo 5. Apache Spark

Apache Spark
Cómo funciona Spark
La Spark Stack
Spark SQL
DataFrames
Formatos de archivo en Apache Spark
Formatos de archivo de texto
Formato de archivo Parquet
Idiomas de la interfaz de Spark
PySpark
Data Science con PySpark
sparklyr
dplyr y sparklyr
Comparación de PySpark y sparklyr
Cómo funciona Sparklyr con dplyr
Funciones Sparklyr DataFrame y MLlib
Cuándo usar PySpark y sparklyr

Módulo 6. Ejecución de una aplicación Spark desde CDSW

Descripción general
Iniciar una aplicación Spark
Lectura de datos en un marco de datos (DataFrame) de Spark SQL
Examinar el esquema de un marco de datos
Calcular el número de filas y columnas de un marco de datos
Examinar filas de un marco de datos
Detener una aplicación Spark

Módulo 7. Inspección de un DataFrame de Spark SQL

Descripción general
Inspeccionando un DataFrame
Inspeccionar una columna DataFrame
Inspección de una variable de clave principal
Inspeccionar una variable categórica
Inspeccionar una variable numérica
Inspección de una variable de fecha y hora

Módulo 8. Transformar DataFrames

Spark SQL DataFrames
Trabajar con columnas
Seleccionar columnas
Dejar caer columnas
Especificar columnas
Agregar columnas
Cambiar el nombre de la columna
Cambiar el tipo de columna
Trabajar con filas
Ordenar filas
Seleccionar un número fijo de filas
Seleccionar filas distintas
Filtrar filas
Filas de muestreo
Trabajar con valores perdidos

Módulo 9. Transformación de columnas de DataFrame

Tipos de datos de Spark SQL
Trabajar con columnas numéricas
Trabajar con columnas de cadena
Trabajar con columnas de fecha y marca de tiempo
Trabajar con columnas booleanas

Módulo 10. Tipos complejos (opcional)

Tipos de datos de recopilación complejos
Arrays
Maps
Structs

Módulo 11. Funciones definidas por el usuario (opcional)

Funciones definidas por el usuario
Definición de una función de Python
Registro de una función de Python como función definida por el usuario
Aplicar una función definida por el usuario

Módulo 12. Lectura y escritura de datos

Leer y escribir datos
Trabajar con archivos de texto delimitados
Trabajar con archivos de texto
Trabajar con archivos Parquet
Trabajar con tablas de Hive
Trabajar con almacenes de objetos
Trabajar con pandas DataFrames

Módulo 13. Combinación y división de marcos de datos

Unirse a DataFrames
Cross Join
Inner Join
Left Semi Join
Left Anti Join
Left Outer Join
Right Outer Join
Full Outer Join
Aplicar operaciones de conjunto a DataFrames
Dividir un DataFrame

Módulo 14. Resumen y agrupación de marcos de datos

Resumen de datos con funciones agregadas
Agrupar datos
Datos pivotantes

Módulo 15. Funciones de ventana (opcional)

Introducción a las funciones de ventana
Crear una especificación de ventana
Agregando sobre una especificación de ventana

Módulo 16. Exploración de DataFrames

Posibles flujos de trabajo para Big Data
Explorando una sola variable
Explorando una variable categórica
Explorando una variable continua
Explorando un par de variables
Par categórico-categórico
Par categórico-continuo
Par continuo-continuo

Módulo 17. Ejecución de trabajos de Apache Spark

Operaciones de DataFrame
Divisiones de entrada
Operaciones estrechas
Operaciones amplias
Etapas y tareas
Barajar

Módulo 18. Supervisión, ajuste y configuración de aplicaciones Spark

Supervisión de aplicaciones Spark
DataFrames persistentes
Particionamiento de DataFrames
Configuración del entorno Spark

Módulo 19. Descripción general del aprendizaje automático

Aprendizaje automático
Ajuste insuficiente y excesivo
Modelo de validación
Hiperparámetros
Aprendizaje supervisado y no supervisado
Algoritmos de aprendizaje automático
Bibliotecas de aprendizaje automático
Apache Spark MLlib

Módulo 20. Entrenamiento y evaluación de modelos de regresión

Introducción a los modelos de regresión
Guión
Preparación de los datos de regresión
Ensamblaje del vector de características
Creación de un Train y un conjunto de pruebas (Test Set)
Especificar un modelo de regresión lineal
Entrenamiento de un modelo de regresión lineal
Examinar los parámetros del modelo
Examinar varias medidas de rendimiento del modelo
Examinar varios diagnósticos de modelos
Aplicar el modelo de regresión lineal a los datos de prueba (Test Data)
Evaluación del modelo de regresión lineal en los datos de prueba
Trazado del modelo de regresión lineal

Módulo 21. Capacitación y evaluación de modelos de clasificación

Introducción a los modelos de clasificación
Guión
Procesamiento previo de los datos de modelado
Generar una etiqueta
Extraer, transformar y seleccionar funciones
Crear conjuntos de pruebas y Train
Especificar un modelo de regresión logística
Entrenar el modelo de regresión logística
Examinar el modelo de regresión logística
Evaluar el rendimiento del modelo en el conjunto de prueba

Módulo 22. Ajuste de los hiperparámetros del algoritmo mediante la búsqueda en cuadrícula

Requisitos para el ajuste de hiperparámetros
Especificar el estimador
Especificación de la cuadrícula de hiperparámetros
Especificar el evaluador
Ajuste de hiperparámetros mediante la validación cruzada de Holdout
Ajuste de hiperparámetros mediante la validación cruzada de K-fold

Módulo 23. Capacitación y evaluación de modelos de agrupación en clústeres

Introducción a la agrupación en clústeres
Guión
Procesamiento previo de los datos
Extracción, transformación y selección de funciones
Especificación de un modelo de mezcla gaussiana
Entrenamiento de un modelo de mezcla gaussiana
Examinando el modelo de mezcla gaussiana
Trazar los clústeres
Explorando los perfiles de clúster
Guardar y cargar el modelo de mezcla gaussiana

Módulo 24. Procesamiento de texto y capacitación y evaluación de modelos de temas (opcional)

Introducción a los modelos de temas
Guión
Extraer y transformar características
Analizar datos de texto
Eliminación de palabras comunes (Stop)
Contando la frecuencia de las palabras
Especificar un modelo de tema
Entrenamiento de un modelo de tema mediante Latent Dirichlet Allocation (LDA)
Evaluación del ajuste del modelo de tema
Examinar un modelo de tema
Aplicar un modelo de tema

Módulo 25. Capacitación y evaluación de modelos de recomendación (opcional)

Introducción a los modelos de recomendación
Guión
Preparación de datos para un modelo de recomendación
Especificar un modelo de recomendación
Entrenamiento de un modelo de recomendación usando mínimos cuadrados alternos
Examinar un modelo de recomendación
Aplicar un modelo de recomendación
Evaluación de un modelo de recomendación
Generando recomendaciones

Módulo 26. Trabajar con canalizaciones de aprendizaje automático

Especificación de las etapas de la canalización
Especificar una canalización
Entrenamiento de un modelo de canalización
Consultar un modelo de canalización
Aplicar un modelo de canalización

Módulo 27. Implementación de canalizaciones de aprendizaje automático

Guardar y cargar canalizaciones y modelos de canalización en Python
Carga de tuberías y modelos de tuberías en Scala

Módulo 28. Descripción general de sparklyr (opcional)

Conectando a Spark
Leer datos
Inspección de datos
Transformar datos usando verbos dplyr
Usar consultas SQL
Funciones de Spark DataFrames
Visualización de datos de Spark
Aprendizaje automático con MLlib

Módulo 29. Introducción a las funciones adicionales de CDSW (opcional)

Colaboración
Trabajos
Experimentos
Modelos
Aplicaciones

Módulo 30. Conclusión

Próximas convocatorias

Actualmente no existen convocatorias programadas para estos cursos

Para más información:

training@pue.es

BCN: (+34) 93 206 02 49

¿Dónde estamos?