Cloudera

Cloudera Data Scientist

28 horas
1840,00 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

TASTE OF TRAINING

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Este curso de cuatro días cubre enterprise data science y el aprendizaje automático utilizando Apache Spark en Cloudera Data Science Workbench (CDSW). Los participantes utilizarán Spark SQL para cargar, explorar, limpiar, unir y analizar datos y Spark MLlib para especificar, entrenar, evaluar, ajustar e implementar pipelines de aprendizaje automático. Se sumergirán en los fundamentos de la arquitectura y el modelo de ejecución de Spark necesarios para configurar, monitorear y ajustar de manera efectiva sus aplicaciones de Spark. Los participantes también aprenderán cómo Spark se integra con componentes clave de la plataforma Cloudera como HDFS, YARN, Hive, Impala y Hue, así como sus paquetes favoritos de Python.

PUE, Strategic Partner de Cloudera, está autorizado oficialmente por esta multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Este curso está diseñado para científicos de datos que usan Python o R para trabajar con pequeños conjuntos de datos en una sola máquina y que necesitan ampliar sus flujos de trabajo de data science y aprendizaje automático a grandes conjuntos de datos en clústeres distribuidos.

Aquellos ingenieros de datos, analistas de datos, desarrolladores y arquitectos de soluciones que colaboran con científicos de datos también encontrarán provechosa esta formación.

Requisitos previos

Los participantes deben tener un conocimiento básico de Python o R y algo de experiencia explorando, analizando datos y desarrollando modelos estadísticos o de aprendizaje automático. No se requieren conocimientos de Spark, Hadoop o de la plataforma Cloudera.

Objetivos del curso

Los participantes recorrerán un flujo de trabajo integral de data science y aprendizaje automático basado en escenarios y conjuntos de datos realistas de una empresa de tecnología ficticia. El material del curso se presenta a través de una secuencia de breves conferencias, demostraciones interactivas, extensos ejercicios prácticos y discusiones animadas. Las demostraciones y los ejercicios se realizan en Python (con PySpark) utilizando Cloudera Data Science Workbench (CDSW). Se proporcionarán ejemplos complementarios que utilizan R (con sparklyr).

Contenidos

Módulo 1. Introducción

Módulo 2. Descripción general de la ciencia de datos (data science)

  • Qué hacen los científicos de datos
  • Qué procesos utilizan los científicos de datos
  • Qué herramientas utilizan los científicos de datos

Módulo 3. Cloudera Data Science Workbench (CDSW)

  • Introducción a Cloudera Data Science Workbench
  • Cómo funciona Cloudera Data Science Workbench
  • Cómo utilizar Cloudera Data Science Workbench
  • Ingresando código
  • Obteniendo ayuda
  • Acceder a la línea de comandos de Linux
  • Trabajar con paquetes de Python
  • Formatear la salida de la sesión

Módulo 4. Casos de estudio

  • DuoCar
  • Cómo funciona DuoCar
  • Conjuntos de datos de DuoCar
  • Objetivos comerciales de DuoCar
  • Plataforma de ciencia de datos DuoCar
  • Clúster DuoCar Cloudera EDH
  • HDFS
  • Apache Spark
  • Apache Hive
  • Apache Impala
  • Matiz
  • HILO
  • Arquitectura de clúster de DuoCar

Módulo 5. Apache Spark

  • Apache Spark
  • Cómo funciona Spark
  • La Spark Stack
  • Spark SQL
  • DataFrames
  • Formatos de archivo en Apache Spark
  • Formatos de archivo de texto
  • Formato de archivo Parquet
  • Idiomas de la interfaz de Spark
  • PySpark
  • Data Science con PySpark
  • sparklyr
  • dplyr y sparklyr
  • Comparación de PySpark y sparklyr
  • Cómo funciona Sparklyr con dplyr
  • Funciones Sparklyr DataFrame y MLlib
  • Cuándo usar PySpark y sparklyr

Módulo 6. Ejecución de una aplicación Spark desde CDSW

  • Descripción general
  • Iniciar una aplicación Spark
  • Lectura de datos en un marco de datos (DataFrame) de Spark SQL
  • Examinar el esquema de un marco de datos
  • Calcular el número de filas y columnas de un marco de datos
  • Examinar filas de un marco de datos
  • Detener una aplicación Spark

Módulo 7. Inspección de un DataFrame de Spark SQL

  • Descripción general
  • Inspeccionando un DataFrame
  • Inspeccionar una columna DataFrame
  • Inspección de una variable de clave principal
  • Inspeccionar una variable categórica
  • Inspeccionar una variable numérica
  • Inspección de una variable de fecha y hora

Módulo 8. Transformar DataFrames

  • Spark SQL DataFrames
  • Trabajar con columnas
  • Seleccionar columnas
  • Dejar caer columnas
  • Especificar columnas
  • Agregar columnas
  • Cambiar el nombre de la columna
  • Cambiar el tipo de columna
  • Trabajar con filas
  • Ordenar filas
  • Seleccionar un número fijo de filas
  • Seleccionar filas distintas
  • Filtrar filas
  • Filas de muestreo
  • Trabajar con valores perdidos

Módulo 9. Transformación de columnas de DataFrame

  • Tipos de datos de Spark SQL
  • Trabajar con columnas numéricas
  • Trabajar con columnas de cadena
  • Trabajar con columnas de fecha y marca de tiempo
  • Trabajar con columnas booleanas

Módulo 10. Tipos complejos (opcional)

  • Tipos de datos de recopilación complejos
  • Arrays
  • Maps
  • Structs

Módulo 11. Funciones definidas por el usuario (opcional)

  • Funciones definidas por el usuario
  • Definición de una función de Python
  • Registro de una función de Python como función definida por el usuario
  • Aplicar una función definida por el usuario

Módulo 12. Lectura y escritura de datos

  • Leer y escribir datos
  • Trabajar con archivos de texto delimitados
  • Trabajar con archivos de texto
  • Trabajar con archivos Parquet
  • Trabajar con tablas de Hive
  • Trabajar con almacenes de objetos
  • Trabajar con pandas DataFrames

Módulo 13. Combinación y división de marcos de datos

  • Unirse a DataFrames
  • Cross Join
  • Inner Join
  • Left Semi Join
  • Left Anti Join
  • Left Outer Join
  • Right Outer Join
  • Full Outer Join
  • Aplicar operaciones de conjunto a DataFrames
  • Dividir un DataFrame

Módulo 14. Resumen y agrupación de marcos de datos

  • Resumen de datos con funciones agregadas
  • Agrupar datos
  • Datos pivotantes

Módulo 15. Funciones de ventana (opcional)

  • Introducción a las funciones de ventana
  • Crear una especificación de ventana
  • Agregando sobre una especificación de ventana

Módulo 16. Exploración de DataFrames

  • Posibles flujos de trabajo para Big Data
  • Explorando una sola variable
  • Explorando una variable categórica
  • Explorando una variable continua
  • Explorando un par de variables
  • Par categórico-categórico
  • Par categórico-continuo
  • Par continuo-continuo

Módulo 17. Ejecución de trabajos de Apache Spark

  • Operaciones de DataFrame
  • Divisiones de entrada
  • Operaciones estrechas
  • Operaciones amplias
  • Etapas y tareas
  • Barajar

Módulo 18. Supervisión, ajuste y configuración de aplicaciones Spark

  • Supervisión de aplicaciones Spark
  • DataFrames persistentes
  • Particionamiento de DataFrames
  • Configuración del entorno Spark

Módulo 19. Descripción general del aprendizaje automático

  • Aprendizaje automático
  • Ajuste insuficiente y excesivo
  • Modelo de validación
  • Hiperparámetros
  • Aprendizaje supervisado y no supervisado
  • Algoritmos de aprendizaje automático
  • Bibliotecas de aprendizaje automático
  • Apache Spark MLlib

Módulo 20. Entrenamiento y evaluación de modelos de regresión

  • Introducción a los modelos de regresión
  • Guión
  • Preparación de los datos de regresión
  • Ensamblaje del vector de características
  • Creación de un Train y un conjunto de pruebas (Test Set)
  • Especificar un modelo de regresión lineal
  • Entrenamiento de un modelo de regresión lineal
  • Examinar los parámetros del modelo
  • Examinar varias medidas de rendimiento del modelo
  • Examinar varios diagnósticos de modelos
  • Aplicar el modelo de regresión lineal a los datos de prueba (Test Data)
  • Evaluación del modelo de regresión lineal en los datos de prueba
  • Trazado del modelo de regresión lineal

Módulo 21. Capacitación y evaluación de modelos de clasificación

  • Introducción a los modelos de clasificación
  • Guión
  • Procesamiento previo de los datos de modelado
  • Generar una etiqueta
  • Extraer, transformar y seleccionar funciones
  • Crear conjuntos de pruebas y Train
  • Especificar un modelo de regresión logística
  • Entrenar el modelo de regresión logística
  • Examinar el modelo de regresión logística
  • Evaluar el rendimiento del modelo en el conjunto de prueba

Módulo 22. Ajuste de los hiperparámetros del algoritmo mediante la búsqueda en cuadrícula

  • Requisitos para el ajuste de hiperparámetros
  • Especificar el estimador
  • Especificación de la cuadrícula de hiperparámetros
  • Especificar el evaluador
  • Ajuste de hiperparámetros mediante la validación cruzada de Holdout
  • Ajuste de hiperparámetros mediante la validación cruzada de K-fold

Módulo 23. Capacitación y evaluación de modelos de agrupación en clústeres

  • Introducción a la agrupación en clústeres
  • Guión
  • Procesamiento previo de los datos
  • Extracción, transformación y selección de funciones
  • Especificación de un modelo de mezcla gaussiana
  • Entrenamiento de un modelo de mezcla gaussiana
  • Examinando el modelo de mezcla gaussiana
  • Trazar los clústeres
  • Explorando los perfiles de clúster
  • Guardar y cargar el modelo de mezcla gaussiana

Módulo 24. Procesamiento de texto y capacitación y evaluación de modelos de temas (opcional)

  • Introducción a los modelos de temas
  • Guión
  • Extraer y transformar características
  • Analizar datos de texto
  • Eliminación de palabras comunes (Stop)
  • Contando la frecuencia de las palabras
  • Especificar un modelo de tema
  • Entrenamiento de un modelo de tema mediante Latent Dirichlet Allocation (LDA)
  • Evaluación del ajuste del modelo de tema
  • Examinar un modelo de tema
  • Aplicar un modelo de tema

Módulo 25. Capacitación y evaluación de modelos de recomendación (opcional)

  • Introducción a los modelos de recomendación
  • Guión
  • Preparación de datos para un modelo de recomendación
  • Especificar un modelo de recomendación
  • Entrenamiento de un modelo de recomendación usando mínimos cuadrados alternos
  • Examinar un modelo de recomendación
  • Aplicar un modelo de recomendación
  • Evaluación de un modelo de recomendación
  • Generando recomendaciones

Módulo 26. Trabajar con canalizaciones de aprendizaje automático

  • Especificación de las etapas de la canalización
  • Especificar una canalización
  • Entrenamiento de un modelo de canalización
  • Consultar un modelo de canalización
  • Aplicar un modelo de canalización

Módulo 27. Implementación de canalizaciones de aprendizaje automático

  • Guardar y cargar canalizaciones y modelos de canalización en Python
  • Carga de tuberías y modelos de tuberías en Scala

Módulo 28. Descripción general de sparklyr (opcional)

  • Conectando a Spark
  • Leer datos
  • Inspección de datos
  • Transformar datos usando verbos dplyr
  • Usar consultas SQL
  • Funciones de Spark DataFrames
  • Visualización de datos de Spark
  • Aprendizaje automático con MLlib

Módulo 29. Introducción a las funciones adicionales de CDSW (opcional)

  • Colaboración
  • Trabajos
  • Experimentos
  • Modelos
  • Aplicaciones

Módulo 30. Conclusión

Convocatorias abiertas