Cloudera

Cloudera Data Scientist

28 horas
1995 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

TASTE OF TRAINING

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Aprenda en este curso cómo Spark y Hadoop permiten a los científicos de datos ayudar a las empresas a reducir costes, aumentar los beneficios, mejorar productos, retener clientes e identificar nuevas oportunidades.

Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican métodos data science a retos del mundo real en diferentes industrias y, en última instancia, se prepararan para desarrollar las funciones de data scientist.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

Esta formación está dirigida a ingenieros de datos y desarrolladores con conocimientos básicos en Data Science y machine learning, también para científicos de datos que han trabajado con Python o R para pequeños conjuntos de datos en una única máquina y necesitan escalarlo a conjuntos de datos más grandes en sistemas distribuidos.

Los participantes deben tener conocimientos básicos en Python o R y experiencia con análisis de datos o modelos de machine learning. No se requieren conocimientos en Hadoop o Spark.

Objetivos del curso

Al finalizar la formación, el participante habrá adquirido los siguientes conocimientos:

  • Descripción general de data science y el machine learning a escala
  • Descripción general del ecosistema Hadoop
  • Trabajar con datos HDFS y tablas de Hive mediante Hue
  • Introducción a Cloudera Data Science Workbench
  • Descripción general de Apache Spark 2
  • Leer y escribir datos
  • Inspeccionar la calidad de los datos
  • Limpieza y transformación de datos
  • Resumir y agrupar datos
  • Combinar, dividir y remodelar datos
  • Exploración de datos
  • Configuración, monitorización y solución de problemas de aplicaciones Spark
  • Descripción general del machine learning en Spark MLlib
  • Extracción, transformación y selección de características
  • Construcción y evaluación de modelos de regresión
  • Construcción y evaluación de modelos de clasificación
  • Construcción y evaluación de modelos de agrupación
  • Modelos de validación cruzada e hiperparámetros de ajuste
  • Construcción de pipelines de machine learning
  • Despliegue de modelos de machine learning

Contenidos

Introducción

Descripción general de la ciencia de datos

  • ¿Qué hacen los científicos de datos?
  • ¿Qué procesos usan?
  • ¿Qué herramientas usan?

 Cloudera Data Science Workbench

  • Introducción a Cloudera Data Science Workbench
  • Uso de Cloudera Data Science Workbench
  • Demostración y ejercicios: Uso de Cloudera Data Science Workbench

Caso de estudio

  • Explicación del escenario del caso
  • Plataforma de ciencia de datos del caso de estudio
  • Demostración y ejercicios: Uso de Hue

Apache Spark

  • Funcionamiento de Spark
  • El Spark Stack
  • Formatos de archivos en Spark
  • Idiomas de interfaz de Spark
  • Introducción a PySpark
  • Demostración y ejercicios: Conectarse a Spark mediante PySpark
  • Introducción a sparklyr
  • Demostración y ejercicios: Conectarse a Spark mediante sparklyr
  • Cuándo usar PySpark y sparklyr

Lecturas, demostraciones y ejercicios con CDSW

Ejecución de un Apache Spark Job

  • Cómo convertir las operaciones de DataFrame en Spark Jobs
  • Ejecución de un Job en Spark

Apache Spark MLlib

  • Introducción a Apache Spark MLlib
  • Demostraciones y ejercicios: Uso de MLlib

Conclusión

 

Convocatorias abiertas