Cloudera

Cloudera Data Scientist

Presencial o Live Virtual Class
Duración
28 horas
Precio
1670,00 €
Próximas convocatorias
Acerca de este curso
A quién va dirigido
Objetivos del curso
Contenidos
Convocatorias abiertas

Próximas convocatorias
Ver todas las convocatorias

15 oct 19
18 oct 19

Madrid o Live Virtual Class | Español | De Martes a Viernes (09:00h - 17:00h)
28 h.    1670 €
15 oct 19
18 oct 19

Barcelona o Live Virtual Class | Español | De Martes a Viernes (09:00h - 17:00h)
28 h.    1670 €

Acerca de este curso

TASTE OF TRAINING

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Aprenda cómo Spark y Hadoop permiten a los científicos de datos ayudar a las empresas a reducir costos, aumentar los beneficios, mejorar los productos, retener clientes e identificar nuevas oportunidades.

Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.

PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

El curso de científicos de datos está dirigido a ingenieros de datos y desarrolladores con conocimientos básicos en Data Science y machine learning, así como, para científicos de datos que han trabajado con Python o R para pequeños conjuntos de datos en una única máquina y necesitan escalarlo a conjuntos de datos más grandes en sistemas distribuidos.

Los estudiantes deben tener conocimientos básicos en Python o R y experiencia con análisis de datos o modelos de machine learning. No se requieren conocimientos en Hadoop o Spark.

Objetivos del curso

Al finalizar la formación, el participante sabrá utilizar:

  • Apache Spark 2 para Data Science y machine learning en flujos de trabajo a escala
  • Spark SQL y Dataframes para trabajar con datos estructurados
  • MLlib, la librería de Spark para machine learning
  • PySpark, la API de Python para Spark
  • Sparklyr, una interfaz de R compatible con dplyr para Spark
  • El Cloudera Data Science Workbench (CDSW)
  • Otros componentes del ecosistema Hadoop: HDFS, Hive, Impala y Hue

Contenidos

Introducción

Data Science

  • Que hacen los data scientists, herramientas y procesos que utilizan

Cloudera Data Science Workbench

  • Introducción
  • ¿Cómo se utiliza?

Caso de estudio

  • Explicación y análisis del caso
  • Uso de Hue

Apache Spark

  • Cómo trabaja Apache Spark y que capacidades nos ofrece
  • Que formatos de ficheros populares puede usar Spark para almacenar datos
  • Que lenguajes de programación puedes utilizar para trabajar con Spark
  • Cómo empezar a utilizar PySpark y Sparklyr
  • Cómo comparar PySpark y Sparklyr

Machine Learning

  • ¿Qué es machine learning?
  • Algunos conceptos y términos importantes
  • Diferentes tipos de algoritmos
  • Librerías que se utilizan

Apache Spark MLlib

  • Que capacidades de machine learning nos proporciona MLlib
  • Cómo crear, validar y utilizar modelos de machine learning con MLlib

Ejecución de trabajos Apache Spark

  • Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
  • Cómo Spark utiliza la ejecución lenta
  • Cómo Spark divide los datos entre las particiones
  • Cómo ejecuta Spark operaciones limitadas y grandes
  • Cómo Spark ejecuta un trabajo en tareas y fases

Conclusión

Convocatorias abiertas

15 oct 19
18 oct 19

Madrid o Live Virtual Class | Español | De Martes a Viernes (09:00h - 17:00h)
28 h.    1670 €
15 oct 19
18 oct 19

Barcelona o Live Virtual Class | Español | De Martes a Viernes (09:00h - 17:00h)
28 h.    1670 €