Cloudera

Cloudera Data Science at Scale using Spark and Hadoop

21 horas
1495,00 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Aprenda cómo Spark y Hadoop permiten a los data scientists ayudar a las empresas a reducir costos, aumentar los beneficios, mejorar los productos, retener clientes e identificar nuevas oportunidades.

Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.

PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

El curso es adecuado para desarrolladores, analistas de datos y estadísticos con conocimientos básicos de Apache Hadoop: HDFS, MapReduce, Hadoop Streaming y Apache Hive, así como experiencia trabajando en entornos Linux. Los estudiantes deben tener competencia en un lenguaje de scripting; Python es fuertemente preferido, pero la familiaridad con Perl o Ruby es suficiente.

Objetivos del curso

Al finalizar la formación, el participante conocerá:

  • Cómo identificar casos potenciales de uso comercial donde la ciencia de los datos puede proporcionar resultados impactantes
  • Cómo obtener, limpiar y combinar fuentes de datos dispares para crear una imagen coherente para el análisis
  • Qué métodos estadísticos aprovechar para la exploración de datos que proporcionarán información crítica sobre sus datos
  • Dónde y cuándo aprovechar Hadoop streaming y Apache Spark para data science pipelines
  • Qué técnica de aprendizaje de máquina utilizar para un proyecto particular de ciencia de datos
  • Cómo implementar y administrar los recomendadores con MLlib de Spark y cómo configurar y evaluar los experimentos de datos
  • Cuáles son las dificultades para desplegar nuevos proyectos analíticos en la producción, a escala

Contenidos

Introduction

  • About This Course
  • About Cloudera
  • Course Logistics
  • Introductions

Data Science Overview

  • What Is Data Science?
  • The Growing Need for Data Science
  • The Role of a Data Scientist

Use Cases

  • Finance
  • Retail
  • Advertising
  • Defense and Intelligence
  • Telecommunications and Utilities
  • Healthcare and Pharmaceuticals

Project Lifecycle

  • Steps in the Project Lifecycle
  • Lab Scenario Explanation

Data Acquisition

  • Where to Source Data
  • Acquisition Techniques

Evaluating Input Data

  • Data Formats
  • Data Quantity
  • Data Quality

Data Transformation

  • File Format Conversion
  • Joining Data Sets
  • Anonymization

Data Analysis and Statistical Method

  • Relationship Between Statistics and Probability
  • Descriptive Statistics
  • Inferential Statistics
  • Vectors and Matrices

Fundamentals of Machine Learning

  • Overview
  • The Three C’s of Machine Learning
  • Importance of Data and Algorithms
  • Spotlight: Naive Bayes Classifiers

Recommender Overview

  • What is a Recommender System?
  • Types of Collaborative Filtering
  • Limitations of Recommender Systems
  • Fundamental Concepts

Introduction to Apache Spark and MLlib

  • What is Apache Spark?
  • Comparison to MapReduce
  • Fundamentals of Apache Spark
  • Spark’s MLlib Package

Implementing Recommenders with MLlib

  • Overview of ALS Method for
  • Latent Factor Recommenders
  • Hyperparameters for ALS Recommenders
  • Building a Recommender in MLlib
  • Tuning Hyperparameters
  • Weighting

Experimentation and Evaluation

  • Designing Effective Experiments
  • Conducting an Effective Experiment
  • User Interfaces for Recommenders

Production Deployment and Beyond

  • Deploying to Production
  • Tips and Techniques for Working at Scale
  • Summarizing and Visualizing Results
  • Considerations for Improvement
  • Next Steps for Recommenders

Conclusion

Convocatorias abiertas