Cloudera Data Science at Scale using Spark and Hadoop

21 horas

1495,00 €

Presencial o Live Virtual Class

Acerca de este curso
Dirigido a
Objetivos
Contenidos
Solicitar Info

Solicitar Info

Actualmente no existen convocatorias programadas para este curso. Recuerda que puedes contactar con nosotros para solicitarnos cursos Private Training en otras fechas y ciudades.

Acerca de este curso

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Aprenda cómo Spark y Hadoop permiten a los data scientists ayudar a las empresas a reducir costos, aumentar los beneficios, mejorar los productos, retener clientes e identificar nuevas oportunidades.

Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.

PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.

PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.

A quién va dirigido

El curso es adecuado para desarrolladores, analistas de datos y estadísticos con conocimientos básicos de Apache Hadoop: HDFS, MapReduce, Hadoop Streaming y Apache Hive, así como experiencia trabajando en entornos Linux. Los estudiantes deben tener competencia en un lenguaje de scripting; Python es fuertemente preferido, pero la familiaridad con Perl o Ruby es suficiente.

Objetivos del curso

Al finalizar la formación, el participante conocerá:

Cómo identificar casos potenciales de uso comercial donde la ciencia de los datos puede proporcionar resultados impactantes
Cómo obtener, limpiar y combinar fuentes de datos dispares para crear una imagen coherente para el análisis
Qué métodos estadísticos aprovechar para la exploración de datos que proporcionarán información crítica sobre sus datos
Dónde y cuándo aprovechar Hadoop streaming y Apache Spark para data science pipelines
Qué técnica de aprendizaje de máquina utilizar para un proyecto particular de ciencia de datos
Cómo implementar y administrar los recomendadores con MLlib de Spark y cómo configurar y evaluar los experimentos de datos
Cuáles son las dificultades para desplegar nuevos proyectos analíticos en la producción, a escala

Contenidos

Introduction

About This Course
About Cloudera
Course Logistics
Introductions

Data Science Overview

What Is Data Science?
The Growing Need for Data Science
The Role of a Data Scientist

Use Cases

Finance
Retail
Advertising
Defense and Intelligence
Telecommunications and Utilities
Healthcare and Pharmaceuticals

Project Lifecycle

Steps in the Project Lifecycle
Lab Scenario Explanation

Data Acquisition

Where to Source Data
Acquisition Techniques

Evaluating Input Data

Data Formats
Data Quantity
Data Quality

Data Transformation

File Format Conversion
Joining Data Sets
Anonymization

Data Analysis and Statistical Method

Relationship Between Statistics and Probability
Descriptive Statistics
Inferential Statistics
Vectors and Matrices

Fundamentals of Machine Learning

Overview
The Three C’s of Machine Learning
Importance of Data and Algorithms
Spotlight: Naive Bayes Classifiers

Recommender Overview

What is a Recommender System?
Types of Collaborative Filtering
Limitations of Recommender Systems
Fundamental Concepts

Introduction to Apache Spark and MLlib

What is Apache Spark?
Comparison to MapReduce
Fundamentals of Apache Spark
Spark’s MLlib Package

Implementing Recommenders with MLlib

Overview of ALS Method for
Latent Factor Recommenders
Hyperparameters for ALS Recommenders
Building a Recommender in MLlib
Tuning Hyperparameters
Weighting

Experimentation and Evaluation

Designing Effective Experiments
Conducting an Effective Experiment
User Interfaces for Recommenders

Production Deployment and Beyond

Deploying to Production
Tips and Techniques for Working at Scale
Summarizing and Visualizing Results
Considerations for Improvement
Next Steps for Recommenders

Conclusion

Convocatorias abiertas

Actualmente no existen convocatorias programadas para este curso. Recuerda que puedes contactar con nosotros para solicitarnos cursos Private Training en otras fechas y ciudades.