Acerca de este curso
Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.
Aprenda cómo Spark y Hadoop permiten a los data scientists ayudar a las empresas a reducir costos, aumentar los beneficios, mejorar los productos, retener clientes e identificar nuevas oportunidades.
Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.
PUE es Strategic Partner de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
A quién va dirigido
El curso es adecuado para desarrolladores, analistas de datos y estadísticos con conocimientos básicos de Apache Hadoop: HDFS, MapReduce, Hadoop Streaming y Apache Hive, así como experiencia trabajando en entornos Linux. Los estudiantes deben tener competencia en un lenguaje de scripting; Python es fuertemente preferido, pero la familiaridad con Perl o Ruby es suficiente.
Objetivos del curso
Al finalizar la formación, el participante conocerá:
- Cómo identificar casos potenciales de uso comercial donde la ciencia de los datos puede proporcionar resultados impactantes
- Cómo obtener, limpiar y combinar fuentes de datos dispares para crear una imagen coherente para el análisis
- Qué métodos estadísticos aprovechar para la exploración de datos que proporcionarán información crítica sobre sus datos
- Dónde y cuándo aprovechar Hadoop streaming y Apache Spark para data science pipelines
- Qué técnica de aprendizaje de máquina utilizar para un proyecto particular de ciencia de datos
- Cómo implementar y administrar los recomendadores con MLlib de Spark y cómo configurar y evaluar los experimentos de datos
- Cuáles son las dificultades para desplegar nuevos proyectos analíticos en la producción, a escala
Contenidos
Introduction
- About This Course
- About Cloudera
- Course Logistics
- Introductions
Data Science Overview
- What Is Data Science?
- The Growing Need for Data Science
- The Role of a Data Scientist
Use Cases
- Finance
- Retail
- Advertising
- Defense and Intelligence
- Telecommunications and Utilities
- Healthcare and Pharmaceuticals
Project Lifecycle
- Steps in the Project Lifecycle
- Lab Scenario Explanation
Data Acquisition
- Where to Source Data
- Acquisition Techniques
Evaluating Input Data
- Data Formats
- Data Quantity
- Data Quality
Data Transformation
- File Format Conversion
- Joining Data Sets
- Anonymization
Data Analysis and Statistical Method
- Relationship Between Statistics and Probability
- Descriptive Statistics
- Inferential Statistics
- Vectors and Matrices
Fundamentals of Machine Learning
- Overview
- The Three C’s of Machine Learning
- Importance of Data and Algorithms
- Spotlight: Naive Bayes Classifiers
Recommender Overview
- What is a Recommender System?
- Types of Collaborative Filtering
- Limitations of Recommender Systems
- Fundamental Concepts
Introduction to Apache Spark and MLlib
- What is Apache Spark?
- Comparison to MapReduce
- Fundamentals of Apache Spark
- Spark’s MLlib Package
Implementing Recommenders with MLlib
- Overview of ALS Method for
- Latent Factor Recommenders
- Hyperparameters for ALS Recommenders
- Building a Recommender in MLlib
- Tuning Hyperparameters
- Weighting
Experimentation and Evaluation
- Designing Effective Experiments
- Conducting an Effective Experiment
- User Interfaces for Recommenders
Production Deployment and Beyond
- Deploying to Production
- Tips and Techniques for Working at Scale
- Summarizing and Visualizing Results
- Considerations for Improvement
- Next Steps for Recommenders
Conclusion