Data Engineering on Google Cloud Platform
                                    Presencial / Live Virtual Class
                                       
                                    
                                    28 horas
                                       
                                    
                                        1850.00 €
                                Actualmente no existen convocatorias programadas para estos cursos
Acerca de este curso
Este curso proporciona a los alumnos una introducción al diseño y construcción de sistemas de procesamiento de datos en Google Cloud Platform. Mediante la combinación de demos y laboratorios, los alumnos aprenderán a como diseñar sistemas de procesado de datos, construir canales end-to-end, analizar datos y realizar machine learning. Este curso cubre datos estructurados, no estructurados y transferencia continua
A quién va dirigido
Este curso está dirigido a desarrolladores con experiencia que son responsables de la administración de las transformaciones big data, incluyendo:
- Extracción, carga, transformación, limpieza y validación de datos.
 - Diseño de pipelines y arquitecturas para procesamiento de datos.
 - Creación y administración de machine learning y modelos estadísticos.
 - Realizar consultar a dataset, visualización de resultados de consultar y creación de reportes.
 
Para aprovechar al máximo este curso, los alumnos deben tener:
- Completado el curso Google Cloud Fundamentals: Big Data & Machine Learning o experiencia equivalente.
 - Competencia básica con lenguaje de consultas común como SQL.
 - Experiencia con modelado, extracción, transformación y carga de datos.
 - Competencia en desarrollo de aplicaciones utilizando un lenguaje de programación común como Python.
 - Familiaridad con Machine Learning y/o estadística.
 
Objetivos del curso
Al finalizar este curso, el alumno será capaz de:
- Diseñar y construir sistemas de procesamiento de datos en Google Cloud Platform.
 - Procesar datos batch y transferencia continua implementando canales de autoescalado de datos en Cloud Dataflow.
 - Conseguir información de negoción de datasets enormes utilizando Google BigQuery.
 - Evaluar y predecir utilizando modelos machine learning utilizando Tensorflow y Cloud ML.
 - Hacer uso de datos no estructurado utilizando Spark y APIs ML en Cloud Datapro.
 - Habilitar información instantánea de la transferencia continua de datos.
 
Contenidos
Introducción a la ingeniería de datos
- Conocer el rol de un ingeniero de datos.
 - Analizar los desafíos de la ingeniería de datos.
 - Introducción a BigQuery.
 - Data Lakes y Data Warehouses.
 - Demostración: Federated Queries con BigQuery.
 - Bases de datos transaccionales vs Data Warehouses.
 - Demostración web: Encontrar PII en su dataset con la API DLP.
 - Asociación efectiva con otros equipos de datos.
 - Gestionar el acceso a los datos y la gobernanza.
 - Creación de pipelines listos para producción.
 - Revisión del caso de estudio personalizado de GCP.
 - Laboratorio: análisis de datos con BigQuery.
 
Creación de un Data Lake
- Introducción a Data Lakes.
 - Almacenamiento de datos y opciones ETL en GCP.
 - Creación de un Data Lake con almacenamiento en Cloud.
 - Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
 - Securizar el almacenamiento en Cloud.
 - Almacenar de manera ordenada todo tipo de datos.
 - Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
 - Cloud SQL como un Data Lake relacional.
 - Laboratorio: Carga de datos procedentes de un taxi en Cloud SQL.
 
Creación de un Data Warehouse
- El Data Warehouse moderno.
 - Introducción a BigQuery.
 - Demostración: Query TB+ de datos en segundos.
 - Introducción.
 - Carga de datos.
 - Video demostración: Consulta de Cloud SQL desde BigQuery.
 - Laboratorio: carga de datos en BigQuery.
 - Estudio de esquemas.
 - Demostración: estudio de Datasets públicos de BigQuery con SQL utilizando INFORMATION_SCHEMA.
 - Diseño de esquemas.
 - Campos anidados y repetidos.
 - Demostración: campos anidados y repetidos en BigQuery.
 - Laboratorio: trabajar con datos JSON y Array en BigQuery.
 - Optimización con particionamiento y clustering.
 - Demostración: Tablas particionadas y clusterizadas en BigQuery.
 - Vista previa: transformación de datos Batch y Streaming.
 
Introducción a la creación de Batch Data Pipelines
- EL, ELT, ETL.
 - Consideraciones de calidad.
 - Realizar operaciones en BigQuery.
 - Demostración: ELT para mejorar la calidad de los datos en BigQuery.
 - Deficiencias.
 - ETL para resolver problemas de calidad de datos.
 
Ejecutar Spark en Cloud Dataproc
- El ecosistema de Hadoop.
 - Ejecutar Hadoop en Cloud Dataproc.
 - GCS en lugar de HDFS.
 - Optimización de Dataproc.
 - Laboratorio: ejecución de Apache Spark jobs en Cloud Dataproc.
 
Procesamiento de datos Serverless con Cloud Dataflow
- Cloud Dataflow.
 - El valor del Dataflow para los clientes.
 - Dataflow Pipelines.
 - Laboratorio: Un Dataflow Pipeline simple (Python/Java).
 - Laboratorio: MapReduce en Dataflow (Python/Java).
 - Laboratorio: Side Inputs (Python/Java).
 - Plantillas de Dataflow.
 - Dataflow SQL.
 
Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer
- Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
 - Componentes.
 - Descripción general de la UI.
 - Creacion de un Pipeline.
 - Estudio de datos con el uso de Wrangler.
 - Laboratorio: creación y ejecución de un gráfico pipeline en Cloud Data Fusion.
 - Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
 - Apache Airflow Environment.
 - DAGs y Operadores.
 - Programación de un Workflow.
 - Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
 - Monitorización y Logging.
 - Laboratorio: Introducción a Cloud Composer.
 
Introducción al procesamiento de datos streaming
- Procesamiento de datos streaming.
 
Mensajería Serverless con Cloud Pub/Sub
- Cloud Pub/Sub.
 - Laboratorio: Publicar datos streaming en Pub/Sub.
 
Características de Cloud Dataflow Streaming
- Características de BigQuery Streaming.
 - Laboratorio: Streaming Data Pipelines.
 
Características de BigQuery Streaming y Bigtable de alto rendimiento
- Características streaming de BigQuery.
 - Laboratorio: Streaming Analytics y Dashboards.
 - Cloud Bigtable.
 - Laboratorio: Streaming Data Pipelines en Bigtable.
 
Funcionalidad y rendimiento avanzados de BigQuery
- Funciones de ventana analíticas.
 - Uso de cláusulas With.
 - Funciones GIS.
 - Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
 - Consideraciones de rendimiento.
 - Laboratorio: Optimización de consultas BigQuery para mejorar el rendimiento.
 - Laboratorio opcional: creación de tablas particionadas por fecha en BigQuery.
 
Introducción a la analítica y la IA
- ¿Qué es la IA?
 - Del análisis de datos Ad-hoc a las decisiones basadas en datos.
 - Opciones para modelos ML en GCP.
 
APIs de modelado ML preconstruidas para datos no estructurados
- La dificultad de los datos no estructurados.
 - APIs de ML para el enriquecimiento los datos.
 - Laboratorio: uso de la API de lenguaje natural para clasificar texto no estructurado.
 
Análisis Big Data con Cloud AI Platform Notebooks
- ¿Qué es un Notebook?
 - BigQuery Magic y Ties to Pandas.
 - Laboratorio: BigQuery en Jupyter Labs para la plataforma IA.
 
Pipelines ML en producción con Kubeflow
- Métodos para aplicar ML en GCP.
 - Kubeflow.
 - AI Hub.
 - Laboratorio: ejecución de modelos de IA en Kubeflow.
 
Creación de modelos personalizados con SQL en BigQuery ML
- BigQuery ML para Quick Model Building.
 - Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
 - Modelos compatibles.
 - Laboratorio (Opción 1): Predecir la duración de un viaje en bicicleta con un modelo de regresión en BQML.
 - Laboratorio (Opción 2): Recomendaciones de películas en BigQuery ML.
 
Creación de modelos personalizados con Cloud AutoML
- ¿Porqué utilizar Auto ML?
 - Auto ML Vision.
 - Auto ML NLP.
 - Tablas Auto ML.
 

                            
                        
                        
        













