Google Cloud

Data Engineering on Google Cloud Platform

28 horas
1850,00 €
Presencial o Live Virtual Class
Presencial o Live Virtual Class

Acerca de este curso

TASTE OF TRAINING

Este curso proporciona a los alumnos una introducción al diseño y construcción de sistemas de procesamiento de datos en Google Cloud Platform. Mediante la combinación de demos y laboratorios, los alumnos aprenderán a como diseñar sistemas de procesado de datos, construir canales end-to-end, analizar datos y realizar machine learning. Este curso cubre datos estructurados, no estructurados y transferencia continua

A quién va dirigido

Este curso está dirigido a desarrolladores con experiencia que son responsables de la administración de las transformaciones big data, incluyendo:

  • Extracción, carga, transformación, limpieza y validación de datos.
  • Diseño de pipelines y arquitecturas para procesamiento de datos.
  • Creación y administración de machine learning y modelos estadísticos.
  • Realizar consultar a dataset, visualización de resultados de consultar y creación de reportes.

Para aprovechar al máximo este curso, los alumnos deben tener:

  • Completado el curso Google Cloud Fundamentals: Big Data & Machine Learning o experiencia equivalente.
  • Competencia básica con lenguaje de consultas común como SQL.
  • Experiencia con modelado, extracción, transformación y carga de datos.
  • Competencia en desarrollo de aplicaciones utilizando un lenguaje de programación común como Python.
  • Familiaridad con Machine Learning y/o estadística.

Objetivos del curso

Al finalizar este curso, el alumno será capaz de:

  • Diseñar y construir sistemas de procesamiento de datos en Google Cloud Platform.
  • Procesar datos batch y transferencia continua implementando canales de autoescalado de datos en Cloud Dataflow.
  • Conseguir información de negoción de datasets enormes utilizando Google BigQuery.
  • Evaluar y predecir utilizando modelos machine learning utilizando Tensorflow y Cloud ML.
  • Hacer uso de datos no estructurado utilizando Spark y APIs ML en Cloud Datapro.
  • Habilitar información instantánea de la transferencia continua de datos.

Contenidos

Introducción a la ingeniería de datos

  • Conocer el rol de un ingeniero de datos.
  • Analizar los desafíos de la ingeniería de datos.
  • Introducción a BigQuery.
  • Data Lakes y Data Warehouses.
  • Demostración: Federated Queries con BigQuery.
  • Bases de datos transaccionales vs Data Warehouses.
  • Demostración web: Encontrar PII en su dataset con la API DLP.
  • Asociación efectiva con otros equipos de datos.
  • Gestionar el acceso a los datos y la gobernanza.
  • Creación de pipelines listos para producción.
  • Revisión del caso de estudio personalizado de GCP.
  • Laboratorio: análisis de datos con BigQuery.

Creación de un Data Lake

  • Introducción a Data Lakes.
  • Almacenamiento de datos y opciones ETL en GCP.
  • Creación de un Data Lake con almacenamiento en Cloud.
  • Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
  • Securizar el almacenamiento en Cloud.
  • Almacenar de manera ordenada todo tipo de datos.
  • Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
  • Cloud SQL como un Data Lake relacional.
  • Laboratorio: Carga de datos procedentes de un taxi en Cloud SQL.

Creación de un Data Warehouse

  • El Data Warehouse moderno.
  • Introducción a BigQuery.
  • Demostración: Query TB+ de datos en segundos.
  • Introducción.
  • Carga de datos.
  • Video demostración: Consulta de Cloud SQL desde BigQuery.
  • Laboratorio: carga de datos en BigQuery.
  • Estudio de esquemas.
  • Demostración: estudio de Datasets públicos de BigQuery con SQL utilizando INFORMATION_SCHEMA.
  • Diseño de esquemas.
  • Campos anidados y repetidos.
  • Demostración: campos anidados y repetidos en BigQuery.
  • Laboratorio: trabajar con datos JSON y Array en BigQuery.
  • Optimización con particionamiento y clustering.
  • Demostración: Tablas particionadas y clusterizadas en BigQuery.
  • Vista previa: transformación de datos Batch y Streaming.

Introducción a la creación de Batch Data Pipelines

  • EL, ELT, ETL.
  • Consideraciones de calidad.
  • Realizar operaciones en BigQuery.
  • Demostración: ELT para mejorar la calidad de los datos en BigQuery.
  • Deficiencias.
  • ETL para resolver problemas de calidad de datos.

Ejecutar Spark en Cloud Dataproc

  • El ecosistema de Hadoop.
  • Ejecutar Hadoop en Cloud Dataproc.
  • GCS en lugar de HDFS.
  • Optimización de Dataproc.
  • Laboratorio: ejecución de Apache Spark jobs en Cloud Dataproc.

Procesamiento de datos Serverless con Cloud Dataflow

  • Cloud Dataflow.
  • El valor del Dataflow para los clientes.
  • Dataflow Pipelines.
  • Laboratorio: Un Dataflow Pipeline simple (Python/Java).
  • Laboratorio: MapReduce en Dataflow (Python/Java).
  • Laboratorio: Side Inputs (Python/Java).
  • Plantillas de Dataflow.
  • Dataflow SQL.

Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer

  • Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
  • Componentes.
  • Descripción general de la UI.
  • Creacion de un Pipeline.
  • Estudio de datos con el uso de Wrangler.
  • Laboratorio: creación y ejecución de un gráfico pipeline en Cloud Data Fusion.
  • Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
  • Apache Airflow Environment.
  • DAGs y Operadores.
  • Programación de un Workflow.
  • Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
  • Monitorización y Logging.
  • Laboratorio: Introducción a Cloud Composer.

Introducción al procesamiento de datos streaming

  • Procesamiento de datos streaming.

Mensajería Serverless con Cloud Pub/Sub

  • Cloud Pub/Sub.
  • Laboratorio: Publicar datos streaming en Pub/Sub.

Características de Cloud Dataflow Streaming

  • Características de BigQuery Streaming.
  • Laboratorio: Streaming Data Pipelines.

Características de BigQuery Streaming y Bigtable de alto rendimiento

  • Características streaming de BigQuery.
  • Laboratorio: Streaming Analytics y Dashboards.
  • Cloud Bigtable.
  • Laboratorio: Streaming Data Pipelines en Bigtable.

Funcionalidad y rendimiento avanzados de BigQuery

  • Funciones de ventana analíticas.
  • Uso de cláusulas With.
  • Funciones GIS.
  • Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
  • Consideraciones de rendimiento.
  • Laboratorio: Optimización de consultas BigQuery para mejorar el rendimiento.
  • Laboratorio opcional: creación de tablas particionadas por fecha en BigQuery.

Introducción a la analítica y la IA

  • ¿Qué es la IA?
  • Del análisis de datos Ad-hoc a las decisiones basadas en datos.
  • Opciones para modelos ML en GCP.

APIs de modelado ML preconstruidas para datos no estructurados

  • La dificultad de los datos no estructurados.
  • APIs de ML para el enriquecimiento los datos.
  • Laboratorio: uso de la API de lenguaje natural para clasificar texto no estructurado.

Análisis Big Data con Cloud AI Platform Notebooks

  • ¿Qué es un Notebook?
  • BigQuery Magic y Ties to Pandas.
  • Laboratorio: BigQuery en Jupyter Labs para la plataforma IA.

Pipelines ML en producción con Kubeflow

  • Métodos para aplicar ML en GCP.
  • Kubeflow.
  • AI Hub.
  • Laboratorio: ejecución de modelos de IA en Kubeflow.

Creación de modelos personalizados con SQL en BigQuery ML

  • BigQuery ML para Quick Model Building.
  • Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
  • Modelos compatibles.
  • Laboratorio (Opción 1): Predecir la duración de un viaje en bicicleta con un modelo de regresión en BQML.
  • Laboratorio (Opción 2): Recomendaciones de películas en BigQuery ML.

Creación de modelos personalizados con Cloud AutoML

  • ¿Porqué utilizar Auto ML?
  • Auto ML Vision.
  • Auto ML NLP.
  • Tablas Auto ML.

Convocatorias abiertas