Datastream: Replicación de datos en tiempo real con Google Cloud

Yi Liu

¿Qué es Datastream?

Datastream es un servicio serverless de replicación y captura de datos modificados (CDC) que permite la sincronización de datos de forma fiable y con baja latencia. Su diseño simplificado facilita la integración de datos sin necesidad de gestionar infraestructura compleja.

Ventajas de Datastream

  • Simplicidad: Configura la replicación de datos sin la necesidad de crear pipelines ETL complejos.
  • Integración nativa: Compatible con Dataflow, Pub/Sub, BigQuery y otros servicios de Google Cloud.
  • Alta seguridad: Ofrece conectividad privada y las medidas de seguridad de Google Cloud.
  • Precisión y confiabilidad: Ofrece informes detallados y la capacidad de manejar cambios en datos y esquemas con flexibilidad, asegurando la integridad de los datos.

Desventajas

  • Fuentes limitadas: Actualmente solo es compatible con Oracle, MySQL, SQL Server, PostgreSQL y Salesforce, ésta última está en fase de preview.
  • Costes variables: La replicación continua puede generar costes elevados en fuentes con altas tasas de actualización y grandes volúmenes de datos.

Conclusiones

Datastream es una solución potente y sencilla para la replicación de datos en entornos de Google Cloud. Sin embargo, su disponibilidad limitada para ciertas fuentes y el posible incremento de costes en escenarios de alta frecuencia de cambios pueden ser factores a considerar. Aun así, su integración fluida y seguridad robusta lo convierten en una alternativa atractiva para proyectos de análisis y procesamiento de datos en la nube.

Os dejamos enlaces de interés:

Documentación de Datastream: https://cloud.google.com/datastream/docs/overview

Datastream in GCP : A Beginner’s Guide: https://medium.com/@santosh_beora/datastream-in-gcp-a-beginners-guide-c7f055fe39d9

Introduction to Datastream for BigQuery: https://youtu.be/vMo6Zgkvt40?feature=shared