Un data lake es un repositorio que permite almacenar datos en bruto, sin tener que estructurarlos y ejecutar diferentes tipos de análisis.
El origen de su nombre (literalmente lago de datos en inglés) hace referencia al comportamiento de los datos de este sistema, en contraste con los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos o Data Mart.
Los Data Lakes se suelen configurar en un clúster de hardware de consumo económico y escalable, lo que permite volcar los datos al mismo por si fuera necesario más adelante sin tener que preocuparse por la capacidad de almacenamiento. Dichos clústeres pueden existir de manera local o en la nube.
Estudios (y la experiencia misma) afirman que las organizaciones que generan valor comercial a partir de sus datos, rápidamente se imponen sobre sus competidores. De hecho, las empresas que implementaron un Data Lake superaron a sus pares en un 9% en el crecimiento de los ingresos orgánicos.
Algunos de los principales beneficios de un usar Data Lake son:
- Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen. Una vez incluidos en su silo correspondiente de información, pueden ser procesados con herramientas de Big Data
- Cualquier usuario autorizado puede acceder a la información y enriquecerla desde cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos necesarios para tomar decisiones.
- Todos los datos que llegan al sistema pueden ser normalizados y enriquecidos.
- Los datos se preparan de acuerdo a las necesidades del momento, lo que reduce notablemente los costos y los tiempos.
- Es posible que la fuente original del dato esté obsoleta o se haya desactivado, pero su contenido puede seguir siendo valioso para el análisis. Con este sistema se puede acceder a dicha información.
¿Data Lake o Data Warehouse?
Resulta inevitable que al hablar de almacenamiento de datos aparezca otro concepto relacionado: el Data Warehouse o almacén de datos. El Data Warehouse es una base de datos optimizada que analiza data procedente de sistemas transaccionales o de gestión.
Si bien ambos paradigmas se centran en el almacenamiento de datos, existen algunas diferencias entre ambos:
- Respecto de la estructura, un Data Warehouse sólo recoge datos estructurados, mientras que un Data Lake recoge datos tanto estructurados como no estructurados.
- Un Data Lake es más flexible y resulta más sencillo hacer cambios por no tener estructura, pero en un Data Warehouse esto es más complejo por estar implicados otros procesos.
- Los Data Lakes se basan en esquemas On Read y los Data Warehouses en los On Write.
- En un Data Lake los datos son manejados por analistas, mientras que en un Data Warehouse cualquier usuario con acceso puede manejar los datos.
- En relación al almacenamiento, un Data Lake tiene un costo limitado, con la posibilidad de ampliación en la nube, mientras que un Data Warehouse es -por lo general- más caro.
En MAS Analytics entendemos de que, para sacar el máximo provecho a una arquitectura potente en Data Lake, esta debe ir acompañada de una clara estrategia de Data Governance, en donde se definan los distintos procesos, roles, políticas y tecnologías.
¿Tu organización está caminando o dando sus primeros pasos hacia la transformación digital?
¿Tienes dudas? ¡Contáctanos!