Para todas las empresas, gestionar sus datos de manera adecuada es fundamental, debido a que al contar con información actualizada y fidedigna, pueden tomar mejores decisiones estratégicas y operacionales, tanto a nivel interno como externo.
Por eso, es importante contar con un ecosistema de datos cloud para el almacenamiento y análisis de los datos, que permita soportar las necesidades actuales y futuras de la organización y que entregue la capacidad de escalar rápidamente, según las necesidades que se vayan presentando. En caso contrario, si los datos se integran en un repositorio rígido, se enfrentan al desafío de trabajar con una data poco actualizada y limitante.
Conversamos en profundidad con Augusto Miquel, Cofundador y Director Comercial de MAS Analytics, sobre la gestión de los datos y el valor de trabajar con Data Lake para las empresas.
P: ¿Cuáles son los desafíos con los que se encuentran las empresas para la gestión y uso de sus datos?
R: Los desafíos a los que se exponen las empresas son: el crecimiento de las fuentes de información y volumen de datos; la diversidad de los tipos de datos, ya sean estructurados, semiestructurados o no estructurados; aumento en la cantidad de usuarios que demandan acceso a la información y aplicaciones, ya que no solo las personas consumen información y/o datos.
Además, creo que el desafío más grande es lograr involucrar a las personas para que utilicen los datos como elemento fundamental para la gestión del negocio. Para eso, es clave ser capaz de mostrar cómo podemos resolver problemas de negocio a través de los datos y generar impacto en el negocio.
P: Las arquitecturas tecnológicas modernas de almacenamiento, ¿qué permiten realizar en las empresas?
R: Permiten que las capacidades analíticas de las empresas sean escalables. En la nube no hay límites de recursos. Sí quizás hay límites económicos, pero se pueden controlar esos costos de manera mucho más específica y detallada.
Las arquitecturas modernas de datos en la nube tienen la ventaja de que cada función es entregada por un servicio diferente. Esto permite tener una flexibilidad muy grande y, dependiendo de las características de cada proyecto, utilizar el servicio que más se adecue. Lo anterior, teniendo como eje un Data Lake que actúa como repositorio central de datos, en el que almacena y provee de información a las otras aplicaciones como, por ejemplo, algún servicio de Big Data o de Machine Learning.
Por otro lado, esto entrega mucha versatilidad a los usuarios al momento de interactuar con la data, pudiendo acceder a la información por capas y dependiendo de cada caso de uso que se requiera.
P: Algunas compañías que trabajan con Data Warehouse tradicionales, ¿qué desafíos enfrentan?
R: El principal problema que veo hoy con los Data Warehouse, es que, al ser estructurados, pierden flexibilidad y agilidad al momento de desarrollar nuevos casos de usos. Funcionan de manera correcta para la reportería base de la empresa, pero si se requiere utilizar la información de manera diferente, pierde agilidad y rapidez, porque cada cambio es muy costoso de implementar. Esto es una realidad en las empresas, los perfiles profesionales cada vez tienen un mayor conocimiento de datos y, por lo mismo, requieren poder interactuar con los datos de una manera mucho más compleja a lo que ocurría hasta hace poco tiempo.
El valor de trabajar con Data Lake en un ecosistema de datos cloud
P: ¿En qué consiste un Data Lake?
R: Un data lake es un gran repositorio de datos que permite almacenar información estructurada y no estructurada. Este repositorio se puede combinar con múltiples herramientas de explotación de datos, como por ejemplo: herramientas de ML, Big Data y Data Warehouse, entre otros.
P: ¿Por qué implementar un Data Lake?
R: Escalabilidad, agilidad y flexibilidad. Si queremos tener un ecosistema moderno de datos, que sea escalable y soporte los casos de uso que se puedan ir generando a futuro, es clave implementar un DL.
P: ¿Cuáles son los desafíos para las empresas que requieran implementarlo?
Por la gran cantidad de datos que podrían tener a este nivel, hay un desafío importante en la gestión y sus procesos, que se asocian a generar un programa de data governance, definiendo políticas, permisos y accesos a los datos, que también permitan construir un ecosistema moderno de datos escalable y transversal a toda la organización.
Otro desafío importante, tiene que ver con generar una cultura de datos dentro de la organización, lo que requiere, por un lado, potenciar las capacidades técnicas de los usuarios para que puedan explotar el Data Lake y, por otro, entusiasmar a todas las personas de la compañía, de todos los niveles, a tomar decisiones con información.
P: ¿Qué recomendaciones le podrías dar a empresas que quieran comenzar a implementar este tipo un ecosistema de datos cloud?
R: En primer lugar, que al momento de decidir implementar una iniciativa como esta, no sea de manera aislada, sino que se considere como un proyecto transversal a todas las áreas de la empresa. Segundo, que a pesar de ser un proyecto bastante técnico, nunca se pierdan de vista los objetivos de negocio y, por lo mismo, que se haga participar a los potenciales usuarios del negocio de manera activa en el proyecto.
Por último, que la implementación vaya avanzando de manera ágil y con resultados tangibles para el negocio en tiempos reducidos. No embarcarse en un gran proyecto de Data Dake, sino que abordarlo de manera modular e idealmente con casos de usos concretos para generar un impacto en el negocio.