Por: Carlos Rangel – Country Manager de Semantix
El concepto de lago de datos ha crecido exponencialmente en los últimos años. Las grandes empresas están desarrollando lagos tanto para sustituir como para incorporar a sus almacenes de datos.
Lago de datos frente a almacén de datos: ¿en qué invertir?
El concepto de Data Warehouse está ya muy extendido y es utilizado desde hace más de dos décadas por pequeñas y grandes empresas de todo el mundo. En términos sencillos, un Data Warehouse (DW) tiene la función de hacer accesible la información corporativa para su comprensión, gestión y uso.
En los últimos años ha surgido el concepto de lago de datos (Data Lake), y el número de empresas que buscan desarrollar Lagos, tanto para sustituir como para incorporar a sus Almacenes de Datos, ha crecido exponencialmente.
El universo de datos
Todo el mundo ha oído, al menos una vez, que vivimos en la era de los datos, que todos los ámbitos de la vida están relacionados con los datos. Los datos valen mucho y ser capaz de anticiparse a las acciones de las personas y utilizar este conocimiento a favor de las campañas en las empresas puede generar muchos beneficios.
Sin embargo, cuando se habla de datos se habla de volumen de información, y como ven, en este caso ni siquiera estamos hablando de la cuestión de transformar los datos en bruto en información lista para ser utilizada. Sólo estamos hablando de almacenamiento.
En un pasado no tan lejano dábamos por hecho que con un Data Warehouse (DW) bien construido y basado en datos estructurados, seríamos capaces de extraer toda la información necesaria para generar valor de negocio a través de herramientas y conceptos de Business Intelligence (BI).
Pero cuando hablamos de Data Warehouse, estamos hablando de datos históricos, datos que se almacenan para que luego puedan ser utilizados como ayuda en la toma de decisiones estratégicas basadas en los hechos presentados.
Fue entonces, principalmente durante la última década, cuando se descubrió que no se vive sólo de la historia, y se creó la necesidad de realizar análisis predictivos y adelantarse a los acontecimientos.
¿Por qué hay que esperar a que se produzca un determinado hecho, almacenar sus datos y luego aplicar un análisis sobre este contexto, para luego orientar la toma de decisiones? Cuando en realidad podemos recoger datos de diferentes fuentes e intentar trazar los pasos, el recorrido de un determinado evento, ayudándonos a tomar decisiones estratégicas.
Aquí es donde entra el Big data, que no es más que el proceso de recopilación, organización y transformación de datos estructurados, semiestructurados y no estructurados en información útil, inteligible y relevante para la toma de decisiones a partir de las más diversas fuentes: vídeos, textos, redes sociales, sistemas de información, sensores, actuadores, RFID, objetivos inteligentes, entre otros. El almacenamiento de esta información se realiza en el lago de datos, que sigue el contexto del almacén de datos.
Datos frente a información
Los datos que no tienen un significado relevante y no conducen a la comprensión representan algo que no tiene sentido en un principio. Por lo tanto, no tiene ningún valor para apoyar las conclusiones, y mucho menos las decisiones.
La información es la ordenación y organización de los datos para transmitir su significado y comprensión en un contexto determinado. Sería el conjunto o consolidación de datos para fundamentar el conocimiento.
Las empresas de hoy en día tienen exactamente esta preocupación por la información. Donde antes se necesitaban datos, hoy la preocupación es la transformación de la gran cantidad de datos existentes en información decisiva. Serán la gran subvención de los gestores, que obtienen el conocimiento a través de la noción de información, permitiendo así la toma de decisiones de forma más guiada.
Almacén de datos frente a lago de datos
Recoger, organizar, interpretar, crear insights que ayuden a la toma de decisiones, es decir, transformar los datos en información, es lo que buscan actualmente las empresas, que quieren adelantarse en el trabajo con los datos. Pero, ¿cómo extraer de los datos la información adecuada para generar los mejores conocimientos? Todo comienza con el almacenamiento de la información y hay dos formas más extendidas de hacerlo: Data Lake o Data Warehouse. Las empresas suelen utilizar los Data Lakes o los Data Warehouses para generar beneficios empresariales a partir de los datos. Sin embargo, lo hacen por diferentes razones. Los lagos de datos son mejores cuando una empresa no especifica qué desea analizar exactamente.
Del mismo modo, los almacenes de datos son más adecuados cuando una empresa ha definido explícitamente la lógica de negocio, es decir, sabe exactamente lo que quiere, y es difícil cambiar la lógica una vez creado el esquema. Sin embargo, los lagos de datos y los almacenes de datos no son mutuamente excluyentes. Una empresa también puede utilizarlos conjuntamente para aprovechar sus ventajas individuales.
La principal diferencia entre Data Lake y Data Warehouse está en la estructura variable de los datos: crudos o procesados. El lago de datos almacena una gran cantidad de datos diferentes, sin filtrar, que se utilizarán posteriormente para un fin específico, mientras que el almacén de datos tiene datos estructurados para fines preexistentes.
A su vez, el almacén de datos alberga únicamente datos procesados, saneados y verificados. Así, la información empresarial más importante se integra en esta base. Los lagos de datos facilitan el almacenamiento de todo tipo de datos, lo que resulta útil para cargas de trabajo inesperadas. Los almacenes de datos facilitan la gestión de datos estructurados para los análisis existentes o los casos de uso comunes.
Pero si bien los almacenes de datos son excelentes para los datos estructurados, hoy en día es cada vez más necesario tratar con datos no estructurados, datos semiestructurados y datos con gran variedad, velocidad y volumen. Los almacenes de datos no son adecuados para muchos de estos casos de uso, ni son las soluciones más rentables.
Almacén de datos frente a lago de datos
Los lagos de datos y los almacenes de datos son dos estrategias diferentes para el almacenamiento de Big Data. La distinción más importante entre ellos es que en un almacén de datos, el esquema de los datos está predefinido, es decir, hay un plan para los datos después de que entren en la base de datos. Un lago de datos, en cambio, puede albergar tanto datos estructurados como no estructurados y no tiene un esquema predeterminado. Un almacén de datos trata principalmente con datos estructurados y tiene un esquema predeterminado para los datos que alberga.
En el lago de datos, la idea del repositorio es guardar información de los más diversos tipos que, en el futuro, sea útil para captar ideas necesarias en la empresa, buscando patrones repetidos de consumo o comportamientos de los clientes. Existe flexibilidad en la edición de los datos de Data Lake, incluso con una mayor desorganización estructural.
En cambio, el almacén de datos tiene un diseño que favorece la toma de decisiones, con cruces automatizados de análisis e informes avanzados para optimizar de forma correcta.
Conclusiones
En este mundo cada vez más conectado y rodeado de datos de los más diversos tipos y formatos, es cada vez más necesario centralizar esta información para conseguir análisis, resultados y descubrimientos (insights) fiables y de calidad.
Tanto los almacenes de datos como los lagos de datos deben coexistir con las empresas que desean basar sus decisiones en los datos. Como se puede ver, ambos son complementarios, no sustitutivos, y pueden ayudar a cualquier empresa a entender mejor el mercado y al consumidor, de manera que puedan llevar a cabo estrategias a partir de su conocimiento, con comunicaciones cada vez más personalizadas, es decir, estar más centrados en el cliente.