Une architecture de data lakehouse est conçue pour associer les avantages des data lakes et des entrepôts de données en ajoutant des métadonnées de tables à des fichiers dans le stockage d’objets. L’ajout de ces métadonnées permet l’intégration de fonctionnalités supplémentaires aux data lakes, comme le Time Travel, les transactions ACID, un meilleur nettoyage ou encore l’application de schémas, autant de fonctionnalités que l’on retrouve généralement dans un entrepôt de données, mais qui manquent souvent dans un data lake. Cependant, chaque architecture va de pair avec des compromis, et les data lakehouses ouverts ne font pas exception. Ainsi, le stockage de données dans un format de table ouvert peut considérablement contribuer à améliorer l’interopérabilité, mais peut entraîner une augmentation des frais liés aux mises à niveau et à la compatibilité des versions des outils, la complexification des opérations financières avec une facturation disparate, des performances variables, une prise en charge limitée de la simultanéité et des options d’audit et de contrôle de gouvernance disparates entre de nombreux outils.
FONCTIONNALITÉS DES DATA LAKES
Séparation du stockage et du calcul
Référentiel de données d’une portée presque illimitée
Types de données mixtes : structurées, semi-structurées et non structurées
Choix de langages pour le traitement (mais pas toujours SQL)
Traitement des données sur place
Accès direct aux données sources brutes
FONCTIONNALITÉS DES ENTREPÔTS DE DONNÉES
Gouvernance des données solide, accès aux données uniquement via la plateforme
Hautes performances et prise en charge de la simultanéité
Nul besoin d’inventaire ni d’ingestion des données
Transactions ACID
Accès direct à des données soigneusement sélectionnées
Historique des versions, Time Travel
Les data lakes et les entrepôts de données sont tous deux des référentiels de Big Data. La différence entre les deux se situe au niveau de leur gestion du calcul et du stockage. Le Data Cloud de Snowflake peut être utilisé pour construire et adapter différents modèles d’architecture en fonction des besoins associés à divers cas d’usage. Snowflake offre à ses clients la possibilité d’ingérer des données dans un référentiel géré, dans ce que l’on appelle communément une architecture d’entrepôt de données, mais aussi de lire et écrire des données dans un stockage d’objets dans le cloud, qui fonctionne comme un moteur de requête de data lake. Quel que soit le modèle, Snowflake respecte les principes majeurs garantissant une sécurité, une gouvernance, des performances et une simplicité supérieures.
FONCTIONNALITÉS DES DATA LAKEHOUSES
En plus des fonctionnalités déjà citées, Snowflake fournit également les fonctions suivantes sur un modèle de data lakehouse :
Format de table entièrement géré
Format de table Apache Iceberg
Moteur de calcul multi-cluster polyglotte
Performances rentables pour une simultanéité supérieure
DATA CLOUD SNOWFLAKE
Une plateforme data ne se limite pas à un seul modèle d’architecture. Au contraire, elle doit comporter de nombreux modèles d’architecture pour prendre en charge un grand nombre de fonctions et de charges de travail, notamment les suivantes :
Collaboration
Analyse
Exploration de données
Data engineering pour l’ingestion et la transformation de données
IA et ML
Développement et exploitation d’applications de données
Une plateforme flexible telle que Snowflake vous permet d’utiliser des outils de Business Intelligence traditionnels, mais aussi des technologies plus récentes et avancées dédiées à l’intelligence artificielle, au machine learning, à la data science et aux applications. Cette plateforme unique peut ainsi être utilisée pour gérer plusieurs types de charges de travail.