Un data lake est un référentiel de données, généralement enregistrées sous forme de fichiers avec une organisation ou une hiérarchie variable. Construits sur un stockage d’objets, les data lakes permettent de stocker des données de tous types provenant d’une grande diversité de sources.
En général, les data lakes contiennent une énorme quantité de données stockées dans leur format natif brut. Ces données sont mises à disposition à la demande selon les besoins ; ainsi, lorsqu’un data lake reçoit une requête, un sous-ensemble de données est sélectionné en fonction des critères de cette requête et présenté pour analyse.
FINALITÉ
Un data lake offre aux utilisateurs une solution complète pour explorer, affiner et analyser des pétaoctets d’informations arrivant en continu depuis plusieurs sources de données. Un pétaoctet de données est égal à un million de gigaoctets, soit environ 500 milliards de pages de texte imprimé standard ou 58 333 films de deux heures en haute définition. Les data lakes sont conçus pour permettre aux utilisateurs d’explorer et d’analyser des données avec des volumes, une variété et une vitesse élevés.
FONCTIONNALITÉS
Voici les caractéristiques qui distinguent les data lakes des autres types de stockage de Big Data :
Ouverture à toutes les données, quels que soient leurs types ou leurs sources.
Stockage des données dans leur état brut d’origine sans transformation.
Transformation des données uniquement lorsqu’elles sont sélectionnées pour analyse en fonction de critères de requête correspondants.
AVANTAGES D’UN DATA LAKE
Par nature indifférent à la source et au format des données qu’il stocke, un data lake offre plusieurs avantages pour les entreprises :
Flexibilité, car les data scientists peuvent exploiter des données dans leur forme la plus brute pour le feature engineering et le machine learning.
Accessibilité, car le stockage de toutes les données est centralisé.
Rentabilité, car un stockage d’objets de type data lake est généralement bon marché.
Compatibilité avec la plupart des technologies d’analyse de données open source.
Exhaustivité, grâce à la combinaison de données provenant de toutes les sources de données de l’entreprise, y compris l’Internet des Objets.
DATA LAKE CONTRE ENTREPÔT DE DONNÉES
Les data lakes comme les entrepôts de données sont des référentiels de Big Data. La principale différence entre un data lake et un entrepôt de données se situe au niveau du calcul et du stockage. Un entrepôt de données stocke généralement des données dans une organisation prédéterminée avec un schéma. En revanche, un data lake n’a pas toujours de schéma prédéterminé. Par ailleurs, si un entrepôt de données stocke généralement des données structurées sous forme de tables, un data lake stocke des données structurées, semi-structurées et non structurées sous forme de fichiers.
Tableau comparatif : data lake et entrepôt de données
Data lake | Entrepôt de données | |
Type de données | Structurées et non structurées, provenant de n’importe quelle source, brutes | Structurées, soigneusement sélectionnées |
Schéma | Non prédéterminé | Prédéterminé |
Utilisateurs types | Data scientists, développeurs et data analysts | Data analysts |
DATA LAKES DANS LE CLOUD
Compte tenu du volume même du Big Data, en particulier des données non filtrées d’un data lake, il est difficile de disposer d’un stockage de données suffisant on-premise. Amazon S3, Snowflake et Microsoft Azure Data Lake : voici quelques fournisseurs de services de stockage de données dans le cloud, avec des tailles et des vitesses variées, en vue de leur traitement et de leur analyse.
SNOWFLAKE COMME DATA LAKE
La plateforme de Snowflake offre les avantages à la fois des data lakes, du data warehousing et du stockage dans le cloud. En utilisant Snowflake comme référentiel central pour vos données structurées, semi-structurées et non structurées, vous bénéficiez d’une gestion unifiée des données, de performances rentables, ainsi que d’une disponibilité, d’une sécurité, d’une gouvernance et d’une collaboration supérieures. Vous pouvez également stocker vos données dans Amazon S3, Azure Data Lake, Google Cloud Storage ou une autre solution de stockage compatible avec S3, puis utiliser Snowflake pour assurer la gouvernance des données, le data engineering, les analyses et la collaboration.