Produit et technologie

Snowflake simplifie l’architecture de données, la gouvernance des données et la sécurité pour accélérer la valeur sur tous les workloads

Photo of a young man in glasses using a laptop over a blue background with the Build 2024 logo

L’infrastructure de données d’une entreprise ressemble souvent à un labyrinthe, avec une accumulation de solutions ponctuelles ici et là. Alors que certaines entreprises trouvent des moyens de rassembler de nombreux outils avec des pipelines complexes, ne serait-il pas préférable de supprimer certaines des étapes ? Et si vous pouviez rationaliser vos efforts tout en créant une architecture qui corresponde le mieux à vos besoins commerciaux et technologiques ? 

Snowflake s’engage à y parvenir en ajoutant continuellement des fonctionnalités pour aider ses clients à simplifier la façon dont ils conçoivent leur infrastructure de données. Qu’il s’agisse d’unifier les données transactionnelles et analytiques avec les Hybrid Tables, d’améliorer la gouvernance d’un lakehouse ouvert avec Snowflake Open Catalog ou d’améliorer la détection et la surveillance des menaces avec Snowflake Horizon Catalog, Snowflake réduit le nombre de pièces mobiles pour offrir à ses clients un service entièrement géré qui fonctionne, tout simplement.

Lors du salon BUILD 2024, nous avons annoncé plusieurs améliorations et innovations conçues pour vous aider à créer et gérer votre architecture de données selon vos conditions. Regardons de plus près.

Rationaliser l’architecture de données pour augmenter la valeur

Pour les cas d’usage hybrides transactionnels et analytiques, ainsi que pour le streaming et les données non structurées, vous pouvez créer des solutions avec Snowflake qui requièrent moins de pièces mobiles, ce qui signifie que vous pouvez consacrer moins de temps et d’argent aux configurations manuelles et à la gestion des silos et déployer ces ressources vers de nouvelles façons innovantes d’utiliser les données.

Unifiez les workloads transactionnels et analytiques dans Snowflake pour plus de simplicité

De nombreuses entreprises doivent gérer deux bases de données distinctes : une pour gérer les workloads transactionnels et une autre pour les workloads analytiques. Snowflake Unistore regroupe les deux dans une base de données unique afin que les utilisateurs obtiennent une architecture radicalement simplifiée avec moins de mouvements de données et des contrôles de sécurité et de gouvernance constants. 

Unistore est possible grâce aux Hybrid Tables (désormais disponibles pour tous les clients des régions commerciales AWS), qui permettent des lectures et des écritures rapides sur une seule ligne afin de prendre en charge les workloads transactionnels. Grâce aux opérations ponctuelles rapides et à forte simultanéité des Hybrid Tables, vous pouvez stocker l’état des applications et du flux de travail directement dans Snowflake, transmettre des données sans ETL inversé et créer des applications transactionnelles légères tout en maintenant un modèle unique de gouvernance et de sécurité pour les données transactionnelles et analytiques, le tout sur une seule plateforme. 

Diagram showing layers of Cloud Services, Query Processing (virtual warehouses) and Storage, with Hybrid Tables in the storage layer.
Figure 1 : Les Hybrid Tables permettent des lectures et des écritures rapides sur une seule ligne pour prendre en charge les workloads transactionnels.

Ingérez vos données plus efficacement et gérez vos coûts

Pour les données gérées par Snowflake, nous mettons en place des fonctionnalités qui vous aident à accéder aux données facilement et de manière rentable. Avec Snowpipe pour Apache Kafka (bientôt en public preview dans AWS et Microsoft Azure), un mécanisme « pull », plutôt que le connecteur « push » existant, vous permet d’extraire et d’ingérer des événements Apache Kafka directement dans votre compte Snowflake sans héberger votre propre cluster Kafka Connect. Cela réduit la complexité globale de la mise à disposition de données en streaming : créez simplement une intégration d’accès externe avec votre solution Kafka existante. 

SnowConvert est un outil de conversion de code facile à utiliser qui accélère les migrations des anciens systèmes de gestion de bases de données relationnelles (RDBMS) vers Snowflake. En plus des évaluations gratuites et des conversions de tables gratuites, SnowConvert prend désormais en charge gratuitement la conversion précise des vues de base de données de Teradata, Oracle ou SQL Server.

Les nouvelles politiques de cycle de vie de stockage (private preview) offrent une autre opportunité de réduire les coûts en supprimant automatiquement les enregistrements ou en les archivant à moindre coût lorsque la condition de votre politique personnalisée est remplie. Cela vous aide à optimiser le stockage tout en maintenant la conformité réglementaire de manière simple et évolutive.

Exploitez la valeur des documents non structurés grâce à l’extraction et à l’intégration automatisées des données avec l’IA

Les entreprises de toutes sortes sont submergées de documents chaque jour – factures, reçus, avis, formulaires et plus encore – et pourtant, l’obtention et l’utilisation des informations qu’ils contiennent restent manuelles, chronophages et sujettes aux erreurs. Grâce à Document AI (disponible pour tous nos clients sur AWS et Microsoft Azure), un flux de travail Snowflake entièrement géré qui transforme des documents non structurés en tableaux structurés grâce à un LLM intégré, Arctic-TILT, vous pouvez traiter des documents intelligemment et à grande échelle. Grâce à la possibilité de régler les modèles à l’aide d’une interface utilisateur simple d’utilisation, les utilisateurs non techniques et les experts d’un domaine sans expertise en IA peuvent être fortement impliqués dans la création et le perfectionnement des modèles avant de faire appel à des data engineers pour exploiter les pipelines. Florida State University utilise Document AI pour extraire efficacement des données à partir de PDF et de sources tierces, ce qui simplifie l’audit des données et élimine des semaines d’efforts manuels. 

Mieux protéger et comprendre vos comptes et vos ressources de données avec Snowflake Horizon Catalog

Parmi les principaux avantages de Snowflake figurent les fonctionnalités intégrées de pointe en matière de conformité, de sécurité, de confidentialité, de découverte et de collaboration qui font partie de Horizon Catalog. Cela permet de protéger et de préserver la confidentialité de votre compte, de vos utilisateurs et de vos ressources de données. Nous améliorons constamment notre plateforme pour aider nos clients à rester au fait des menaces potentielles.

Prévenez les menaces avant qu'elles ne surviennent grâce à des fonctions de sécurité renforcées et aux innovations du Trust Center

Autre étape clé vers l’élimination des connexions par mot de passe uniquement, Snowflake applique l’authentification multifactorielle par défaut pour tous les utilisateurs humains nouvellement créés dans tout compte Snowflake. Nous activons également Leaked Password Protection (bientôt disponible pour tous nos clients), pour vérifier et désactiver automatiquement les mots de passe d’utilisateur découverts sur le Dark Web. Cela offre une protection intégrée contre les fuites de mots de passe et contribue à limiter le risque d’exfiltration de données. Les utilisateurs compromis peuvent contacter les administrateurs de compte pour réinitialiser leurs mots de passe.

Pour l’authentification API, Snowflake prend en charge les Programmatic Access Tokens polyvalents et adaptés aux développeurs (bientôt en private preview) afin de simplifier l’expérience des développeurs pour l’accès aux applications tout en renforçant la sécurité en incluant la portée et l’expiration de ces tokens. Et la nouvelle Outbound Private Link Connectivity (External Access est disponible pour tous nos clients sur AWS et Azure ; External Stage est en public preview sur Azure et bientôt en public preview sur AWS ; External Function est disponible pour tous nos clients sur Azure) se connecte aux services externes pour les fournisseurs de services cloud et maintient le trafic de données toujours au sein du réseau CSP, sans jamais transiter vers l’Internet public, afin de minimiser le risque d’exposition des données et d’autres cybermenaces.

Les améliorations apportées au Trust Center, une interface qui vous aide à évaluer et à surveiller la position de sécurité de votre compte Snowflake, incluent un nouveau pack Threat Intelligence Scanner (disponible pour tous nos clients) pour détecter quels utilisateurs (humains ou services) représentent un risque, tout en atténuant clairement la façon de corriger ces vulnérabilités. Pour l’avenir, Trust Center Extensibility (bientôt en private preview) permettra à nos clients d’ajouter dans le Trust Center des packs d’analyse personnalisés de nos partenaires, qui sont disponibles en tant que Snowflake Native Apps dans la Marketplace Snowflake.

Screenshot of Threat Intelligence Scanner Package identifying possible risks and suggesting resolution options.
Figure 2 : Le pack Threat Intelligence Scanner détecte les utilisateurs qui présentent un risque potentiel et fait des suggestions pour corriger et atténuer les vulnérabilités.

Mettez en œuvre une meilleure gouvernance des données en suivant et en gérant facilement les données sensibles 

La Lineage Visualization Interface (public preview) permet à nos clients de suivre facilement le flux des données et des ressources de ML grâce à une interface interactive dans Snowsight. Pour les ressources de données, nos clients peuvent facilement voir quel impact les modifications qui se produisent en amont peuvent avoir sur les objets en aval. En outre, les gouverneurs peuvent prendre des mesures groupées pour propager les balises et les politiques afin de protéger les colonnes en aval. Pour les ressources de ML, les clients peuvent assurer la traçabilité des fonctionnalités de bout en bout et des modèles, des données aux informations, à des fins de reproductibilité, de conformité renforcée et d’observabilité simplifiée.

Screenshot showing  Lineage Visualization Interface in Snowflake
Figure 3 : La Lineage Visualization Interface pour les ressources de ML aide les opérateurs et les ML engineers à surveiller l’utilisation des données et des modèles.

Les utilisateurs peuvent également automatiser facilement la classification, le balisage et le masquage des données sensibles dans n’importe quel schéma avec Sensitive Data Auto-Classification (bientôt en public preview) via des classificateurs prêts à l’emploi ou des classificateurs personnalisés créés en SQL.

Les données sensibles peuvent avoir une énorme valeur, mais sont souvent verrouillées en raison des exigences de confidentialité. Et si vous pouviez permettre à un plus grand nombre d’utilisateurs de collaborer autour des données, en élargissant l’étendue et la profondeur des données sensibles qui peuvent être analysées ? Snowflake rend cela possible grâce à des politiques de confidentialité différentielles (disponibles pour tous nos clients), qui réduisent les risques d’identification ou de refonte de données sensibles, et à la génération de données synthétiques (public preview), qui utilise des données de production originales pour en créer un réplique à des fins de test et d’analyse. 

Une nouvelle vue pour l’historique des accès à l’échelle de l’entreprise (bientôt en public preview) donne aux opérateurs et aux gestionnaires des données qui partagent des données sensibles entre les comptes d’une même entreprise un enregistrement centralisé des utilisateurs qui ont accédé à quelles données sensibles. Cela simplifie la génération de rapports d’audit et offre la visibilité granulaire nécessaire pour démontrer la conformité aux exigences réglementaires. Les opérateurs de données peuvent également configurer la fonction Request for Access (private preview) en définissant une nouvelle propriété de visibilité sur les objets ainsi que des coordonnées afin de pouvoir joindre facilement la bonne personne pour accorder l’accès.

Simplifier le data engineering et la gouvernance des données dans un lakehouse ouvert

De l’ingestion et l’intégration à la transformation et la sécurité, le processus de gestion d’un data lake peut être exigeant et coûteux. Pour les entreprises dotées d’architectures de lakehouse, Snowflake a développé des fonctionnalités qui simplifient l’expérience de création de pipelines et de sécurisation des data lakehouses avec Apache Iceberg™, le principal format de table open source.

Simplifiez les pipelines bronze et argent pour Apache Iceberg

Nous facilitons encore plus l’utilisation des Iceberg Tables avec Snowflake à chaque étape. 

Pour l’ingestion des données, vous pouvez utiliser Snowpipe Streaming pour charger des données en continu dans des Iceberg Tables de manière rentable avec un SDK (disponible pour tous nos clients) ou un connecteur Kafka push (public preview). Pour les cas d’usage batch et microbatch ajoutant Iceberg dans des data lakes existants, nous introduisons de nouveaux modes de chargement pour COPY et Snowpipe (disponibles pour tous nos clients) qui ajoutent des fichiers Apache Parquet aux Iceberg Tables sans réécriture de fichiers. Précédemment connu sous le nom de Parquet Direct lors de la phase de private preview, ce nouveau paramètre pour COPY et Snowpipe vous aide à améliorer les performances des data lakes existants tout en réduisant les coûts de commutation. Delta Lake Direct de Snowflake (public preview) vous permet d’accéder à vos tables Delta Lake en tant que Iceberg Tables pour les couches « bronze » et « silver » sans toutes les exigences du format universel (UniForm). La prise en charge de l’actualisation automatique et de la génération de métadonnées Iceberg arrive bientôt sur Delta Lake Direct.

Bien qu’il existe d’autres outils dans l’écosystème Iceberg qui prennent en charge les pipelines de capture de données de changement (CDC), ils impliquent une complexité d’orchestration afin de répondre aux exigences d’actualisation. Les Dynamic Apache Iceberg Tables de Snowflake (disponibles pour tous nos clients cette semaine) simplifient considérablement les pipelines CDC pour Iceberg grâce à une approche déclarative : écrivez la requête du résultat souhaité, spécifiez un décalage et laissez Snowflake gérer le reste. Bientôt en private preview, vous pourrez utiliser les Iceberg Tables de catalogues externes comme source pour les Dynamic Iceberg Tables. Alors que Snowpark Python prend en charge la lecture et l’écriture dans les Iceberg Tables, vous pouvez désormais créer des Iceberg Tables avec Snowpark Python (disponible pour tous nos clients). Enfin, vous pouvez cloner des Iceberg Tables (public preview) sans dupliquer le stockage, ce qui vous permet d’expérimenter avec des Iceberg Tables de manière sécurisée et rentable pendant les tests et le développement.

L’intégration de Snowflake et Iceberg Tables dans votre data lakehouse est simplifiée grâce à une multitude d’outils, notamment la prise en charge de l’écriture dans Microsoft Fabric OneLake (public preview) comme emplacement de stockage. Suivez ce guide quickstart étape par étape pour découvrir comment des clients communs peuvent désormais utiliser les deux plateformes sur une seule copie des données, ce qui peut aider à réduire les coûts de stockage et de pipeline. Snowflake permet également aux utilisateurs d’interroger facilement les Iceberg Tables à partir de n’importe quel catalogue Iceberg REST (disponible pour tous nos clients) ou de n’importe quelle Iceberg Table gérée en externe utilisant la fusion en lecture (private preview). Pour vous assurer que vous interrogez les dernières versions de vos tables, vous pouvez ajouter un paramètre d’actualisation automatique (bientôt disponible pour tous nos clients) aux définitions d’intégration de vos tables et catalogue Iceberg dans SQL.

Collaborez facilement et en toute sécurité avec Snowflake Open Catalog, un service géré par Snowflake pour Apache Polaris

En juillet 2024, Snowflake a mis en open source un catalogue pour Apache Iceberg, maintenant connu sous le nom Apache Polaris™ (incubation), qui permet l’interopérabilité entre de nombreux moteurs sur une seule copie des données, sans copies de données ni déplacement superflus. Snowflake Open Catalog, un service entièrement géré pour Apache Polaris, est maintenant disponible pour tous nos clients. Les utilisateurs bénéficient de tous les avantages de Polaris (pas de dépendance à un fournisseur, flexibilité des moteurs, sécurité cross-engine), ainsi que de la fiabilité, de la sécurité, de l’évolutivité et du support qui facilitent la mise en route et la sécurité d’utilisation. Les équipes de votre entreprise peuvent désormais collaborer sur des data lakes de manière sécurisée avec des contrôles d’accès cohérents pour de nombreux moteurs, lecteurs et rédacteurs, tels qu’Apache Flink™, Apache Spark™, Presto et Trino.

Screenshot of Snowflake Open Catalog
Figure 4 : Snowflake Open Catalog est un service géré pour Apache Polaris qui vous permet de lire et d’écrire dans des tables Apache Iceberg avec des contrôles d’accès constants.

Pour soutenir davantage la collaboration et la continuité de l’activité, nous avons également introduit la prise en charge d’Iceberg pour des fonctionnalités telles que la réplication (privée) et Auto-fulfillment cross-cloud (private preview). Vous pouvez répliquer des Iceberg Tables gérées par Snowflake de la source vers des comptes cibles avec votre propre stockage d’objets en ajoutant sa base de données parente et son volume externe à un groupe de basculement. De plus, en configurant simplement une référence contenant une Iceberg Table gérée par Snowflake pour qu’elle soit disponible dans plusieurs régions, nos clients peuvent partager ces tables avec des utilisateurs d’autres clouds et régions. 

En savoir plus

L’architecture de données ne doit pas nécessairement être un labyrinthe de solutions ponctuelles, qui non seulement enlisent la productivité, mais menacent la sécurité et la gouvernance. Grâce à ces améliorations apportées à notre plateforme unifiée, Snowflake vise la simplification tout en offrant la flexibilité nécessaire pour permettre à ses clients de créer les architectures les plus adaptées à leurs besoins.

Pour en savoir plus sur ces annonces et sur la façon dont Snowflake aide les entreprises à utiliser les données selon leurs conditions, ne manquez pas le discours d’ouverture de BUILD 2024 ou les sessions What’s New :

Authors
Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Démarrez votre essaigratuit de 30 jours

Essayez Snowflake gratuitement pendant 30 jours et découvrez l'AI Data Cloud qui élimine la complexité, les coûts et les contraintes d’autres solutions.