I formati di tabelle e file open source hanno attirato l’attenzione del settore dei dati per la loro potenziale interoperabilità e perché permettono a tecnologie diverse di funzionare in modo sicuro su un’unica copia dei dati. Poter contare su una maggiore interoperabilità non solo riduce la complessità e i costi associati all’uso di molti strumenti e motori di elaborazione in parallelo, ma mitiga anche i rischi associati all’essere legati a un unico vendor.
Malgrado la rapida adozione di formati di tabelle e file aperti, sono tante le limitazioni interdipendenti tra i motori e i cataloghi, che creano quel vincolo che riduce il valore degli standard aperti di Iceberg. Data engineer e data architect si trovano così davanti al difficile compito di aggirare queste limitazioni e a dover scegliere tra complessità da un lato e dipendenza da un vendor dall’altro. Nell’ottica di migliorare l’interoperabilità, la community Apache Iceberg ha sviluppato uno standard aperto di un protocollo REST nel progetto Iceberg. La specifica Open API rappresenta un grande passo in avanti verso la piena interoperabilità e l’ecosistema potrebbe beneficiare ulteriormente dalle implementazioni di cataloghi open source e ottenere uno storage vendor‑neutral.
Oggi Snowflake è lieta di annunciare Polaris Catalog, che fornisce alle imprese e alla community Iceberg nuovi livelli di scelta, flessibilità e controllo sui dati, con una sicurezza superiore e l’interoperabilità di Apache Iceberg con Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce e molti altri. Polaris Catalog si fonda sugli standard della community Iceberg per gestire le sfide che abbiamo descritto.
- Invece di spostare e copiare i dati per diversi motori e cataloghi, puoi gestire molti motori insieme su un’unica copia dei dati da un’unica posizione.
- Puoi ospitarli nell’infrastruttura gestita da Snowflake o nell’infrastruttura che preferisci.
Polaris Catalog sarà disponibile con licenza open source nei prossimi 90 giorni e sarà presto in public preview nell’infrastruttura Snowflake. Nella seconda parte del post trovi ulteriori dettagli su questa funzionalità e sulle opzioni di hosting.
Interoperabilità in lettura e scrittura tra più motori
Molte organizzazioni utilizzano diversi motori di elaborazione per eseguire workload specifici o per avere la flessibilità necessaria per aggiungere o cambiare motori di elaborazione in futuro. Ma tutte desiderano avere la libertà di utilizzare più motori su un’unica copia dei dati per ridurre i costi di storage e di elaborazione associati al trasferimento dei dati o alla gestione di più copie.
I cataloghi giocano un ruolo cruciale in un’architettura con più motori. Rendono le operazioni sulle tabelle affidabili perché supportano le transazioni atomiche. Questo significa che i data engineer e le loro pipeline possono modificare le tabelle simultaneamente e che le query su queste tabelle possono produrre risultati accurati. Per raggiungere questo scopo, tutte le operazioni di lettura e scrittura delle tabelle Iceberg, anche da motori diversi, vengono indirizzate attraverso un catalogo.
Un protocollo di catalogo standardizzato per tutti i motori garantisce interoperabilità tra diversi motori. Fortunatamente, la community Apache Iceberg ha creato una specifica open source per un protocollo REST. Sono sempre più numerosi i cataloghi e i motori commerciali e open source che stanno aggiungendo il supporto per questa specifica API REST perché assicura interoperabilità.
Polaris Catalog implementa l’API REST open source di Iceberg per massimizzare il numero di motori che puoi integrare. Al momento, include Apache Doris, Apache Flink, Apache Spark, PyIceberg, StarRocks, Trino e in futuro includerà anche altre opzioni commerciali come Dremio. Puoi usare Snowflake per entrambe la lettura e la scrittura delle tabelle Iceberg con Polaris Catalog grazie al supporto esteso di Snowflake per le integrazioni dei cataloghi con l’API REST Iceberg (presto in public preview).
Eseguibile ovunque, senza vincoli
Puoi iniziare a eseguire questo Polaris Catalog open source ospitato sull’infrastruttura AI Data Cloud Snowflake (presto in public preview) oppure puoi ospitarlo nella tua infrastruttura (opzione presto disponibile) con container come Docker o Kubernetes. Indipendentemente dalla modalità di distribuzione, con Polaris Catalog non avrai vincoli con alcun vendor e potrai anche cambiare liberamente l’infrastruttura sottostante.
Estendere la governance di Snowflake Horizon con l’integrazione di Polaris Catalog
Dopo aver configurato l’integrazione tra Snowflake Horizon e Polaris Catalog, le funzionalità di scoperta e governance di Snowflake Horizon, come i criteri di mascheramento delle colonne e di accesso alle righe, la condivisione e il tagging di oggetti, funzioneranno su Polaris Catalog. Quindi sia che le tabelle Iceberg vengano create in Polaris Catalog da Snowflake o da un altro motore, come Flink o Spark, puoi estendere le funzionalità di Snowflake Horizon a queste tabelle come se fossero oggetti Snowflake nativi.
Prospettive future
Polaris Catalog non è destinato unicamente ai clienti Snowflake, ma anche all’ecosistema dei dati più ampio, a cui offre uno storage completamente interoperabile basato sugli standard della community Apache Iceberg. Forti della nostra esperienza nell’eseguire una piattaforma globale cross‑cloud, unita all’incredibile community Iceberg in rapida crescita, continueremo a migliorare Polaris Catalog insieme. Per ulteriori informazioni su Polaris Catalog, segui l’AI Data Cloud Summit o registrati a questo webinar per ascoltare i dettagli dal team. Se vuoi essere tra i primi a sapere quando sarà rilasciato il codice per Polaris Catalog, segui questo repository GitHub.
Affermazioni riferite al futuro
Questo articolo contiene delle affermazioni riferite al futuro, tra cui offerte future di prodotti, che però non rappresentano un impegno a fornire alcuna offerta di prodotti. Le offerte e i risultati effettivi potrebbero essere diversi ed essere soggetti a incertezze e rischi noti e non noti. Fai riferimento al nostro più recente modulo 10‑Q per ulteriori informazioni.