Snowflake annuncia ulteriori innovazioni per data warehouse, data lake e data lakehouse nel Data Cloud
Nel corso degli anni, il panorama tecnologico della gestione dei dati ha dato origine a vari schemi architettonici, ciascuno accuratamente progettato per soddisfare casi d’uso e requisiti specifici. Questi includono sia schemi di archiviazione centralizzata come data warehouse, data lake e data lakehouse, sia schemi distribuiti come il data mesh. Ciascuna di queste architetture ha i suoi punti di forza e i suoi compromessi particolari. Poiché storicamente strumenti e piattaforme commerciali sono stati spesso progettati per allinearsi a un determinato schema architettonico, le organizzazioni hanno faticato ad adattarsi al mutamento delle esigenze aziendali, e questo naturalmente si riflette sull’architettura dati.
Noi di Snowflake riteniamo che non sia nell’interesse dei clienti prescrivere a tutti l’adozione di un unico schema. Aiutiamo invece i clienti fornendo una piattaforma su cui costruire architetture basate sui processi che funzionano meglio nella loro organizzazione, anche se questi cambiano nel tempo. Con i nostri clienti, abbiamo visto che la legge di Conway si applica nella maggioranza dei casi. I casi d'uso cambiano, così come cambiano le esigenze e la tecnologia; di conseguenza, l’infrastruttura dati deve essere in grado di scalare ed evolversi al passo con questi cambiamenti. Snowflake si impegna a offrire ai clienti una scelta e la capacità di adattarsi, senza mai abbandonare i nostri principi chiave incentrati su sicurezza e governance robuste, prestazioni eccellenti e semplicità.
Ad esempio, i clienti che hanno bisogno di un archivio centralizzato per grandi volumi di dati di molti tipi diversi, compresi dati JSON, file di testo, documenti, immagini e video, hanno creato il proprio data lake con Snowflake. In alternativa, molti clienti con un repository aziendale di tabelle altamente ottimizzate per SQL e con workload di business intelligence e reporting con concorrenza elevata hanno costruito un data warehouse basato su Snowflake. I clienti che richiedono una soluzione ibrida tra queste due opzioni per supportare molti strumenti e linguaggi diversi hanno creato un data lakehouse. Inoltre, molti clienti preferiscono che i team assumano il controllo dei propri dati e aderiscano a standard specifici per gestire l’infrastruttura (invece di affidarsi a un team dati centrale) e quindi hanno utilizzato Snowflake come piattaforma per il proprio data mesh.
Tenendo il passo con le esigenze di gestione dei dati in costante evoluzione, annunciamo ora nuove funzionalità per supportare i clienti che utilizzano tutti questi schemi diversi.
Apache Iceberg per un data lakehouse aperto
L’architettura del data lakehouse è emersa allo scopo di combinare la scalabilità e la flessibilità dei data lake con la governance, l’applicazione degli schemi e le proprietà transazionali dei data warehouse. Fin dall’inizio, la piattaforma Snowflake è stata fornita as-a-service, offrendo storage ottimizzato, capacità di calcolo elastica multi-cluster e servizi cloud. Il nostro sistema di archiviazione delle tabelle, fin dal lancio nel 2015, è in realtà un formato di tabella completamente gestito, implementato sullo storage a oggetti, paragonabile alle attuali soluzioni open source come Apache Iceberg, Apache Hudi e Delta Lake. Poiché il formato di tabella di Snowflake è completamente gestito, funzionalità come crittografia, coerenza delle transazioni, controllo delle versioni e Time Travel sono automatiche.
Se da un lato molti clienti apprezzano la semplicità dello storage completamente gestito e di un unico motore di calcolo multi-cluster che supporta più linguaggi per gestire una varietà di workload, dall’altro alcuni clienti preferiscono gestire il proprio storage utilizzando formati aperti; è per questo motivo che abbiamo aggiunto il supporto per Apache Iceberg. Anche se esistono altri formati di tabella aperti, abbiamo molti motivi per considerare Apache Iceberg il principale standard aperto per i formati tabellari e di conseguenza abbiamo dato la priorità al supporto di questo formato per servire meglio i nostri clienti.
Le Iceberg Tables (presto in public preview) sono un singolo tipo di tabella che consente di sfruttare la facilità d’uso e le prestazioni eccellenti di Snowflake con dati archiviati esternamente in un formato aperto. Con le Iceberg Tables, l’onboarding diventa anche più facile ed economico, senza necessità di ingestion iniziale. Per consentire ai clienti di integrare Snowflake nella propria architettura con la massima flessibilità, le Iceberg Tables possono essere configurate per utilizzare Snowflake oppure un servizio esterno come AWS Glue come catalogo delle tabelle per il tracciamento dei metadati, impiegando un semplice comando SQL di una sola riga per effettuare la conversione in Snowflake con un’operazione che coinvolge solo i metadati.
Indipendentemente dalla configurazione del catalogo di una Iceberg Table, molti elementi rimangono invariati:
- I dati sono memorizzati esternamente nel bucket di storage fornito dal cliente
- Le prestazioni delle query di Snowflake sono in media almeno due volte migliori rispetto alle External Tables
- È possibile utilizzare molte altre funzionalità, tra cui condivisione dei dati, controlli dell’accesso basati sui ruoli, Time Travel, Snowpark, Object Tagging, Row Access Policies e criteri di mascheramento
Quando le Iceberg Tables utilizzano Snowflake come catalogo delle tabelle per la gestione dei metadati, sono inoltre disponibili ulteriori vantaggi, tra cui:
- Snowflake può eseguire operazioni di scrittura come INSERT, MERGE, UPDATE e DELETE
- Operazioni automatiche di manutenzione dello storage come compressione, scadenza degli snapshot ed eliminazione dei file orfani
- (opzionale) Clustering automatico per accelerare le query
- Apache Spark può utilizzare l’Iceberg Catalog SDK di Snowflake per leggere le Iceberg Tables senza richiedere risorse di calcolo Snowflake
Espansione del supporto per dati semi-strutturati e non strutturati nei data lake
L’attrattiva dello schema architettonico del data lake è la capacità dello storage a oggetti di memorizzare praticamente qualsiasi formato di file, con qualsiasi schema, su scala enorme e a un costo relativamente contenuto. Invece di definire anticipatamente lo schema, l’utente può decidere quali dati e schemi sono necessari per il proprio caso d’uso. Snowflake supporta da tempo tipi di dati e formati di file semi-strutturati come JSON, XML e Parquet, e più di recente l’archiviazione e l’elaborazione di dati non strutturati come documenti PDF, immagini, video e file audio. Sia che i file siano archiviati nello storage gestito da Snowflake (stage interno) o in uno storage a oggetti esterno (stage esterno), offriamo nuove funzionalità per supportare questi tipi di dati e casi d’uso.
Abbiamo ampliato il supporto per i dati semi-strutturati con la possibilità di dedurre facilmente lo schema dei file JSON e CSV (presto disponibile per tutti i clienti) in un data lake. Lo schema dei dati semi-strutturati tende a evolversi nel tempo. I sistemi che generano dati aggiungono nuove colonne per fare spazio a informazioni aggiuntive e le tabelle a valle devono evolversi di conseguenza. Per supportare meglio questo processo, abbiamo aggiunto il supporto per l’evoluzione dello schema delle tabelle (presto disponibile per tutti i clienti).
Per i casi d’uso che comprendono file come documenti PDF, immagini, video e file audio, ora è possibile utilizzare anche Snowpark per Python e per Scala (disponibile per tutti i clienti) per elaborare dinamicamente qualsiasi tipo di file. I data engineer e i data scientist possono sfruttare il motore veloce di Snowflake con l’accesso sicuro a librerie open source per elaborare immagini, video, audio e altro ancora.
Codice SQL più veloce e avanzato per i data warehouse
SQL è di gran lunga il linguaggio più comune per i workload di data warehouse e Snowflake continua a espandere i confini dei tipi di calcolo che possono essere eseguiti con SQL. Ad esempio, con il supporto appena aggiunto per le operazioni di join “ASOF” (presto in private preview), i data analyst ora possono scrivere query molto più semplici che combinano i dati di serie temporali. Le applicazioni sono comuni nei casi d’uso dei servizi finanziari, dell’IoT e del feature engineering, in cui i join su data e ora non sono corrispondenze esatte, ma piuttosto approssimazioni al record precedente o seguente più vicino. Stiamo anche migliorando il supporto per l’analisi avanzata in Snowflake con l’aumento delle dimensioni massime dei file per il caricamento, presto in private preview. Ora è possibile caricare oggetti di grandi dimensioni (fino a 128 MB), spesso necessari nei casi d’uso che comportano elaborazione del linguaggio naturale, analisi delle immagini o analisi del sentiment.
Continuiamo a impegnarci per migliorare le prestazioni e ridurre i costi per i clienti. Una serie di ottimizzazioni nuove e migliorate offre ai clienti molti modi per ottenere prestazioni migliori e costi ridotti:
- Le query ad hoc sui warehouse nei casi d’uso di ML che fanno uso intensivo di memoria sono ora più veloci ed economicamente convenienti con Query Acceleration Service per Snowpark Optimized Warehouse (disponibile per tutti i clienti)
- Le istruzioni SELECT contenenti clausole ORDER BY e LIMIT sono più veloci, soprattutto sulle tabelle di grandi dimensioni, grazie all’eliminazione top-k (presto disponibile per tutti i clienti)
- I costi di manutenzione delle viste materializzate sono ridotti di più del 50% grazie a nuove efficienze dei warehouse (disponibili per tutti i clienti)
- Le query che utilizzano funzioni non deterministiche come ANY_VALUE(), MODE() e altre si avvalgono ora di una cache dei risultati per migliorare le prestazioni. In base alle nostre analisi, determinati schemi di query hanno prodotto una riduzione del 13% dei crediti per i processi relativi alle query interessate (disponibile per tutti i clienti)
- Le istruzioni INSERT sono più veloci grazie al supporto aggiuntivo in Query Acceleration Service (in private preview)
- Una nuova funzione aiuta a stimare sia i costi iniziali che i costi di manutenzione continuativi per il clustering automatico su una specifica tabella (in private preview)
Inizia subito
Siamo entusiasti di offrire ai clienti tutte queste nuove funzionalità in un’unica piattaforma, consentendo loro di continuare a costruire e adattare l’architettura più idonea alle loro esigenze con il Data Cloud. Per le funzionalità descritte sopra in private preview, rivolgiti al tuo account manager Snowflake per richiedere l’accesso. Per le funzionalità in public preview o disponibili per tutti i clienti, leggi le note di rilascio e la documentazione per saperne di più e iniziare a utilizzarle.
Per maggiori informazioni sul modo in cui Snowflake supporta gli schemi architettonici descritti in questo blog, visita le pagine relative a data warehouse, data lake, data lakehouse e data mesh.
Vuoi vedere queste funzionalità in azione? Guarda la sessione di Snowday.
Affermazioni riferite al futuro
Questo comunicato stampa contiene affermazioni riferite al futuro sia esplicite che implicite, tra cui affermazioni relative a (i) strategia aziendale di Snowflake, (ii) prodotti, servizi e offerte tecnologiche di Snowflake, inclusi quelli ancora in fase di sviluppo o non ancora disponibili al pubblico, (iii) crescita e tendenze del mercato e considerazioni competitive e (iv) integrazione, interoperabilità e disponibilità dei prodotti Snowflake con o su piattaforme di terze parti. Queste affermazioni riferite al futuro sono soggette a una varietà di rischi, incertezze e presupposti, tra cui, a solo titolo di esempio, i rischi descritti nei documenti da noi depositati presso la Securities and Exchange Commission. Alla luce di tali rischi, incertezze e presupposti, gli eventi e i trend futuri discussi in questo materiale potrebbero non verificarsi e i risultati effettivi potrebbero differire in modo significativo e sfavorevole da quelli previsti o sottintesi nelle affermazioni riferite al futuro. Tali affermazioni sono aggiornate esclusivamente alla data in cui vengono espresse per la prima volta. Fatti salvi i requisiti legali, Snowflake non si assume alcun obbligo di aggiornare le affermazioni contenute in questo comunicato stampa. Di conseguenza, chi legge non deve trattare le affermazioni riferite al futuro come previsioni di eventi futuri.
Le informazioni sul prodotto riferite al futuro contenute in questo comunicato stampa hanno lo scopo di delineare la direzione generale del prodotto. Il momento effettivo in cui qualsiasi prodotto, caratteristica o funzionalità sarà disponibile potrebbe differire da quanto indicato nel comunicato.