Prodotto e tecnologia

Snowflake è un’unica piattaforma che migliora le prestazioni, la criticità strategica e gli analytics mentre supporta più tipi di dati

Snowflake è un’unica piattaforma che migliora le prestazioni, la criticità strategica e gli analytics mentre supporta più tipi di dati

Il mondo sta vivendo una radicale trasformazione alimentata dai dati. Per supportare workload, linguaggi, strumenti e formati differenti utilizzando tecnologie limitate, le organizzazioni hanno accumulato silos all’interno delle loro infrastrutture dati. La presenza di questi silos può avere ripercussioni importanti: un maggior carico operativo, vulnerabilità di sicurezza, aumento del costo totale di proprietà, insight incompleti e agilità ridotta. 

La piattaforma Snowflake, unica e unificata, aiuta a eliminare i silos e a semplificare le architetture. In occasione del Summit 2023, abbiamo annunciato una serie di nuovi miglioramenti della piattaforma che aiuteranno i clienti ad abbattere i silos grazie a prestazioni ottimizzate, visibilità e controllo sulla spesa migliorati, governance potenziata, analisi più avanzate, funzionalità di business continuity ampliate, innovazioni per il formato Apache Iceberg, capacità di trarre maggior valore dai dati non strutturati con i modelli linguistici di grandi dimensioni (LLM) e funzionalità basate sul ML estese a più data analyst. In questo articolo offriremo una sintesi di tutte queste nuove funzionalità.

Miglioramento continuo del rapporto prezzo/prestazioni per i clienti

Coerentemente con il nostro valore aziendale più importante, “mettere i clienti al primo posto”, Snowflake introduce continue innovazioni pressoché con ogni versione del prodotto per aumentarne le prestazioni e l’efficienza. Molti miglioramenti della piattaforma sono distribuiti automaticamente, senza azioni o interventi da parte del cliente. 

Per questo abbiamo presentato il nuovo Snowflake Performance Index (SPI), un indice aggregato per la misurazione dei miglioramenti concreti delle prestazioni di Snowflake registrati dai clienti nel corso del tempo. Nel lasso di tempo intercorso tra l’inizio del monitoraggio dello SPI (il 25 agosto 2022) e il 30 aprile 2023, la durata delle query è diminuita del 15% per i workload stabili in Snowflake*. Questo è uno dei molti modi in cui Snowflake aiuta i clienti a trarre maggior valore dalla piattaforma.

Il servizio Search Optimization (SO) velocizza le prestazioni di interrogazione restituendo risultati di poche righe su tabelle di grandi dimensioni. Abbiamo aperto il servizio SO per includere più tipi di dati, tra cui VARIANT, ARRAY, OBJECT e GEOGRAPHY, e lo stiamo ampliando per supportare più casi d’uso in GA, quali velocizzazione delle ricerche di sottostringhe in colonne di testo e interazione con altre funzionalità per la performance come il Query Acceleration Service. 

Le analisi TOP-K a bassa latenza consentono ai clienti di recuperare solo le risposte più pertinenti da un ampio set di risultati in base alla classificazione. Ulteriori funzionalità di riduzione, già in GA, riducono la necessità di cercare su interi data set per ricerche più rapide.

Per aiutare i clienti ad analizzare più facilmente la struttura di query costose e a identificare gli operatori che causano problemi di prestazioni, presto metteremo in GA il Programmatic Access to Query Profile. 

Scopri di più sui miglioramenti delle prestazioni che apportiamo continuamente alla nostra piattaforma. 

Più visibilità e controllo sulla spesa Snowflake

Abbiamo annunciato l’introduzione di tre nuove funzionalità per aiutare gli utenti a migliorare la visibilità e il controllo sulla spesa Snowflake, sfruttando al massimo le risorse esistenti e aumentando la prevedibilità dei costi.

La prima è la nuova funzionalità di utilizzo dei warehouse (in private preview) che con un singolo parametro aiuta i clienti a stimare meglio la capacità, a dimensionare correttamente i warehouse e a ottimizzare così la spesa 

La nuova funzionalità di attribuzione dei costi per query (presto disponibile in private preview) offre agli utenti la possibilità di attribuire la spesa del warehouse a query differenti. Ad esempio, se un team centralizzato utilizza Snowflake per più dipartimenti (ipotizziamo HR, Finance e IT) con diverse attribuzioni dei costi, ora potrà verificare la quantità di crediti Snowflake utilizzati per ciascun dipartimento. Questa funzione è utile per la gestione degli scenari di chargeback, in cui i dipartimenti centralizzati riaddebitano a diversi team il costo dei crediti effettivamente utilizzati su Snowflake.

Abbiamo inoltre annunciato che i budget saranno presto disponibili in public preview per dare agli utenti ancora più controllo sui costi. Un budget impone un limite di spesa, per un intervallo di tempo specifico, sui costi della capacità di calcolo per un gruppo di oggetti Snowflake. I budget aiutano i clienti a monitorare l’utilizzo di warehouse e serverless, compresi il clustering automatico, le viste materializzate, l’ottimizzazione delle ricerche e altro ancora. Quando si prevede il superamento del limite di spesa, viene inviato un promemoria ogni giorno via email.

Supportare i processi mission-critical con una data governance nativa ottimizzata, nuove UI Snowflake, un’impronta di conformità più ampia e una business continuity cross-cloud potenziata

Snowflake si impegna a offrire funzionalità native di governance dei dati best-in-class ai clienti che affidano la gestione dei loro dati alla nostra piattaforma. Per servire la nostra base di clienti in ogni parte del mondo, abbiamo ampliato le nostre funzionalità di classificazione per supportare i dati ubicati nel Regno Unito, in Australia e in Canada (in private preview). 

Inoltre, i clienti possono gestire più facilmente i dati sensibili e le informazioni di identificazione personale (PII) grazie a un’esperienza utente ottimizzata. La UI di classificazione (in private preview) offre ai clienti un workflow intuitivo in Snowsight per classificare e taggare le tabelle nello schema desiderato, mentre la UI di governance dei dati (presto in GA) offre un riepilogo immediato delle risorse taggate e protette, sempre in Snowsight, con workflow operativi. 

Stiamo ampliando ulteriormente le nostre funzionalità di data governance con monitoraggio della qualità dei dati nativo (presto disponibile in private preview) attraverso metriche predefinite per valutare aggiornamento, volume, accuratezza dei dati e statistiche comuni, oltre alla possibilità di definirne di personalizzate. Snowflake offre questi componenti di base per il monitoraggio della qualità dei dati che i nostri partner possono adoperare e ampliare. 

Oltre alle innovazioni riguardanti la governance dei dati nativa, lavoriamo costantemente per espandere la nostra impronta in materia di conformità. In particolare, all’inizio di giugno, Snowflake ha lanciato negli Stati Uniti il Government & Education Data Cloud, ottenendo l’autorizzazione per StateRAMP High su AWS GovCloud. Per aiutare le agenzie federali, statali e locali a ottemperare alle norme di sicurezza e conformità, Snowflake ora supporta workload regolamentati come i Criminal Justice Information Services (CJIS). 

Snowgrid è un esclusivo layer tecnologico cross-cloud che interconnette gli ecosistemi aziendali su diversi cloud e aree geografiche, permettendo alle aziende di operare su scala globale. Snowgrid potenzia la capacità di business continuity cross-cloud di Snowflake e, con entusiasmo, annunciamo che la funzionalità Account Replication è ora disponibile per tutti i clienti. Questa funzionalità estende la replica oltre i database, ai metadati degli account e alle integrazioni, automatizzando la business continuity. La replica degli account utilizzata insieme a Client Redirect consente agli utenti Snowflake di recuperare connessioni di account e client in pochi secondi e virtualmente su qualsiasi scala. 

Per semplificare e ottimizzare la business continuity cross-cloud, i clienti possono impostare, configurare e monitorare le repliche degli account attraverso un’interfaccia utente intuitiva (presto disponibile in public preview) che consente di gestire sorgenti, destinazioni, oggetti e tempistiche della replica.

Con la replica di Stages, Snowpipe, COPY (ingestion) e tabelle di directory (presto in public preview), i clienti saranno in grado di replicare intere pipeline ETL (presto in public preview) per tutelarsi laddove Snowflake diventasse non disponibile in una determinata area geografica. In altri termini, i clienti possono eseguire il failover delle pipeline e Snowflake garantisce carichi idempotenti. 

Adesso gli utenti Snowflake possono replicare anche Streams e Tasks in GA, spesso utilizzati insieme per creare moderne pipeline di dati. Migliaia di clienti Snowflake sviluppano ogni giorno potenti pipeline di trasformazione dei dati. Grazie alla possibilità di replicare Streams e Tasks, le pipeline di dati funzionano ora in maniera fluida anche sugli account Snowflake secondari. 

Analisi avanzata con il nuovo supporto della GEOMETRIA, nuove funzionalità per i servizi finanziari e funzioni SQL veloci

Snowflake lavora per garantire ai clienti convenienza, flessibilità e efficienza, e lo dimostra perfezionando continuamente le proprie capacità di analisi avanzate. 

Abbiamo fatto cospicui investimenti per diventare la piattaforma leader per i dati geospaziali. Indipendentemente dal formato dei dati sulla posizione, che siano sferici (geografia), di superficie piana (geometria) o in formato di forma non valido, i clienti possono ora elaborare tutti questi tipi di dati geospaziali vettoriali in GA. Annunciamo inoltre la public preview delle trasformazioni tra sistemi di riferimento spaziale per gli oggetti geometrici che consentono le riproiezioni da un sistema di mappatura all’altro. 

In aggiunta, continuiamo a migliorare le nostre funzionalità SQL per rendere ancora più efficiente la codifica, risparmiare tempo e migliorare la precisione grazie a nuove funzioni. Abbiamo introdotto diversi miglioramenti per il SQL (in GA), tra cui SELECT*, MIN_BY/MAX_BY, GROUP BY ALL e l’algoritmo di arrotondamento al numero pari più vicino. In particolare, l’inclusione dell’algoritmo di arrotondamento al numero pari più vicino contribuisce alla riduzione degli errori durante le analisi finanziarie per il settore bancario e finanziario.

Supporto di Apache Iceberg aggiornato con maggiore semplicità e migliori prestazioni

La popolarità di Apache Iceberg come standard di settore per i formati di tabella aperti continua a crescere. In virtù del suo ecosistema leader comprendente utilizzatori, collaboratori e prodotti commerciali di diverso tipo, Iceberg aiuta a prevenire la dipendenza dal fornitore di storage ed elimina la necessità di spostare o copiare le tabelle da un sistema all’altro, il che si traduce spesso in una riduzione dei costi di capacità di calcolo e storage per l’intero stack di dati aziendale.

In occasione del Summit 2023, abbiamo annunciato l’unificazione delle External Tables per Iceberg e delle Native Iceberg Tables in un solo tipo di tabella, la Iceberg Table (presto disponibile in private preview), che mette a disposizione dei clienti un unico tipo di tabella Iceberg, permettendo inoltre di specificare l’implementazione del catalogo con molti meno compromessi sulle prestazioni. Le Iceberg Tables gestite sono completamente accessibili in lettura/scrittura su Snowflake, mentre i motori esterni utilizzano la piattaforma Snowflake come catalogo per semplificare la lettura. Diversamente, le Iceberg Tables non gestite si connettono a Snowflake per consentire la lettura da un catalogo esterno. Tra le altre novità, stiamo anche aggiungendo un modo semplice e a basso costo per convertire una Iceberg Table non gestita in una gestita, che semplifica il caricamento ed elimina la necessità di riscrivere intere tabelle.

Sebbene le prestazioni di query dipendano dall’efficienza di Parquet, i nostri test hanno dimostrato che le prestazioni delle Iceberg Tables non gestite sono più di due volte migliori rispetto alle External Tables. In aggiunta, le Iceberg Tables gestite hanno performance molto simili alle tabelle interne se si usa lo specifico formato di tabella Snowflake.

Integrazione dei dati archiviati on-premise

In un contesto in cui si assiste alla crescente tendenza delle aziende a trasferire i propri dati sul cloud, numerose organizzazioni, per svariate ragioni, si trovano nella condizione in cui i dati restano archiviati on-premise o in ambienti cloud privati. Sebbene alcuni dati non siano adatti alla migrazione sul cloud pubblico o siano in corso di migrazione, le organizzazioni sono alla ricerca di un modo trasparente per gestire tutti i propri dati da un unico posto, a prescindere dall’ubicazione dello storage. Il raggruppamento e l’accesso a dati provenienti dalle fonti più disparate è essenziale per un approccio olistico agli insight e alla governance dei dati.

Le External Tables e Stages per lo storage on-premise saranno presto disponibili per tutti i clienti proprio per superare questo ostacolo. I clienti possono utilizzare Snowflake per accedere ai dati nei dispositivi di storage compatibili con S3, ottenendo al contempo la facilità d’uso, l’elasticità, la governance unificata, la resilienza e la connettività della piattaforma Snowflake. Fra i casi d’uso potrebbero annoverarsi le analisi su data lake con External Tables, l’ingestion semplice dei file on-premise nelle tabelle in cloud o persino l’utilizzo di Snowpark Python, Java o Scala per l’elaborazione dei file archiviati esternamente. Per maggiori informazioni, per un elenco degli storage provider e per i dettagli sulla nostra suite di test pubblica, leggi la documentazione del prodotto.

Un LLM integrato con Document AI

Ogni azienda possiede dati non strutturati che si presentano sotto forma di documenti, ma la possibilità di derivare preziosi insight analitici da questi file era tradizionalmente riservata agli esperti di machine learning (ML) o separata rispetto a tutti gli altri dati. Imperniata attorno al nostro supporto nativo per i dati non strutturati, la funzionalità Document AI integrata in Snowflake (in private preview) facilita la comprensione e l’estrapolazione di informazioni preziose dai documenti utilizzando il linguaggio naturale.

La funzionalità Document AI si avvale di un LLM multimodale e appositamente concepito. Grazie all’integrazione nativa di questo modello nella piattaforma Snowflake, le organizzazioni possono facilmente estrapolare contenuti, come importi delle fatture e condizioni contrattuali, dai documenti archiviati in modo sicuro in Snowflake e ottimizzare i risultati mediante un’interfaccia visiva e il linguaggio naturale. I data engineer e gli sviluppatori possono altresì eseguire operazioni inferenziali utilizzando appositi programmi per chiamare modelli integrati o ottimizzati, come nelle pipeline con Streams e Tasks o nelle applicazioni.

Rendere il ML accessibile tramite SQL

Man mano che il volume dei dati continua a crescere, aumentano le possibilità di derivare insight più accurati. Nello specifico, sebbene gli algoritmi di ML siano in grado di velocizzare questo processo, la mancanza delle necessarie conoscenze di programmazione e i complessi requisiti dell’infrastruttura di calcolo spesso frenano l’adozione del ML da parte dei data analyst.

Ed è proprio per questo che stiamo migliorando la nostra piattaforma con diverse funzionalità basate sul ML (in public preview) che permetteranno ai data analyst di scoprire insight e formulare previsioni con l’aiuto delle funzionalità di ML disponibili tramite il familiare SQL. Chi analizza i dati potrà così usufruire di funzionalità che in precedenza erano accessibili solo agli esperti di ML. Ecco l’elenco delle funzioni al momento disponibili in public preview.

  • Previsioni: grazie alla gestione automatica di stagionalità, valori mancanti ecc. è possibile generare previsioni più affidabili sulle serie temporali.
  • Rilevamento delle anomalie: questa funzione identifica gli outlier e fa scattare gli avvisi correlati.
  • Contribution Explorer: permette di identificare rapidamente le dimensioni e i relativi valori che concorrono alla variazione di un determinato parametro in due diversi intervalli di tempo definiti dall’utente.

Il ML può ora essere adottato su scala più ampia per migliorare la velocità e la qualità delle decisioni aziendali giorno per giorno. Queste innovazioni eliminano la complessità dei framework di ML grazie alle familiari funzioni SQL disponibili direttamente tramite Snowflake o integrazioni con strumenti di BI o analitici come Sigma Computing.

Altre informazioni on demand

Per scoprire di più su queste innovazioni visita la pagina del Summit 2023.

*Sulla base di dati Snowflake interni, raccolti nel periodo 25 agosto 2022 - 30 aprile 2023. Ai fini del calcolo dell’indice SPI, abbiamo identificato un gruppo di workload di clienti stabili e confrontabili, sia in termini di quantità di query sia di dati elaborati nel corso del periodo considerato. La riduzione della durata delle query è stata frutto di una combinazione di fattori, tra cui miglioramenti hardware e software e ottimizzazioni dei clienti.

Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Inizia la tua provagratuita di 30 giorni

Prova Snowflake gratis per 30 giorni e scopri come l’AI Data Cloud aiuta a eliminare la complessità, i costi e i vincoli tipici di altre soluzioni.