Prodotto e tecnologia

Snowflake espande la programmabilità e migliora il supporto per lo sviluppo di AI/ML e pipeline di streaming

Snowflake espande la programmabilità e migliora il supporto per lo sviluppo di AI/ML e pipeline di streaming

Snowflake aiuta data scientist, data engineer e sviluppatori di applicazioni a lavorare in modo più veloce ed efficace nel Data Cloud. È per questo che alla conferenza annuale degli utenti Snowflake Summit 2023 abbiamo presentato nuove funzioni che espandono ulteriormente la programmabilità dei dati in Snowflake nei linguaggi preferiti dai nostri clienti, senza compromessi in fatto di governance. 

Un aspetto saliente del Summit di quest’anno è la quantità di innovazioni che migliorano e ampliano le librerie e i runtime di Snowpark utilizzabili dagli sviluppatori per implementare ed elaborare il proprio codice non SQL in modo ancora più facile e sicuro. Per facilitare ulteriormente l’elaborazione dei dati con le stored procedure e le UDF Python di Snowpark, abbiamo aggiunto il supporto per Python 3.9 e 3.10 e per i dati non strutturati, attualmente in public preview. Per migliorare la sicurezza e la governance del codice in Snowflake, abbiamo anche aggiunto elenchi granulari di elementi consentiti e bloccati per i pacchetti Python (in private preview). Ora è possibile realizzare integrazioni con API ed endpoint in modo sicuro con l’accesso a reti esterne, attualmente in private preview, e funzioni di sicurezza per consentire il traffico solo verso posizioni di rete specificate dall’utente.

Queste sono solo alcune delle novità di Snowpark che insieme a molte altre in tutta la piattaforma Snowflake continuano ad ampliare gli orizzonti della programmabilità nel Data Cloud, fornendo innovazioni uniche che consentono ai clienti di:

  • Semplificare, accelerare e scalare flussi di lavoro AI/ML end-to-end
  • Espandere le capacità di streaming
  • Migliorare l’osservabilità e l’esperienza DevOps

Semplificare, accelerare e scalare i flussi di lavoro AI/ML end-to-end

Il flusso di lavoro AI/ML può essere suddiviso a grandi linee in tre fasi per quanto riguarda i modelli: sviluppo, operazioni e utilizzo. Per sfruttare il valore che può essere ricavato dagli insight basati sull’AI, il processo end-to-end richiede la collaborazione tra numerosi team di dati, di engineering e di business. Tuttavia, poiché questi team utilizzano tecnologie diverse e lavorano con linguaggi di programmazione diversi, copie dei dati vengono spostate in ambienti isolati in silos, rendendo difficile sistematizzare e scalare l’intero flusso di lavoro nella maggior parte delle aziende. 

Per supportare una gamma molto più ampia di modalità di sviluppo, abbiamo lanciato Snowpark Container Services (private preview), che consente agli sviluppatori di distribuire, gestire e scalare senza sforzo modelli containerizzati utilizzando l’infrastruttura sicura gestita da Snowflake con opzioni hardware configurabili, come le GPU. Questo nuovo runtime di Snowpark libera gli utenti dalla necessità di occuparsi delle operazioni complesse di gestione e manutenzione della capacità di calcolo e dei cluster per i container ed evita i rischi di sicurezza dello spostamento dei dati governati all’esterno dell’account Snowflake. La flessibilità aggiuntiva sia in termini di linguaggi di programmazione (ad es. R) che di hardware (ad es. GPU) contribuisce ad aumentare la velocità di sviluppo e la capacità di distribuire app sofisticate come hosted notebook e LLM tramite app native Snowflake. Le altre innovazioni di Snowpark per lo sviluppo, le operazioni e il consumo per AI e ML includono: 

API ML Modeling Snowpark per accelerare il feature engineering e semplificare l’addestramento AI/ML

Le API ML Snowpark, che comprendono API ML Modeling (public preview) e API ML Operations (private preview), faciliteranno lo sviluppo e il deployment di ML end-to-end in Snowflake. Sul versante dello sviluppo, l’API ML Modeling Snowpark fornisce scalabilità orizzontale al feature engineering e semplifica l’addestramento dei modelli in Snowflake.

L’API ML Modeling Snowpark consente l’elaborazione in stile Sklearn nativa sui dati contenuti in Snowflake senza bisogno di creare stored procedure e avvalendosi della parallelizzazione.

Consente inoltre ai data scientist di addestrare i modelli con API familiari direttamente sui dati in Snowpark utilizzando Sklearn e XGBoost in modo nativo sui dati senza importarli mediante stored procedure, per un’esperienza utente più semplice.

Snowpark Model Registry per archiviare e gestire tutti i modelli AI/ML di un’organizzazione

Dopo avere sviluppato un modello, i data scientist possono anche distribuirlo in modo trasparente in Snowflake con l’API ML Operations Snowpark, che include Snowpark Model Registry (private preview). Questo repository unificato per i modelli ML di un’organizzazione consente di semplificare e scalare le operazioni con i modelli ML (MLOps). 

Il Registry fornisce funzioni di pubblicazione e discovery centralizzate dei modelli per semplificare la collaborazione all’interno del processo in cui i data scientist consegnano gli esperimenti riusciti agli ingegneri ML per distribuirli come modelli in produzione nell’infrastruttura Snowflake. 

Streamlit in Snowflake per trasformare dati e modelli in app interattive

Streamlit in Snowflake (presto in public preview) sfrutta i dati e i modelli ML per realizzare app interattive con Python. Unisce la libreria open source per lo sviluppo di app Streamlit, ricca di componenti e facile da usare, alla scalabilità, affidabilità, sicurezza e governance della piattaforma Snowflake. 

Streamlit consente a data scientist e sviluppatori Python di trasformare rapidamente dati e modelli in applicazioni interattive enterprise-ready.

Pipeline in streaming semplificate in Snowflake

Stiamo ampliando le nostre funzionalità di streaming con Dynamic Tables (public preview). Dynamic Tables semplifica radicalmente le pipeline di dati continui per trasformare i dati sia in batch che in streaming. Ora creare pipeline di dati in streaming è facile come scrivere un’istruzione Create Table as Select (CTAS). Con Snowpipe Streaming (presto in GA), Snowflake abbatte i confini tra i sistemi in batch e in streaming e semplifica più che mai la creazione di pipeline per lo streaming. 

Una tabella dinamica è un nuovo tipo di tabella che viene definita come una query e mantiene costantemente il risultato di tale query sotto forma di tabella. Le tabelle dinamiche possono unire e aggregare dati da più oggetti sorgente e aggiornare i risultati in modo incrementale quando le sorgenti cambiano. Con questa funzione, i clienti specificano una query e la frequenza di aggiornamento desiderata e Snowflake materializza automaticamente i risultati. In questo modo, la pre-elaborazione dei dati è automatica e non più completata manualmente da un data engineer.

Migliore osservabilità ed esperienza di sviluppo end-to-end

Per semplificare e velocizzare la creazione di applicazioni, pipeline e modelli ML end-to-end, vogliamo offrire agli sviluppatori funzionalità ed esperienze familiari per rendere il loro lavoro più efficiente. A questo scopo, al Summit abbiamo lanciato una serie di funzionalità DevOps e di osservabilità, per consentire agli sviluppatori di creare in modo collaborativo, testare facilmente, risolvere gli errori più rapidamente, operare con stabilità e incrementare la produttività complessiva. 

Queste funzionalità includono ad esempio l’integrazione Git (private preview) per una facile integrazione del codice delle applicazioni con Git e il workflow Git. Gli utenti possono visualizzare, eseguire, modificare e collaborare con risorse contenute in un repository Git, direttamente all’interno di Snowflake. 

Abbiamo anche annunciato la private preview di Snowflake CLI. Snowflake CLI è un’interfaccia della riga di comando open source progettata esplicitamente per i workload incentrati sulle app su Snowflake. Gli sviluppatori possono utilizzare semplici comandi per creare, gestire, aggiornare e visualizzare le app in esecuzione su Snowflake per workload diversi come Streamlit, app native, Snowpark Container o Snowpark.

La registrazione e il tracciamento con tabelle eventi (public preview) consentono di utilizzare il motore di Snowflake per esplorare log interni ed esterni a Snowflake per la ricerca e risoluzione degli errori, facilitando il debug del codice in Snowflake. 

Tutte queste funzioni si combinano perfettamente per gestire tutto il ciclo di vita DevOps e di sviluppo software per app e dati in Snowflake, migliorandola produttività degli sviluppatori.

Il futuro

Snowflake porta l’AI generativa dove si trovano i dati e aiuta i clienti a eseguire in modo sicuro i LLM sui dati aziendali con funzionalità basate su AI come interfacce utente e funzioni integrate e altro ancora. Guarda la nostra demo sul ML al Summit per vedere come funziona. 

Scopri di più:
  • Inizia subito a utilizzare Snowpark per Python per il data engineering e il ML con questo quickstart.
  • Prova Snowpark in Snowflake Python Worksheets (public preview) con questo quickstart
  • Leggi tutte le ultime notizie e gli annunci di Snowflake su LinkedIn e Twitter
Articolo di
Condividi articolo

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Inizia la tua provagratuita di 30 giorni

Prova Snowflake gratis per 30 giorni e scopri come l’AI Data Cloud aiuta a eliminare la complessità, i costi e i vincoli tipici di altre soluzioni.