Producto y tecnología

Snowflake amplía la programabilidad para reforzar la compatibilidad de la IA y el ML y optimizar el desarrollo de los flujos

Snowflake amplía la programabilidad para reforzar la compatibilidad de la IA y el ML y optimizar el desarrollo de los flujos

En Snowflake, ayudamos a los científicos e ingenieros de datos, así como a los desarrolladores de aplicaciones, a programar de manera más rápida y eficiente en el Data Cloud. Por eso, en nuestra conferencia anual para usuarios, el Summit 2023 de Snowflake, revelamos nuevas funciones que amplían aún más la programabilidad de datos en Snowflake para el lenguaje de su elección, sin que la gobernanza se vea comprometida. 

Uno de los puntos clave del Summit de este año es toda la innovación que ha permitido ampliar y mejorar las bibliotecas y los tiempos de ejecución de Snowpark, que los desarrolladores pueden aprovechar para implementar y procesar el código que no sea SQL de manera mucho más sencilla y segura. Con el fin de facilitar aún más el procesamiento de datos con las funciones definidas por el usuario (user-defined functions, UDF) de Snowpark Python y Snowpark Stored Procedures, hemos añadido compatibilidad con las versiones 3.9 y 3.10 de Python, así como con datos no estructurados, ya en vista previa pública. Para mejorar la seguridad y la gobernanza del código en Snowflake, también hemos añadido listas detalladas de permitidos y bloqueados para paquetes de Python en vista previa privada. Ahora es posible la integración segura con API y puntos de conexión con acceso a redes externas, ya en vista previa privada, lo que incluye funciones de seguridad que solo permiten el tráfico de red a ubicaciones que el usuario haya especificado.

Estas son solo algunas de las innovaciones de Snowpark. Hay muchas más en Snowflake que siguen ampliando el ámbito y las posibilidades de la programabilidad en el Data Cloud, ofreciendo así unos avances únicos que permiten a los clientes:

  • simplificar, acelerar y escalar flujos integrales de inteligencia artificial (IA) y aprendizaje automático (machine learning, ML);
  • ampliar las capacidades de transmisión;
  • mejorar la observabilidad y la experiencia de DevOps.

Simplificar, acelerar y escalar flujos integrales de IA y ML

En líneas generales, el flujo de IA y ML se puede dividir en tres pasos para los modelos: desarrollo, operaciones y consumo. El proceso integral necesita la colaboración de los equipos de ingeniería y de negocio en torno a una gran cantidad de datos, para así poder capitalizar el valor que se puede obtener a partir de la información basada en IA. No obstante, dado que la mayoría de estos equipos utilizan distintas tecnologías y trabajan con diferentes lenguajes de programación, las copias de los datos se trasladan a entornos aislados, de modo que, en muchas organizaciones, resulta todo un reto sistematizar y escalar todo el flujo de trabajo. 

Con el objetivo de impulsar un conjunto mucho más amplio de desarrollo, hemos lanzado Snowpark Container Services (en vista previa privada), para permitir a los desarrolladores implementar, gestionar y escalar modelos contenedorizados sin esfuerzo utilizando la infraestructura segura y gestionada por Snowflake con opciones configurables de hardware, como las GPU. Gracias a este nuevo tiempo de ejecución de Snowpark, los usuarios no tendrán que lidiar con operaciones complejas de gestión y mantenimiento de procesamiento y clústeres de contenedores, ni correrán el riesgo de exponer los datos gobernados a riesgos de seguridad al trasladarlos fuera de su cuenta de Snowflake. La flexibilidad adicional que aportan tanto los lenguajes de programación (por ejemplo, R) como el hardware (por ejemplo, las GPU) ayuda a aumentar la velocidad del desarrollo y ofrece la capacidad de implementar aplicaciones sofisticadas, como cuadernos alojados y large language models (LLM), a través de las aplicaciones nativas de Snowflake. Otras innovaciones de Snowpark para optimizar el desarrollo, las operaciones y el consumo de la IA y el ML son las siguientes: 

Snowpark ML Modeling API para acelerar la ingeniería de funciones y simplificar el entrenamiento de la IA y el ML

Las Snowpark ML API, formadas por API ML Modeling (en vista previa pública) y API ML Operations (en vista previa privada), permitirán un desarrollo e implementación integrales más sencillos del ML en Snowflake. En cuanto a desarrollo, la Snowpark ML Modeling API escala horizontalmente la ingeniería de funciones y simplifica el entrenamiento de modelos en Snowflake.

La Snowpark ML Modeling API permite implementar el procesamiento al estilo de Sklearn de forma nativa sobre los datos en Snowflake, aprovechando la paralelización y sin necesidad de crear Stored Procedures.

También permite a los científicos de datos entrenar modelos con API que ya conocen directamente sobre los datos en Snowpark mediante el uso de Sklearn y XGBoost de forma nativa sobre los datos sin tener que importarlos a través de Stored Procedures y, de esta manera, disfrutar de una experiencia de usuario más sencilla.

Snowpark Model Registry para almacenar y gobernar todos los modelos de IA y ML de una organización

Tras haber desarrollado un modelo, los científicos de datos también pueden implementarlo fácilmente en Snowflake con la Snowpark ML Operations API, que incluye el Snowpark Model Registry (en vista previa privada). De esta forma, se obtiene un repositorio unificado para que los modelos de ML de una organización puedan optimizar y escalar sus operaciones de modelos de aprendizaje automático (MLOps). 

Este registro permite publicar y detectar modelos de forma centralizada para optimizar la colaboración como parte de un proceso en el que los científicos de datos pasan experimentos exitosos a los ingenieros de ML para que los implementen en producción en la infraestructura de Snowflake. 

Streamlit en Snowflake da vida a los datos y los modelos como aplicaciones interactivas

Streamlit en Snowflake (en vista previa pública próximamente) da vida a los modelos de datos y ML con aplicaciones interactivas creadas con Python. Combina la biblioteca de Streamlit de código abierto, repleta de componentes y fácil de utilizar para desarrollar aplicaciones con la escalabilidad, la fiabilidad, la seguridad y la gobernanza de la plataforma de Snowflake. 

Streamlit ofrece a los desarrolladores de Python y a los científicos de datos la capacidad de convertir rápidamente los datos y los modelos en aplicaciones interactivas listas para la empresa.

Flujos de transmisión simplificados en Snowflake

Estamos ampliando nuestras capacidades de transmisión Dynamic Tables (en vista previa pública). Dynamic Tables simplifica enormemente los flujos de datos continuos con el objetivo de transformar tanto los datos de transmisión como los datos por lotes. Ahora puedes disponer de flujos de datos de transmisión simplemente usando una sentencia Create Table as Select (CTAS). Junto con Snowpipe Streaming (de disponibilidad general [general availability, GA] próximamente), Snowflake elimina las barreras entre los sistemas de transmisión y por lotes, y hace que los flujos de transmisión sean más sencillos que nunca. 

Una tabla dinámica es una nueva tabla que se define como una consulta y mantiene continuamente el resultado de esa consulta en formato de tabla. Estas tablas permiten las adiciones y uniones en varios objetos de origen, e ir actualizando los resultados de manera incremental a medida que se vayan modificando los orígenes. Con Dynamic Tables, los clientes introducen una consulta e información sobre la frecuencia de actualización, y Snowflake materializa los resultados automáticamente. De esta forma, se automatiza la carga de preprocesar los datos, en lugar de que un ingeniero de datos tenga que realizar esta tarea manualmente.

Mejora de la observabilidad y una experiencia integral para desarrolladores

Para que crear aplicaciones, flujos y modelos de ML integrales sea más fácil, rápido y sencillo, queremos reunir las capacidades y experiencias que los desarrolladores ya conocen. De este modo, podrán trabajar de manera más eficiente. Con este objetivo, hemos lanzado un conjunto de capacidades de observabilidad y DevOps en el Summit para permitir a los desarrolladores crear de forma colaborativa, realizar pruebas fácilmente, solucionar problemas más rápido, trabajar con estabilidad e impulsar la productividad general. 

Una de estas funciones es la integración con Git (en vista previa privada), que permite integrar fácilmente el código de las aplicaciones con Git y los flujos de trabajo de Git. Los usuarios pueden ver, ejecutar, editar y colaborar con los activos que haya en el repositorio de Git dentro de Snowflake. 

También hemos anunciado la vista previa privada de la interfaz de Snowflake CLI. Snowflake CLI es una interfaz de línea de comandos de código abierto que está específicamente diseñada para workloads centrados en aplicaciones en Snowflake. Los desarrolladores pueden utilizar comandos sencillos para crear, gestionar, actualizar y ver aplicaciones que se ejecutan en Snowflake en workloads, como Streamlit, aplicaciones nativas, Snowpark Container o Snowpark.

El registro y rastreo con tablas de eventos (en vista previa pública) permiten explorar los ficheros desde dentro y fuera de Snowflake para solucionar problemas utilizando el motor de Snowflake. De esta manera, se mejora la capacidad de depuración del código en Snowflake. 

Todas estas funciones encajan entre sí a la perfección para gestionar todo el ciclo de vida de DevOps y de desarrollo de software para aplicaciones y datos en Snowflake, lo que hace posible unos flujos de trabajo más productivos para los desarrolladores.

¿Y ahora qué?

Snowflake está implementando la IA generativa en los datos ayudando a nuestros clientes a ejecutar LLM de forma segura en los datos empresariales, ofreciendo funcionalidades basadas en IA como funciones e interfaces de usuario (user interface, UI) integradas y mucho más. Echa un vistazo a nuestra demostración de ML en el Summit para ver cómo funciona. 

Más información:
  • Empieza a utilizar la ingeniería de datos y el ML con Snowpark para Python siguiendo esta guía de inicio rápido.
  • Prueba Snowpark en las hojas de trabajo de Snowflake para Python (en vista previa pública) con esta guía de inicio rápido
  • Mantente al día de las últimas novedades y anuncios de Snowflake en LinkedIn y Twitter
Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Comienza tu pruebagratuita de 30 días

Prueba Snowflake gratis durante 30 días y experimenta el Data Cloud, que acaba con la complejidad, el coste y las restricciones de otras soluciones.