La plataforma única de Snowflake mejora el rendimiento, la capacidad de realizar tareas de misión crítica y las analíticas, y admite más tipos de datos
El mundo está experimentando una enorme transformación favorecida por los datos. Las organizaciones han acumulado silos en sus infraestructuras de datos para dar cabida a diferentes workloads, lenguajes, herramientas y formatos a causa de las limitaciones de tecnología. Estos silos pueden acarrear importantes consecuencias, como el aumento de la carga operativa, vulnerabilidades de seguridad, un coste total de propiedad más elevado, información incompleta y menos agilidad.
Es aquí donde la plataforma única y unificada de Snowflake entra en escena para ayudar a acabar con dichos silos y simplificar las arquitecturas. En el Summit 2023 anunciamos una serie de nuevos avances de la plataforma que ayudarán a los clientes a eliminar los silos mediante: un rendimiento y gobernanza mejorados, más visibilidad y control sobre los gastos, analíticas más avanzadas, funciones ampliadas de continuidad del negocio, innovaciones en torno a Apache Iceberg, la capacidad de obtener más valor de los datos no estructurados mediante Large Language Models (LLM) y la extensión de las capacidades potenciadas por el aprendizaje automático (machine learning, ML) a un mayor número de analistas. En esta entrada de blog vamos a resumir estas nuevas capacidades.
Mejora continua del precio por rendimiento para los clientes
El valor más importante de Snowflake: “los clientes son lo primero”. Nos centramos en ofrecer innovaciones continuas con casi todos los lanzamientos de productos para mejorar el rendimiento y la eficiencia. Además, muchas de estas mejoras de la plataforma se implementan automáticamente, de modo que no es necesario que los clientes hagan nada por su parte.
Este es el motivo por el que hemos introducido el nuevo Snowflake Performance Index (SPI), un índice agregado para medir las mejoras en el rendimiento de Snowflake que los clientes han experimentado a lo largo del tiempo. Desde que empezamos a hacer un seguimiento del SPI el 25 de agosto de 2022 hasta el 30 de abril de 2023, la duración de las consultas se ha reducido en un 15 % para los workloads estables de los clientes en Snowflake*. Esta es solo una de las muchas maneras en las que Snowflake está ayudando a sus clientes a obtener más valor de la plataforma.
Search Optimization (SO) Service acelera el rendimiento de las consultas, ya que es capaz de encontrar una aguja en un pajar y devolver un número reducido de filas en tablas extensas. Hemos preparado SO para albergar más tipos de datos, incluidos VARIANT, ARRAY, OBJECT y GEOGRAPHY, y estamos ampliando el servicio para admitir más casos de uso de disponibilidad general (general availability, GA), como acelerar las búsquedas de subcadenas en columnas de texto y trabajar con otras funciones de rendimiento como Query Acceleration Service.
Las analíticas de TOP-K de baja latencia permiten a los clientes obtener las respuestas más relevantes de entre un gran volumen de resultados por rango. Las funciones adicionales de poda, ahora de GA, reducen la necesidad de escanear conjuntos de datos completos, lo que agiliza las búsquedas.
Para ayudar a los clientes a analizar la estructura de consultas costosas más fácilmente e identificar los operadores que causan problemas de rendimiento, el acceso programático a Query Profile pronto será de GA.
Obtén más información sobre las mejoras continuas del rendimiento de la plataforma que realizamos de forma regular.
Consigue más visibilidad y control sobre tus gastos de Snowflake
Hemos anunciado tres funciones nuevas para ayudar a los usuarios a obtener más visibilidad y control sobre sus gastos de Snowflake, al mismo tiempo que maximizan los recursos existentes y predicen los costes de manera más precisa.
En primer lugar, nuestra nueva función de uso de almacenes (en vista previa privada) proporciona a los clientes una sola métrica que les ayuda a estimar mejor la capacidad de sus almacenes, a ajustar su tamaño de manera adecuada y a optimizar el gasto de estos.
La nueva función de atribución del coste por consulta de Snowflake (próximamente en vista previa privada) ofrece a los usuarios la capacidad de atribuir los gastos de los almacenes a diferentes consultas. Por ejemplo, si un equipo centralizado trabaja con Snowflake en varios departamentos con diferente facturación (por ejemplo, RR. HH., Finanzas y TI), puede ver cuántos créditos de Snowflake utiliza cada departamento. Esto ayuda en situaciones de contracargo, en las que los departamentos centralizados necesitan devolver a diferentes equipos la cantidad de créditos que realmente han utilizado en Snowflake.
También hemos anunciado que Budgets estará disponible en vista previa pública pronto y proporcionará aún más control a los usuarios. Un presupuesto define un límite de gasto durante un intervalo de tiempo específico sobre los costes de procesamiento para un grupo de objetos de Snowflake. Además, esta función ayuda a los clientes a supervisar el uso de los almacenes y el uso sin servidor, incluido el de la clusterización automática, las vistas materializadas, la optimización de búsquedas, etc. Cuando se prevé que se va a superar el límite de gasto establecido, se envía un recordatorio diario por correo electrónico.
Respaldo de las tareas esenciales gracias a una gobernanza de datos nativa mejorada, nuevas UI de Snowflake, un cumplimiento cada vez más arraigado y una continuidad del negocio entre nubes actualizada
En Snowflake, nos comprometemos a ofrecer las mejores funciones de gobernanza de datos nativas a los clientes que confíen sus datos a nuestra plataforma. Estos clientes están repartidos por muchos países y, por ello, hemos ampliado las capacidades de clasificación para admitir datos de Reino Unido, Australia y Canadá (en vista previa privada).
Asimismo, los clientes ahora pueden gestionar datos confidenciales y de identificación personal (Personally Identifiable Information, PPI) más fácilmente gracias a una experiencia de usuario mejorada. La interfaz de usuario (User Interface, UI) de Classification (en vista previa privada) ofrece un flujo de trabajo intuitivo a los clientes en Snowsight para clasificar y etiquetar las tablas en el esquema deseado, mientras que la UI de Data Governance (próximamente de GA) ofrece un resumen de los activos etiquetados y protegidos en Snowsight, así como los flujos de trabajo para tomar medidas.
Estamos ampliando aún más nuestras funciones de gobernanza de datos con la supervisión nativa de la calidad de los datos (próximamente en vista previa privada) a través de métricas disponibles al instante sobre actualización, volumen, precisión y estadísticas comunes de datos, junto con la capacidad de definir tus propias métricas personalizadas. Snowflake ofrece estos componentes para supervisar la calidad de los datos que nuestros partners pueden aprovechar y ampliar.
Aparte de las innovaciones en gobernanza nativa de datos, también trabajamos constantemente para que el cumplimiento esté más arraigado. Más concretamente, Snowflake lanzó a principios de junio la oferta sectorial Government & Education Data Cloud y ha obtenido la autorización StateRAMP High de AWS GovCloud. Para ayudar a los organismos federales, estatales y locales a cumplir los estándares de seguridad y cumplimiento, ahora Snowflake admite workloads regulados, que están sujetos, por ejemplo, a los requisitos de los Servicios de Información de Justicia Criminal (Criminal Justice Information Services, CJIS).
Snowgrid es un nivel de tecnología entre nubes único y diferenciado que interconecta los ecosistemas de tu empresa entre diferentes regiones y nubes para que puedas operar a escala global. Además de favorecer las capacidades de continuidad del negocio entre nubes de Snowflake, nos complace anunciar que Account Replication ya es de disponibilidad general. Esta función expande la replicación de las bases de datos a los metadatos e integraciones de cuentas, de manera que la continuidad del negocio quede garantizada. Al conectarse con Client Redirect, los usuarios de Snowflake ahora pueden recuperar sus cuentas y conexiones del cliente en segundos y prácticamente a cualquier escala.
Para simplificar y optimizar la experiencia del usuario para la continuidad del negocio entre nubes, los clientes pueden establecer, configurar y supervisar las replicaciones de las cuentas a través de una UI intuitiva (en vista previa pública disponible). Dicha UI les permite gestionar las fuentes de replicación, los destinos y los objetos que se van a replicar, así como los plazos.
Con la replicación de Stages, Snowpipe, COPY (ingesta) y las tablas de directorio (en vista previa pública próximamente), los clientes podrán replicar flujos completos de extracción, transformación y carga (extract, transform, load; ETL) para protegerse contra la posibilidad de que Snowflake deje de estar disponible en una región. De esta forma, los clientes pueden realizar la conmutación por error de los flujos y Snowflake les garantiza cargas idempotentes.
Además, ahora los usuarios de Snowflake también pueden replicar Streams y Tasks en GA, que se utilizan a menudo juntos para generar flujos de datos modernos. Miles de clientes de Snowflake desarrollan cada día potentes flujos de transformación de datos. Gracias a la capacidad de replicar Streams y Tasks, tus flujos de datos también funcionarán sin problemas en tus cuentas secundarias de Snowflake.
Analíticas avanzadas gracias a la nueva compatibilidad con GEOMETRY, nuevas capacidades para servicios financieros y funciones rápidas de SQL
En Snowflake, estamos comprometidos con la comodidad, flexibilidad y eficiencia del cliente, y lo demostramos a través de nuestros avances en analíticas.
Hemos realizado importantes inversiones para convertirnos en la plataforma líder de datos geoespaciales. Independientemente de si los datos de ubicación se almacenan en formato esférico (geografía), de superficie plana (geometría) o de unidad no válida, ahora los clientes pueden procesar todos estos tipos de datos geoespaciales vectoriales en GA. También hemos anunciado la vista previa pública de las transformaciones entre sistemas de referencia espacial para objetos geométricos, que permiten las reproyecciones de un sistema de mapeo a otro.
Además, estamos mejorando continuamente nuestras capacidades de SQL para mejorar aún más la eficiencia de la programación, ahorrar tiempo y aumentar la precisión a través de nuevas funciones. Hemos introducido varias mejoras de SQL (de GA), como SELECT*, MIN_BY/MAX_BY, GROUP BY ALL y el redondeo bancario. Más concretamente, incluir el redondeo bancario ayuda a reducir los errores que se producen durante los análisis financieros, ya que se ajusta a las necesidades específicas de la banca y los profesionales de las finanzas.
Soporte de Apache Iceberg actualizado con mayor rendimiento y simplicidad
Apache Iceberg sigue ganando popularidad como el estándar del sector para formatos de tablas abiertas. Gracias a su ecosistema líder de varios adoptantes, colaboradores y ofertas comerciales, Iceberg ayuda a evitar las limitaciones de almacenamiento y elimina la necesidad de mover o copiar tablas entre diferentes sistemas, lo que se suele traducir en menores costes de procesamiento y almacenamiento para tu pila de datos global.
En el Summit 2023 hemos anunciado que vamos a unificar tanto las External Tables de Iceberg como las Iceberg Tables nativas en un solo tipo de tabla: la Iceberg Table (en vista previa privada próximamente). Ahora, los clientes pueden beneficiarse de la simplicidad de tener solo un tipo de tabla de Iceberg, con opciones para especificar la implementación del catálogo y muchas menos limitaciones en cuanto al rendimiento. Las Iceberg Tables gestionadas permiten la lectura y escritura total desde Snowflake y utilizan Snowflake como catálogo desde el que los motores externos pueden realizar lecturas fácilmente. Las Iceberg Tables no gestionadas se conectan a Snowflake para leer Iceberg Tables de un catálogo externo. También hemos añadido una forma sencilla y barata de convertir una Iceberg Table no gestionada en una gestionada, lo que facilita que los clientes se incorporen sin tener que reescribir tablas enteras.
Si bien el rendimiento de las consultas depende de la eficiencia de Parquet, nuestras pruebas han demostrado que las Iceberg Tables rinden más del doble que las External Tables. Además, el rendimiento de las Iceberg Tables gestionadas se acerca mucho al de las tablas internas que utilizan el formato de tabla de Snowflake.
Integración de datos almacenados on-premise
En medio de la tendencia actual de las empresas de trasladar sus datos a la nube, muchas organizaciones se encuentran en una situación en la que sus datos permanecen almacenados on-premise o en entornos de nube privados por diferentes motivos. Aunque algunos datos quizá no sean aptos para migrar a la nube pública o estén actualmente en proceso de migración, estas organizaciones buscan poder gestionar sin problemas todos sus datos desde un solo lugar, independientemente de dónde estén ubicados. Consolidar y acceder a los datos desde distintas fuentes es fundamental para la gobernanza y para obtener información integral de los datos.
Stages y External Tables para el almacenamiento on-premise, que pronto serán de disponibilidad general, ayudan a cerrar esta brecha. Los clientes pueden utilizar Snowflake para acceder a los datos de dispositivos de almacenamiento compatibles con S3 al mismo tiempo que disfrutan de la facilidad de uso, la elasticidad, la gobernanza unificada, la resiliencia y la conectividad que ofrece la plataforma de Snowflake. Los casos de uso podrían incluir la realización de analíticas en data lakes con External Tables, la ingesta simplificada de archivos on-premise en tablas en la nube o incluso el uso de Snowpark Python, Java o Scala para procesar archivos almacenados externamente. Para obtener más información, incluida una lista de proveedores de almacenamiento compatibles y nuestro conjunto de pruebas públicas, consulta la documentación del producto.
Introducción de un LLM integrado con Document AI
Casi todas las empresas disponen de datos no estructurados en forma de documentos, pero obtener información analítica valiosa a partir de esos archivos se ha limitado a los expertos en ML o se ha aislado del resto de datos. Nuestro soporte nativo para datos no estructurados, Document AI (en vista previa privada) de Snowflake, facilita a las organizaciones comprender y extraer valor de los documentos mediante el lenguaje natural.
Document AI favorece un LLM multimodal diseñado específicamente. Gracias a la integración nativa de este modelo en la plataforma Snowflake, las organizaciones pueden extraer fácilmente el contenido que desean, como los importes de las facturas o las condiciones contractuales de los documentos almacenados de forma segura en Snowflake, y ajustar los resultados mediante una interfaz visual y el lenguaje natural. Los ingenieros de datos y los desarrolladores también pueden realizar inferencias llamando mediante programación a los modelos integrados o ajustados, como en los flujos con Streams y Tasks o en las aplicaciones.
Conseguir que el ML sea accesible a través de SQL
Cuanto más volumen de datos haya, más precisa es la información que pueden obtener los analistas. Más concretamente, los algoritmos de ML pueden acelerar ese proceso, pero las lagunas en los conocimientos de programación y los complejos requisitos de la infraestructura de procesamiento dificultan que los analistas adopten el ML.
Este es el principal motivo por el que estamos mejorando nuestra plataforma única con funciones de ML (en vista previa pública). Con la ayuda de dichas funciones de ML, disponibles a través del lenguaje SQL que ya conocen, los analistas pueden obtener información y generar predicciones. Así, pueden disponer de capacidades que antes solo estaban al alcance de aquellos que tenían conocimientos de ML. Entre las funciones ahora disponibles en vista previa pública, se encuentran las siguientes:
- Forecasting: generación de previsiones de series temporales más fiables con un tratamiento automatizado de la estacionalidad y los valores omitidos, entre otros.
- Anomaly Detection: identificación de los valores atípicos y activación de alertas para tomar nuevas medidas.
- Contribution Explorer: identificación rápida de las dimensiones y sus valores, lo que contribuye al cambio de una métrica determinada en dos intervalos de tiempo diferentes definidos por el usuario.
Hoy en día, el ML puede adoptarse de forma más generalizada para mejorar la velocidad y la calidad de las decisiones empresariales cotidianas. De esta forma, se elimina la complejidad de los marcos de ML mediante funciones SQL habituales disponibles directamente a través de Snowflake o de integraciones con herramientas de inteligencia empresarial (Business Intelligence, BI) y de analíticas, como Sigma Computing.
Más información a petición
Para obtener más información acerca de estas innovaciones, visita la página del Summit 2023.
* Según datos internos de Snowflake del 25 de agosto de 2022 al 30 de abril de 2023. Para calcular el SPI, identificamos un grupo de workloads estables de nuestros clientes y que pueden compararse en términos de volumen de consultas y de datos procesados en el periodo presentado. La reducción de la duración de las consultas ha sido el resultado de una combinación de factores, como las mejoras de software y hardware y las optimizaciones de los clientes.