Llama 4, los large language models de Meta, ahora disponibles en Snowflake Cortex AI

En Snowflake, nos comprometemos a ofrecer LLM líderes del sector a nuestros clientes. Nos complace anunciar que los últimos modelos Llama 4 de Meta están disponibles en Snowflake Cortex AI.
Los modelos Llama 4 ofrecen una inferencia eficaz para que los clientes puedan crear aplicaciones empresariales de IA generativa y ofrecer experiencias personalizadas. Se puede acceder a los modelos Llama 4 Maverick y Llama 4 Scout dentro del perímetro seguro de Snowflake en Cortex AI. Según Meta, Llama 4 Scout es el mejor modelo multimodal del mundo, en su clase, y admite una ventana contextual líder del sector de hasta 10 millones de tokens. Según Meta, estos modelos se entrenan con grandes cantidades de datos de texto, imágenes y vídeos sin etiquetar para ofrecer experiencias enriquecidas al usuario final. Estos modelos están diseñados para una multimodalidad nativa e incorporan la fusión temprana para integrar a la perfección tokens de texto y visión en una base de modelos unificada. Este diseño se adapta a una serie de casos de uso y necesidades de los desarrolladores. Esto permite a los desarrolladores crear aplicaciones de IA empresariales.
Inferencia más rápida y de alta calidad con una arquitectura mixta de expertos (MoE)
Llama 4 son los primeros modelos de Meta en utilizar una arquitectura mixta de expertos (Mixture of Experts, MoE): un solo token activa solo una fracción de los parámetros totales. Como resultado, las arquitecturas MoE son más eficientes en el cómputo tanto para el entrenamiento como para la inferencia de modelos y ofrecen una inferencia de mayor calidad en comparación con otras arquitecturas. En Snowflake, Llama 4 Maverick y Llama 4 Scout se pueden integrar con aplicaciones de IA generativa.
Llama 4 Maverick ofrece un rendimiento líder del sector en cuanto a comprensión de imágenes y textos, compatible con 12 idiomas para salvar las barreras lingüísticas. Como LLM de uso general, Llama 4 Maverick contiene 17 000 millones de parámetros activos (400 000 millones de parámetros totales), lo que ofrece una inferencia de alta calidad en comparación con Llama 3.3 70B. El modelo es muy adecuado para la comprensión precisa de las imágenes y la escritura creativa. Proporciona inteligencia de última generación con alta velocidad, optimizada para obtener la mejor calidad de respuestas en cuanto al tono y los rechazos.
Llama 4 Scout es un modelo de uso general más pequeño con 17 000 millones de parámetros activos (109 000 millones de parámetros totales) que admite un tamaño de ventana contextual líder del sector de 10 millones de tokens. Esto abre todo un abanico de posibilidades, como el resumen de varios documentos, el análisis de una amplia actividad de usuario para tareas personalizadas y el razonamiento sobre enormes bases de código.
Compromiso de Snowflake con el código abierto
Los modelos Llama de código abierto de Meta han permitido a las empresas crear experiencias únicas de IA. En Snowflake, usamos estos modelos en Cortex AI para crear soluciones personalizadas que satisfagan las cambiantes necesidades empresariales. Los clientes pueden utilizar los modelos de Llama para impulsar agentes de IA que se encargan de tareas complejas y se integran con herramientas como Cortex Analyst y Cortex Search, lo que permite aprovechar todo el valor de sus datos en una única plataforma.
“TripAdvisor, la plataforma de viajes más grande del mundo, ayuda a más de 450 millones de viajeros a aprovechar al máximo sus viajes cada mes. Gracias a los modelos Llama en Snowflake, hemos podido ofrecer a esos viajeros recomendaciones más personalizadas y relevantes para sus viajes, y, a la vez, hemos incrementado las interacciones y los ingresos en nuestro negocio. Nuestro equipo está deseando empezar a usar los modelos Llama 4 en Cortex AI para avanzar aún más en la personalización de los viajes y en la experiencia de los usuarios”.
— Rahul Todkar
Nuestro equipo de investigación en IA ha desarrollado activamente tecnologías de vanguardia basadas en estos modelos de Llama. Por ejemplo, Arctic Ulysses es una tecnología novedosa que hemos desarrollado y está optimizada para la inferencia de baja latencia y alto rendimiento, y es beneficiosa para tareas de secuencia larga. Además, SwiftKV, otra innovación reciente basada en los modelos Llama de Meta y disponible en Snowflake-Llama-3.3-70B y Snowflake-Llama-3.1-405B, consigue reducir los costes de inferencia de los LLM de Llama hasta en un 75 % en Cortex AI en comparación con los modelos Llama de Meta de referencia de Cortex AI que no están optimizados para SwiftKV. Esto se traduce directamente en un ahorro de costes tangible y una mejora del rendimiento para nuestros clientes, lo que impulsa la implementación escalable de iniciativas de IA generativa. Al optimizar la etapa de carga previa de la inferencia, SwiftKV garantiza el procesamiento eficiente de instrucciones de entrada largas, un requisito crítico para muchas aplicaciones empresariales.
Acceso integrado a través de SQL y Python
La serie Llama 4, ahora disponible en vista previa en Cortex AI, ofrece un acceso sencillo a través de funciones SQL establecidas y puntos de conexión estándar REST API. Los clientes pueden utilizar las capacidades avanzadas de inferencia de Llama 4 en aplicaciones y flujos de datos existentes sin complejos procedimientos de integración. Los nuevos modelos Llama 4 se pueden llamar mediante una sencilla función COMPLETE dentro de Cortex AI.
SELECT SNOWFLAKE.CORTEX.COMPLETE('llama4-maverick',
[{'role':'user','content':CONCAT('Summarize this customer feedback in bullet points:<feedback>',content,'</feedback>')}]
,{'guardrails':true})
FROM my_table;
Acceso integrado mediante REST API
Para que los servicios o aplicaciones que se ejecutan fuera de Snowflake puedan realizar llamadas de inferencia de baja latencia a Cortex AI, la interfaz REST API es la solución. Aquí tienes un ejemplo de cómo funciona:
curl -X POST \
-H "Authorization: Bearer <jwt>" \
-H 'Content-Type: application/json' \
-H 'Accept: application/json, text/event-stream' \
-d '{
"model": "llama4-maverick",
"messages": [
{
"role": "user",
"content": "What is the weather like in San Francisco?"
}
],
"max_tokens": 4096,
"top_p": 1,
"stream": true
}' \
https://<account_identifier>.snowflakecomputing.com/api/v2/cortex/inference:complete
La vía fiable hacia capacidades de inferencia avanzadas
Snowflake es la única plataforma de datos en la nube con integración nativa de los mejores modelos de OpenAI y Anthropic, entre otros. Al integrar Llama 4 en Snowflake Cortex AI, estamos proporcionando a nuestros clientes acceso a modelos de IA de vanguardia para que puedan crear aplicaciones inteligentes y agentes de datos, todo ello en el entorno de seguridad, gobernanza y unificado de Snowflake. Esta potente combinación permitirá a las empresas automatizar tareas repetitivas, obtener información más detallada de sus datos y ofrecer más valor a sus clientes.
No te pierdas las actualizaciones sobre cómo puedes empezar a crear la próxima generación de aplicaciones de IA con Llama 4 en Snowflake Cortex AI.
Más información
Únete a nosotros en la Summit 2025 para obtener más información sobre nuestras últimas innovaciones en IA.
Consigue la guía de casos de uso de IA y datos líder del sector y descárgala ahora.
Lee aquí para saber más sobre los últimos anuncios de Meta.