LLMs Llama 4 da Meta agora estão disponíveis no Snowflake Cortex AI

Na Snowflake, estamos comprometidos em oferecer aos clientes grandes modelos de linguagem (large language models, LLMs) líderes do setor. Por isso, é com satisfação que trazemos os mais recentes modelos Llama 4 da Meta para o Snowflake Cortex AI!
Os modelos Llama 4 fornecem inferência de desempenho para que os clientes possam criar aplicações de inteligência artificial (IA) generativa de nível empresarial e oferecer experiências personalizadas. Os modelos Llama 4 Maverick e Llama 4 Scout podem ser acessados dentro do perímetro seguro do Snowflake no Cortex AI. De acordo com a Meta, o Llama 4 Scout é o melhor modelo multimodal do mundo em sua classe, oferecendo suporte a uma janela de contexto líder do setor de até 10M tokens. De acordo com a Meta, esses modelos são treinados com grandes volumes de dados não rotulados de texto, imagem e vídeo para proporcionar experiências detalhadas ao usuário final. Os modelos foram desenvolvidos para multimodalidade nativa, incorporando a fusão inicial para integrar continuamente tokens de texto e visão em uma base unificada do modelo. Esse design permite a aplicação em uma variedade de casos de uso e necessidades do desenvolvedor, permitindo aos desenvolvedores criar aplicações de IA de nível empresarial.
Inferência mais rápida e de alta qualidade com uma arquitetura mista de especialistas (MoE)
Os Llama 4 são os primeiros modelos da Meta a usarem uma arquitetura mista de especialistas (mixture of experts architecture, MoE) (um único token ativa apenas uma fração dos parâmetros totais). Como resultado, as arquiteturas MoE são mais eficientes de forma a processar tanto o treinamento quanto a inferência de modelos, oferecendo inferência de maior qualidade quando comparadas a outras arquiteturas. Dentro do Snowflake, o Llama 4 Maverick e o Llama 4 Scout podem ser integrados a aplicações de IA generativa.
O Llama 4 Maverick oferece desempenho líder do setor em compreensão de imagem e texto com suporte para 12 linguagens de modo a reduzir as barreiras de linguagem. Como um LLM de uso geral, o Llama 4 Maverick contém 17 bilhões de parâmetros ativos (400 bilhões de parâmetros em total), oferecendo inferência de alta qualidade quando comparado ao Llama 3.3 70B. O modelo se adapta bem para compreensão precisa de imagem e escrita criativa. Ele fornece inteligência de última geração com alta velocidade, otimizado para a melhor qualidade de resposta em tom e rejeições.
O Llama 4 Scout é um modelo de uso geral de menor porte, com 17 bilhões de parâmetros ativos (109 bilhões de parâmetros total) e oferece suporte a um tamanho de janela de contexto líder do setor de 10 milhões de tokens. Isso traz muitas possibilidades, como resumo de vários documentos, análise de extensa atividade do usuário para tarefas personalizadas e raciocínio em vastas bases de códigos.
Compromisso da Snowflake com o código aberto
Os modelos Llama de código aberto da Meta têm possibilitado às empresas criar experiências de IA únicas. Na Snowflake, estamos utilizando esses modelos no Cortex AI para criar soluções personalizadas que atendam às necessidades de negócios em constante evolução. Os clientes podem usar os modelos Llama para alimentar os agentes de inteligência artificial que lidam com tarefas complexas e integrá-los a ferramentas como o Cortex Analyst e o Cortex Search, liberando todo o valor de seus dados em uma única plataforma.
"Como a maior plataforma de recomendação de viagens do mundo, todos os meses, a TripAdvisor ajuda mais de 450 milhões de usuários a aproveitar ao máximo suas viagens. Adotando os modelos Llama no Snowflake, conseguimos fornecer aos nossos clientes recomendações personalizadas e muito relevantes para suas viagens, ao mesmo tempo em que geramos mais interação e receita para os nossos negócios. Nossa equipe está muito animada para começar a usar os modelos Llama 4 no Cortex AI pois acreditamos que podemos fazer ainda mais em termos de personalização de viagens e experiência do usuário."
Rahul Todkar
Nossa equipe de pesquisa de IA tem desenvolvido ativamente tecnologias de última geração sobre esses modelos Llama. Por exemplo, o Arctic Ulysses é uma nova tecnologia desenvolvida que foi otimizada para baixa latência e alta inferência de rendimento, além de ser útil para tarefas de longa sequência. Além disso, o SwiftKV, outra inovação recente desenvolvida com base nos modelos Llama da Meta e disponível no Snowflake-Llama-3.3-70B e no Snowflake-Llama-3.1-405B, consegue reduzir os custos de inferência dos LLMs Llama até 75% no Cortex AI, quando comparado aos modelos Meta Llama de referência no Cortex AI que não são otimizados pelo SwiftKV. Isso se traduz diretamente em redução de custos tangível e melhor desempenho para nossos clientes, promovendo a implementação dimensionável e em escala de iniciativas de IA generativa. Ao otimizar o estágio de preenchimento de inferência, o SwiftKV garante o processamento eficiente de comandos de entrada longos, o que é um requisito fundamental para muitas aplicações corporativas.
Acesso integrado via SQL e Python
A série Llama 4, agora disponível em versão preliminar do Cortex AI, oferece fácil acesso por meio de funções SQL estabelecidas e endpoint de API REST padrão. Os clientes podem usar os recursos avançados de inferência do Llama 4 em aplicações e pipelines de dados existentes sem processos complexos de integração. Os novos modelos Llama 4 podem ser executados por meio de uma simples função COMPLETE dentro do Cortex AI.
SELECT SNOWFLAKE.CORTEX.COMPLETE('llama4-maverick',
[{'role':'user','content':CONCAT('Summarize this customer feedback in bullet points:<feedback>',content,'</feedback>')}]
,{'guardrails':true})
FROM my_table;
Acesso integrado via REST API
Para permitir que serviços ou aplicações executadas fora do Snowflake realizem chamadas de inferência de baixa latência para o Cortex AI, a interface de API REST é a solução certa. Veja um exemplo de como funciona:
curl -X POST \
-H "Authorization: Bearer <jwt>" \
-H 'Content-Type: application/json' \
-H 'Accept: application/json, text/event-stream' \
-d '{
"model": "llama4-maverick",
"messages": [
{
"role": "user",
"content": "What is the weather like in San Francisco?"
}
],
"max_tokens": 4096,
"top_p": 1,
"stream": true
}' \
https://<account_identifier>.snowflakecomputing.com/api/v2/cortex/inference:complete
Caminho comprovado para recursos avançados de inferência
A Snowflake é a única plataforma de dados na nuvem com integração nativa aos principais modelos da OpenAI e da Anthropic, além de outros. Ao integrar o Llama 4 ao Snowflake Cortex AI, estamos oferecendo aos clientes acesso a modelos de IA de última geração para que possam criar aplicações e agentes de dados inteligentes. Tudo dentro do ambiente unificado, de segurança, de governança e do Snowflake. Essa combinação avançada permitirá às empresas automatizar tarefas repetitivas, obter insights mais detalhados de seus dados e oferecer maior valor aos clientes.
Saiba como o Llama 4 no Snowflake Cortex AI pode ajudá-lo a criar a próxima geração de aplicações de IA. Acompanhe!
Saiba mais
Participe com a gente do Summit 2025 para conhecer nossas inovações mais recentes em IA.
Acesse o guia com os principais casos de uso de IA e dados por setor: download.
Leia mais a respeito dos mais recentes lançamentos da Meta aqui.