Compartilhando e monetizando modelos de IA de forma segura no AI Data Cloud
O surgimento dos modelos de IA generativa está incentivando as organizações a incorporar inteligência artificial (IA) e grandes modelos de linguagem (large language models, LLMs) em suas estratégias de negócios. Afinal de contas, esses modelos criam novas oportunidades para obter maior valor dos dados e da propriedade intelectual de uma empresa e torná-los acessíveis a um público mais amplo da organização.
Um elemento-chave para o uso bem-sucedido dos modelos de IA generativa é a capacidade de compartilhar dados. As empresas com dados valiosos que podem ser usados para otimizar LLMs querem poder monetizá-los e usá-los para otimização sem conceder acesso às fontes de dados originais. Elas também querem garantir que todo o uso seja atribuído de volta para elas de forma adequada.
Infelizmente, muitas das soluções disponíveis atualmente não oferecem às empresas as ferramentas para compartilhar dados de forma segura e ao mesmo tempo:
Garantir que os dados valiosos de uma organização serão sempre gerenciados pela empresa, e não disponibilizados a outras partes, o que pode resultar em uso inadequado ou possivelmente malicioso.
Garantir que os modelos de terceiros usados na empresa estejam armazenados com segurança.
Monitorar o acesso aos dados e modelos de forma cuidadosa.
Na Snowflake, estamos lidando com esses desafios intensamente e tornando mais fácil para os desenvolvedores fornecerem uma IA confiável para trabalhar com os dados empresariais.
Em nossa recente conferência para desenvolvedores BUILD 2024, destacamos três recursos para ajudar você a compartilhar seus LLMs otimizados, compartilhar conjuntos de dados para treinar os LLMs e compartilhar modelos tradicionais de IA/ML com segurança dentro e fora da sua organização por todo o AI Data Cloud. Fornecemos uma visão geral desses recursos em uma publicação anterior no blog, mas agora vamos ver mais de perto como você pode colocá-los em prática em seus projetos.
Snowflake Cortex AI: compartilhe LLMs otimizados da Meta e Mistral AI
Para tirar total proveito dos modelos de estratégias de IA, as empresas precisam personalizá-los e otimizá-los aos seus domínios e conjuntos de dados específicos. Essa tarefa geralmente envolve duas regras: em nenhum momento os dados saem do local onde estão armazenados e não há grandes investimentos no desenvolvimento de infraestrutura.
O Snowflake agora oferece às empresas recursos para otimizar os principais modelos da Meta e da Mistral AI usando dados dentro do próprio perímetro de segurança e sem a necessidade de gerenciar nenhuma infraestrutura. Ou, ainda melhor, os desenvolvedores podem governar e gerenciar facilmente seus LLMs personalizados com o Snowflake Model Registry.
Com o Secure Model Sharing (atualmente em versão preliminar pública), é possível otimizar e compartilhar modelos de base personalizados em três etapas:
Selecione o modelo base e forneça seu conjunto de dados de treinamento como parte da função FINETUNE ou usando a experiência no-code no Snowflake AI & ML Studio. Os modelos otimizados podem ser usados por meio da função COMPLETE.
Compartilhe seus modelos otimizados com segurança com outras contas Snowflake em sua região.
Execute seus modelos otimizados em diferentes regiões da sua organização.
SNOWFLAKE.CORTEX.FINETUNE(
‘CREATE’
<model_name>,
<base_model>,
<training_data>,
<validation_data>
);
Aproveitar o poder dos LLMs da Cortex com as Cortex Knowledge Extensions
As empresas querem uma maneira fácil de aprimorar seus modelos básicos com informações específicas de domínio para que possam retornar respostas mais relevantes. Tradicionalmente, leva muito tempo e requer muito trabalho encontrar e adquirir os conjuntos de dados certos e, em seguida, ainda mais tempo e conhecimento técnico para preparar os dados para consumo e otimizar os LLMs. A Snowflake já simplificou a primeira parte desse processo, buscando dados apropriados, com o Snowflake Marketplace, que oferece um local central para encontrar, testar e comprar rapidamente mais de 2.900 conjuntos de dados, apps e produtos de dados (dados de 31 de outubro de 2024). Agora, com o recurso Cortex Knowledge Extensions (atualmente em versão preliminar privada), estamos tornando mais fácil preparar e transformar dados de terceiros.
O Cortex Knowledge Extensions oferece aos clientes um "botão fácil" para enriquecer seu modelo de base escolhido com informações atualizadas em um domínio específico sem exigir conhecimento técnico adicional para otimizar e gerenciar dados brutos de um provedor de conteúdo. Entretanto, é crucial que os clientes tenham certeza de que estão usando conteúdo licenciado oficialmente.
O Cortex Knowledge Extensions permite que as aplicações de IA generativa extraíam respostas de dados não estruturados e licenciados dos provedores, ao mesmo tempo adicionando a atribuição adequada e isolando o conjunto de dados completo original da exposição. Isso ajuda os provedores a monetizar a IA generativa e, ao mesmo tempo, minimiza o risco de seu conteúdo ser usado para fins de treinamento de modelos.
Para disponibilizar seus dados no Snowflake Marketplace, o provedor de conteúdo configura um serviço Cortex Search com seus dados e os publica no Snowflake Marketplace. Após a publicação, um cliente pode encontrar a oferta e adquirir os dados no Snowflake Marketplace. Os clientes podem então usar APIs do Cortex AI para dar comandos aos LLMs com os dados adquiridos no Snowflake Marketplace.
Compartilhe modelos tradicionais de IA/ML no AI Data Cloud
Cada vez mais empresas estão criando modelos personalizados de IA/ML para tarefas específicas, como previsão de perda ou previsão de receitas. Esses modelos podem ser desenvolvidos dentro da organização por cientistas de dados ou externamente por parceiros. Agora, as empresas podem aproveitar o poder desses modelos e compartilhá-los com parceiros, clientes e usuários dentro da empresa usando Snowflake Native Apps tanto no Marketplace interno quanto no Snowflake Marketplace voltado para o público externo.
Com o Snowflake Secure Data Sharing, as organizações podem permitir que os usuários finais executem modelos de ML com segurança dentro do controle de acesso refinado baseado em função para seus dados. Os dados em si nunca saem dos limites de segurança da organização. Incluir os modelos em pacotes com Snowflake Native Apps garante que eles herdam a postura de segurança dos Snowflake Native Apps, incluindo análise de segurança, sandboxes e acesso a recursos locais ou externos com base em privilégios específicos concedidos ao modelo.
O compartilhamento de um modelo é tão simples quanto adicionar artefatos do modelo a um pacote de aplicações e conceder privilégios de uso ao consumidor específicos do app. Os clientes ficam então livres para instalar a aplicação e usar as funções do modelo.
Com a colaboração e o compartilhamento de dados do Snowflake, as empresas podem criar e compartilhar facilmente modelos de IA/ML, tanto modelos tradicionais quanto LLMs otimizados, além de compartilhar seus benefícios com as demais empresas. Para saber mais e testar alguns desses recursos, confira os seguintes recursos:
Quickstart: Colaboração no Snowflake
BUILD 2024 “What’s New: Snowflake Horizon Catalog”, sessão sob demanda, incluindo o Marketplace Internal.