Nove práticas recomendadas para migrar de uma solução local para a nuvem com o Snowflake
Diariamente, as equipes da Snowflake identificam oportunidades e ajudam os clientes a implementar as práticas recomendadas que facilitam o processo de migração de uma solução local para a nuvem. Essas equipes também monitoram os possíveis desafios e aconselham sobre padrões comprovados para ajudar a garantir uma migração de dados bem-sucedida.
Este artigo destaca nove áreas principais que requerem atenção e planejamento a fim de garantir uma transição fácil para a nuvem. Além disso, este blog vai apresentar alguns dos recursos comprovados do Snowflake que ajudam a obter valor máximo do trabalho de migração.
Migrar dados corporativos para a nuvem pode ser uma tarefa difícil. No entanto, quando executado corretamente, o processo pode ser eficiente e bem menos desafiador. O uso dos recursos integrados do Snowflake pode reduzir ainda mais alguns dos pontos problemáticos comuns associados ao processo de migração.
Este artigo se concentra nas seguintes áreas:
Compactação de dados
Uploads iniciais de dados
Uploads contínuos de dados
Priorização de conjuntos de dados
Gerenciamento do ciclo de vida dos dados
Segurança e criptografia de dados
Validação de dados
Recuperação de desastres
Vários ambientes de software
Compactação de dados
A compactação de dados é fundamental para preservar a largura de banda ao transferir dados do local para a nuvem. Existem várias formas de compactar os dados antes de fazer upload. Por exemplo, o gzip é um método de compactação confiável. Ao carregar dados no Snowflake a partir de buckets do Amazon S3, a compactação de dados pode otimizar o processo, melhorando a eficiência e reduzindo o tempo de transferência.
Como o Snowflake pode ajudar: se os arquivos estiverem compactados com gzip ou outro formato amplamente utilizado, o Snowflake pode ingerir os dados compactados diretamente sem a necessidade de descompactação manual. Outra opção, se os seus arquivos não estiverem compactados em uma unidade local, o Snowflake os compactará automaticamente usando gzip, a menos que a compactação esteja claramente desativada ou um método de compactação diferente estiver especificado. Esse recurso integrado ajuda a preservar ainda mais a largura de banda durante o upload de arquivos, tornando o processo de migração mais eficiente.
Uploads iniciais de dados
Todas as empresas gerenciam grandes volumes de dados espalhados por diferentes formatos em sistemas locais. Um método híbrido, onde alguns conjuntos de dados permanecem no local e outros são movidos para a nuvem, pode parecer interessante para reduzir a carga inicial, mas provavelmente será mais complicado de gerenciar a longo prazo. Com o método híbrido, sua tarefa é gerenciar dois conjuntos de infraestrutura, possivelmente de formatos diferentes, e o uso de um modelo federado provavelmente é demorado e caro.
O tamanho dos dados pode variar de alguns gigabytes a vários terabytes. Lidar com alguns gigabytes é relativamente simples, mas a migração de dados na faixa de terabytes pode trazer desafios logísticos. Para ajudar a garantir o sucesso dessa enorme tarefa, o método de transferência de uma única vez e sem manipulação é essencial para promover a precisão dos dados e manter os controles de segurança durante todo o processo.
Como o Snowflake pode ajudar: todo grande provedor de serviços na nuvem (cloud service provider, CSP) oferece soluções para ajudar na transferência de dados em grande escala. A AWS fornece o Snowball. O Microsoft Azure oferece o Databox. E o Google tem o Transfer Appliance. Todas ferramentas para facilitar migrações de dados massivas e únicas. Como o Snowflake é compatível com essas CSPs, assim que a transferência offline está concluída e os dados estão disponíveis na nuvem, a ingestão desses dados no Snowflake para processamento posterior torna-se um processo contínuo.
Uploads contínuos de dados
Embora seja possível gerenciar uploads únicos com as soluções indicadas acima, os clientes também devem pensar em como lidar com novos dados gerados diariamente. Esse processo pode continuar indefinidamente ou por um período fixo até que a arquitetura local seja totalmente aposentada e os dados sejam movidos diretamente para a sua plataforma na nuvem. Para atender a esses requisitos de carga de dados contínuos, os pipelines devem ser criados para ingerir e fazer upload contínuo de dados recém-gerados em sua plataforma na nuvem, permitindo um fluxo contínuo e eficiente de informações durante e depois da migração.
Como o Snowflake pode ajudar: o Snowflake oferece várias opções de ingestão de dados. Para cargas contínuas e em tempo real, o Snowpipe é ideal para a manutenção dos feeds. Para o carregamento em lote, o poderoso comando COPY pode ser utilizado. Para casos de uso de streaming de baixa latência, o Snowpipe Streaming é o ideal. Além disso, as fortes ferramentas de ecossistema de integração de dados da Snowflake possibilitam uploads incrementais seguros e controlados sem a necessidade de uma infraestrutura complexa. Essa flexibilidade permite que a ingestão de dados seja eficiente e confiável, com o mínimo de interrupções durante o processo de migração. Leia mais práticas recomendadas de ingestão de dados com o Snowflake nesta série de três partes: Parte 1, Parte 2, Parte 3.
Priorização de conjuntos de dados
As empresas muitas vezes lidam com o desafio de diferentes equipes competindo para migrar os dados para a nuvem com a maior rapidez possível. Se esse processo não for gerenciado sistematicamente, ele pode levar a várias cópias dos mesmos dados armazenadas na nuvem, o que gera ineficiência. Para evitar isso, é fundamental priorizar conjuntos de dados e migrá-los em uma sequência estruturada, começando com os conjuntos de dados principais antes de migrar para outros conjuntos.
Embora o Snowflake facilite a migração e a priorização contínua de dados, muitos de nossos clientes demonstraram que um bom planejamento e a identificação cuidadosa dos conjuntos de dados são fundamentais para garantir que os dados certos sejam movidos primeiro, evitando duplicação desnecessária. Isso pode ser simples como listar os conjuntos de dados em um local central, como o Sharepoint, e atribuir prioridade para ajudar a realizar o planejamento adequado, seguido de revisão periódica da lista.
Como o Snowflake pode ajudar: embora existam diversos métodos para fazer o upload de conjuntos de dados e já mostramos alguns deles neste blog, a Diariamente, as equipes da Snowflake identificam oportunidades e ajudam os clientes a implementar as práticas recomendadas que facilitam o processo de migração de uma solução local para a nuvem. Essas equipes também monitoram os possíveis desafios e aconselham sobre padrões comprovados para ajudar a garantir uma migração de dados bem-sucedida.
\nEste artigo destaca nove áreas principais que requerem atenção e planejamento a fim de garantir uma transição fácil para a nuvem. Além disso, este blog vai apresentar alguns dos recursos comprovados do Snowflake que ajudam a obter valor máximo do trabalho de migração.
\nMigrar dados corporativos para a nuvem pode ser uma tarefa difícil. No entanto, quando executado corretamente, o processo pode ser eficiente e bem menos desafiador. O uso dos recursos integrados do Snowflake pode reduzir ainda mais alguns dos pontos problemáticos comuns associados ao processo de migração.
\nEste artigo se concentra nas seguintes áreas:
\n- \n
Compactação de dados
\n \nUploads iniciais de dados
\n \nUploads contínuos de dados
\n \nPriorização de conjuntos de dados
\n \nGerenciamento do ciclo de vida dos dados
\n \nSegurança e criptografia de dados
\n \nValidação de dados
\n \nRecuperação de desastres
\n \nVários ambientes de software
\n \n
Compactação de dados
\nA compactação de dados é fundamental para preservar a largura de banda ao transferir dados do local para a nuvem. Existem várias formas de compactar os dados antes de fazer upload. Por exemplo, o gzip é um método de compactação confiável. Ao carregar dados no Snowflake a partir de buckets do Amazon S3, a compactação de dados pode otimizar o processo, melhorando a eficiência e reduzindo o tempo de transferência.
\nComo o Snowflake pode ajudar: se os arquivos estiverem compactados com gzip ou outro formato amplamente utilizado, o Snowflake pode ingerir os dados compactados diretamente sem a necessidade de descompactação manual. Outra opção, se os seus arquivos não estiverem compactados em uma unidade local, o Snowflake os compactará automaticamente usando gzip, a menos que a compactação esteja claramente desativada ou um método de compactação diferente estiver especificado. Esse recurso integrado ajuda a preservar ainda mais a largura de banda durante o upload de arquivos, tornando o processo de migração mais eficiente.
\nUploads iniciais de dados
\nTodas as empresas gerenciam grandes volumes de dados espalhados por diferentes formatos em sistemas locais. Um método híbrido, onde alguns conjuntos de dados permanecem no local e outros são movidos para a nuvem, pode parecer interessante para reduzir a carga inicial, mas provavelmente será mais complicado de gerenciar a longo prazo. Com o método híbrido, sua tarefa é gerenciar dois conjuntos de infraestrutura, possivelmente de formatos diferentes, e o uso de um modelo federado provavelmente é demorado e caro.
\nO tamanho dos dados pode variar de alguns gigabytes a vários terabytes. Lidar com alguns gigabytes é relativamente simples, mas a migração de dados na faixa de terabytes pode trazer desafios logísticos. Para ajudar a garantir o sucesso dessa enorme tarefa, o método de transferência de uma única vez e sem manipulação é essencial para promover a precisão dos dados e manter os controles de segurança durante todo o processo.
\nComo o Snowflake pode ajudar: todo grande provedor de serviços na nuvem (cloud service provider, CSP) oferece soluções para ajudar na transferência de dados em grande escala. A AWS fornece o Snowball. O Microsoft Azure oferece o Databox. E o Google tem o Transfer Appliance. Todas ferramentas para facilitar migrações de dados massivas e únicas. Como o Snowflake é compatível com essas CSPs, assim que a transferência offline está concluída e os dados estão disponíveis na nuvem, a ingestão desses dados no Snowflake para processamento posterior torna-se um processo contínuo.
\nUploads contínuos de dados
\nEmbora seja possível gerenciar uploads únicos com as soluções indicadas acima, os clientes também devem pensar em como lidar com novos dados gerados diariamente. Esse processo pode continuar indefinidamente ou por um período fixo até que a arquitetura local seja totalmente aposentada e os dados sejam movidos diretamente para a sua plataforma na nuvem. Para atender a esses requisitos de carga de dados contínuos, os pipelines devem ser criados para ingerir e fazer upload contínuo de dados recém-gerados em sua plataforma na nuvem, permitindo um fluxo contínuo e eficiente de informações durante e depois da migração.
\nComo o Snowflake pode ajudar: o Snowflake oferece várias opções de ingestão de dados. Para cargas contínuas e em tempo real, o Snowpipe é ideal para a manutenção dos feeds. Para o carregamento em lote, o poderoso comando COPY pode ser utilizado. Para casos de uso de streaming de baixa latência, o Snowpipe Streaming é o ideal. Além disso, as fortes ferramentas de ecossistema de integração de dados da Snowflake possibilitam uploads incrementais seguros e controlados sem a necessidade de uma infraestrutura complexa. Essa flexibilidade permite que a ingestão de dados seja eficiente e confiável, com o mínimo de interrupções durante o processo de migração. Leia mais práticas recomendadas de ingestão de dados com o Snowflake nesta série de três partes: Parte 1, Parte 2, Parte 3.
\nPriorização de conjuntos de dados
\nAs empresas muitas vezes lidam com o desafio de diferentes equipes competindo para migrar os dados para a nuvem com a maior rapidez possível. Se esse processo não for gerenciado sistematicamente, ele pode levar a várias cópias dos mesmos dados armazenadas na nuvem, o que gera ineficiência. Para evitar isso, é fundamental priorizar conjuntos de dados e migrá-los em uma sequência estruturada, começando com os conjuntos de dados principais antes de migrar para outros conjuntos.
\nEmbora o Snowflake facilite a migração e a priorização contínua de dados, muitos de nossos clientes demonstraram que um bom planejamento e a identificação cuidadosa dos conjuntos de dados são fundamentais para garantir que os dados certos sejam movidos primeiro, evitando duplicação desnecessária. Isso pode ser simples como listar os conjuntos de dados em um local central, como o Sharepoint, e atribuir prioridade para ajudar a realizar o planejamento adequado, seguido de revisão periódica da lista.
\nComo o Snowflake pode ajudar: embora existam diversos métodos para fazer o upload de conjuntos de dados e já mostramos alguns deles neste blog, a