제품 및 기술

Snowflake로 온프레미스에서 클라우드로 전환하기 위한 9가지 모범 사례

Digital illustration of an on-premise data store sending data to a cloud icon with the Snowflake cloud in the center

Snowflake 팀은 일상적으로 기회를 파악하고 고객이 온프레미스에서 클라우드로 마이그레이션하는 프로세스를 용이하게 하는 권장 모범 사례를 구현할 수 있도록 지원합니다. 또한, 잠재적인 과제를 모니터링하고 성공적인 데이터 마이그레이션을 보장하는 데 도움이 되는 검증된 패턴에 대한 조언을 제공합니다.

이 기사에서는 클라우드의 원활한 전환을 가속화하기 위해 주의해야 할 9가지 핵심 영역과 계획을 수립해야 하는 영역에 대해 다룹니다. 또한 마이그레이션 노력의 가치를 최적화하는 데 도움이 되는 Snowflake의 몇 가지 검증된 기능을 살펴봅니다.

엔터프라이즈 데이터를 클라우드로 마이그레이션하는 것은 어려운 태스크가 될 수 있습니다. 하지만 이를 올바르게 실행하면 효율적이고 훨씬 덜 어려울 수 있습니다. Snowflake의 내장형 기능을 활용하면 마이그레이션 프로세스와 관련된 몇 가지 일반적인 불편 사항을 추가로 완화할 수 있습니다.

이 글의 초점 영역은 다음과 같습니다.

  1. 데이터 압축

  2. 초기 데이터 업로드 

  3. 지속적인 데이터 업로드

  4. 데이터 세트 우선순위 지정

  5. 데이터 수명 주기 관리

  6. 데이터 보안 및 암호화

  7. 데이터 유효성 검사

  8. 재해 복구 

  9. 여러 소프트웨어 환경

데이터 압축

데이터 압축은 데이터를 온프레미스에서 클라우드로 전송할 때 대역폭을 절약하는 데 매우 중요합니다. 업로드하기 전에 데이터를 압축하는 방법은 여러 가지입니다. 예를 들어, gzip은 신뢰할 수 있는 압축 메서드입니다. Amazon S3 버킷에서 Snowflake로 데이터를 로드할 때 데이터 압축을 통해 프로세스를 최적화하여 효율성을 개선하고 전송 시간을 단축할 수 있습니다.

Snowflake가 도와줄 수 있는 방법: gzip 또는 다른 널리 사용되는 형식으로 파일을 압축할 경우, 수동 압축 해제 없이 Snowflake는 압축 데이터를 직접 수집할 수 있습니다. 또는 로컬 드라이브에 압축되어 있지 않은 파일이 있는 경우, Snowflake는 압축을 명시적으로 비활성화하거나 다른 압축 메서드를 지정하지 않으면gzip을 사용하여 자동으로 압축합니다. 또한, 이 내장형 기능은 파일 업로드 시 대역폭을 절약하는 데 도움이 되므로 마이그레이션 프로세스가 더욱 효율적입니다.

초기 데이터 업로드

모든 엔터프라이즈는 온프레미스 시스템에서 다양한 형식으로 분산된 방대한 양의 데이터 관리합니다. 일부 데이터 세트가 온프레미스에 유지되고 일부는 클라우드로 이동하는 하이브리드 접근 방식은 초기 부담을 줄이는 데 매력적으로 보일 수 있지만, 이는 장기적으로 관리하기가 훨씬 어려울 가능성이 높습니다. 하이브리드 접근 방식을 사용하면 다른 형식으로 되어 있을 가능성이 있는 두 개의 개별 인프라 세트를 관리해야 하며, 통합 모델을 사용할 경우 시간이 많이 걸리고 비용이 많이 들 수 있습니다.

데이터 크기는 몇 기가바이트에서 몇 테라바이트에 달할 수 있습니다. 몇 기가바이트(GB)를 처리하는 것은 비교적 간단하지만, 테라바이트 규모의 데이터를 마이그레이션하면 물류에 어려움을 겪을 수 있습니다. 이 대규모 작업의 성공을 보장하는 데 있어 데이터 정확도를 높이고 프로세스 전반에 걸쳐 보안 제어를 유지하는 데 획기적이고 조작이 없는 전송 메서드가 필수적입니다.

Snowflake가 도와줄 수 있는 방법: 모든 주요 클라우드 서비스 공급자(CSP)는 대규모 데이터 전송을 지원하는 솔루션을 제공합니다. AWS는 Snowball을 제공하고, Microsoft Azure는 Databox를 제공하며, Google은 일회성 대규모 데이터 마이그레이션을 용이하게 하는 Transfer Appliance를 제공합니다. Snowflake는 이러한 CSP와 호환되므로 오프라인 전송이 완료되고 클라우드에서 데이터를 사용할 수 있게 되면 추가 처리를 위해 Snowflake에 수집하는 프로세스가 원활합니다.

지속적인 데이터 업로드

위에서 설명한 솔루션을 사용하여 일회성 업로드를 관리할 수 있지만, 고객은 매일 생성되는 새로운 데이터를 어떻게 처리할지 고려해야 합니다. 이 프로세스는 온프레미스 아키텍처가 완전히 폐기되고 데이터 클라우드 플랫폼이 바로 파이핑될 때까지 무한히 또는 고정 기간 동안 계속될 수 있습니다. 이러한 지속적인 데이터 로드 요구 사항을 충족하려면 신규 데이터를 클라우드 플랫폼으로 지속적으로 수집하고 업로드할 수 있도록 파이프라인을 구축하여 마이그레이션 도중 및 완료 후에 원활하고 효율적인 정보 흐름을 실현해야 합니다.

Snowflake가 도와줄 수 있는 방법: Snowflake는 데이터 수집을 위한 다양한 옵션을 제공합니다. 실시간 및 지속적 로드를 위해 Snowpipe는 트리클 피드에 이상적입니다. 배치 로딩에는 강력한 COPY 명령을 활용할 수 있습니다. 짧은 지연 시간 스트리밍 사용 사례에는 Snowpipe Streaming이 이상적입니다. 또한, Snowflake의 강력한 데이터 통합 생태계 툴은 복잡한 인프라 없이도 안전하고 제어 가능한 증분 업로드를 가능하게 합니다. 이러한 유연성 덕분에 마이그레이션 프로세스 중에 데이터 수집이 효율적이고 안정적이며 중단이 최소화됩니다. Snowflake의 데이터 수집 모범 사례에 대해 자세히 알아보는 내용은 다음과 같이 3개 파트로 구성되어 있습니다. Part 1, Part 2, Part 3.

데이터 세트 우선순위 지정

엔터프라이즈는 가능한 빨리 데이터를 클라우드로 마이그레이션하기 위해 서로 다른 팀이 경쟁해야 하는 과제에 직면하는 경우가 많습니다. 체계적으로 관리하지 않으면 여러 개의 동일한 데이터 사본을 클라우드에 저장하게 되어 비효율성이 발생할 수 있습니다. 이를 방지하기 위해서는 데이터 세트의 우선순위를 정하고 ‘마스터 데이터 세트'로 시작하여 다른 정형화된 시퀀스 구조로 마이그레이션 하는 것이 중요합니다.

Snowflake는 원활한 데이터 마이그레이션과 우선순위를 정하는 것을 촉진하지만, 많은 Snowflake 고객은 데이터 세트의 철저한 계획과 신중한 식별이 불필요한 중복을 방지하고 우선적으로 올바른 데이터를 이동하는 데 핵심적인 역할을 한다는 것을 입증했습니다. 이는 SharePoint와 같은 중앙 위치에 데이터 세트를 나열하고 우선순위를 할당하여 적절한 계획을 수립하고 정기적으로 목록을 검토하는 것처럼 간단할 수 있습니다.

Snowflake가 도와줄 수 있는 방법: 데이터 세트를 업로드하기 위한 다양한 방법이 있고 이 블로그에서 이미 몇 가지를 다루었지만, Snowflake의 웹 인터페이스를 사용하여 파일을 로드하는 선택 사항은 데이터를 수집하는 가장 쉽고 빠른 방법 중 하나임이 분명합니다. 비즈니스 사용자는 사용자 친화적인 접근 방식으로 파일을 Snowflake로 신속하게 전송하여 데이터 수집 프로세스를 간소화할 수 있습니다.

데이터 수명 주기 관리

데이터 수명 주기 관리는 클라우드 비용을 효과적으로 관리하는 데 중요한 영역입니다. 클라우드 데이터를 유지하는 데는 운영 비용이 발생하기 때문에 강력한 데이터 보존 정책을 수립하는 것이 고객의 클라우드 전략에서 기본적인 측면이 되어야 합니다. 규제 및 규정 준수 요구 사항이 데이터의 완전한 삭제를 방해할 수도 있지만, 이러한 보존 요구 사항이 적용되지 않는 데이터에 대해서는 만료 모델을 구현하는 것이 좋습니다. 이러한 접근 방식은 스토리지 비용을 최적화하는 데 도움이 됩니다.

Snowflake가 도와줄 수 있는 방법: Snowflake는 데이터 수명 주기 관리를 용이하게 하는 다양한 기능을 제공합니다. 여기에는 데이터 스토리지의 다양한 고려 사항이 포함됩니다. 이는 Budgets와 같은 비용 최적화 도구와 결합되어 스토리지 비용을 절감하는 데 도움이 됩니다. 또한, 저희 프로덕트 팀은 데이터 수명 주기를 원활하게 관리할 수 있도록 새로운 정책 기반 기능을 개발하고 있습니다.

데이터 보안 및 암호화

데이터 보안은 조직이 데이터 클라우드를 이동할 때 고려해야 할 중요한 영역입니다. 보안 팀도 엔터프라이즈 데이터가 엔터프라이즈의 경계를 떠나 클라우드로 전환한다는 아이디어에 동참해야 합니다. 프라이빗 연결성, 네트워크 정책, 암호화 같은 기능은 클라우드로 이동하는 동안 데이터를 보호하기 위해 널리 채택되는 몇 가지 방법입니다.

일부 조직은 데이터 센터를 떠나기 전에 데이터를 암호화해야 하는 보안 정책을 수립했습니다. 이 프로세스 중 데이터 보호를 지원하기 위해 RSA 및 AES와 같은 암호화 방법론을 파일 수준에서 적용할 수 있습니다. 데이터가 클라우드 플랫폼에 전송되면 전송 중이거나 저장된 데이터 모두 보호하기 위해 포괄적인 데이터 보호 정책을 구현하여 마이그레이션 프로세스 전반에 걸쳐 추가적인 보안 계층을 제공할 수 있습니다.

Snowflake가 도와줄 수 있는 방법: Snowflake는 조직이 규정 준수 요구 사항을 충족하고 수명 주기 전반에 걸쳐 데이터를 안전하게 보호할 수 있도록 엔드투엔드 암호화을 제공합니다. 또한, Snowflake는 데이터가 일단 Snowflake 관리 하에 들어오면 강력한 키 관리 솔루션을 제공하여 민감 정보에 대한 보안과 제어를 더욱 강화합니다. 또한, 특정 IP 주소의 Private Link와 특정 IP 주소의 HTTP 요청 수락 제한(‘IP 화이트리스팅’이라고도 함)은 데이터 액세스를 제한하는 데 도움이 됩니다.

데이터 유효성 검사

데이터 검증은 데이터 품질과 이러한 정보를 활용하는 비즈니스 사용자의 신뢰를 높이는 데 매우 중요합니다. 고객이 검증에 주로 사용하는 주요 지표에는 고유값 수, null 값 수, 데이터 세트 최신성 및 중복 값이 있습니다. 정의된 간격으로 이러한 지표를 주기적으로 로깅하고 검토하면 데이터 품질을 유지하고 비즈니스 그룹의 정보에 입각한 의사 결정을 지원할 수 있습니다.

Snowflake가 도와줄 수 있는 방법: Snowflake는 백그라운드에서 실행할 수 있는 다양한 데이터 지표 함수를 제공하여 이상 징후를 식별하고 데이터 검증을 지원합니다. 이러한 함수는 데이터를 지속적으로 모니터링하여 문제를 사전에 감지하고 데이터의 전반적인 품질과 신뢰성을 높일 수 있도록 지원합니다.

재해 복구

클라우드에 필요한 재해 복구(DR) 준비 수준은 온프레미스 시스템과 크게 다릅니다. CSP는 기본값으로 데이터 사본을 유지하기 위한 DR 전략에 도움이 되는 표준을 설정했습니다. 온프레미스 솔루션은 데이터 중복에 대한 광범위한 계획과 리소스를 필요로 하며 복구를 위해 RPO 및 RTO 정책을 준수하는 경우가 많지만, CSP는 일반적으로 이러한 프로세스를 간소화하고 데이터 회복탄력성을 향상하는 내장형 DR 기능을 제공합니다. 이를 통해 조직은 더 효율적이고 효과적인 재해 복구를 위해 CSP의 인프라를 활용할 수 있습니다. 데이터 가용성 관점에서 애플리케이션 요구 사항에 집중하면 비즈니스 위험을 완화하는 데 도움이 됩니다.

Snowflake가 도와줄 수 있는 방법: Snowflake의 핵심 장점 중 하나는 여러 클라우드와 리전에서 원활한 비즈니스 연속성을 제공하는 기능입니다. Snowgrid를 사용하면 백엔드에 인프라를 많이 투입하지 않고도 쉽게 구현할 수 있습니다. 또한, Snowflake는 재해 복구 지원을 위한 여러 내장형 기능을 제공합니다. 여기에는 자동 복제, Time Travel, 장애 조치/ 장애 복구Secure Data Sharing이 포함됩니다. 

여러 소프트웨어 환경

클라우드 온프레미스 설정과 마찬가지로 개발, 테스트, 스테이징, 프로덕션 같은 여러 환경에 대한 필요성이 지속되는 경우가 많습니다. 하지만 클라우드 플랫폼은 향상된 유연성과 확장성을 제공하므로 관리를 간소화할 수 있습니다. 클라우드를 통해 온디맨드 방식으로 리소스를 할당할 수 있으므로 비용을 절감할 수 있습니다. 이를 통해 엔터프라이즈는 필요에 따라 환경을 해체하고 사용한 만큼만 비용을 지불할 수 있습니다. 또한, 환경 배포 및 유지 관리를 위한 자동화 도구를 통해 모든 물류를 쉽게 관리할 수 있습니다. 이러한 클라우드의 특성 때문에 사용자 테스트, 성능 테스트, 회귀 테스트, 보안 테스트 등이 매우 쉬워집니다.

Snowflake가 도와줄 수 있는 방법: Snowflake는 쉽게 액세스 할 수 있는 중앙 집중식 플랫폼을 제공하고, 여러 환경 간에 복제 없이 즉각적인 사본을 제공하는 제로 사본 복제를 지원합니다. 또한, 이러한 기능을 지원하는 데 필요한 인프라의 유지 관리 없이 다양한 유형의 테스트를 지원하는 리소스에 대한 즉각적인 액세스와 함께 C/CD 툴과의 통합을 제공함으로써 기업이 시간과 노력 그리고 돈을 절약할 수 있도록 도와줍니다.

맺음말

저희는 고객이 어려움을 겪고 있는 9가지 범용 영역과 잠재적 솔루션에 대해 논의했지만, 이 목록은 결코 종합적인 것은 아닙니다. 신중한 계획과 적절한 도구를 통해 엔터프라이즈 데이터 클라우드를 마이그레이션하면 까다로운 태스크을 계획하고 관리하는 것이 쉬어질 수 있습니다. 데이터 압축, 업로드 옵션, 데이터 수명 주기 관리, 향상된 보안 등 Snowflake의 강력한 기능 세트는 클라우드의 전환 여정을 가속화하는 동시에 위험을 최소화하는 데 도움이 됩니다.

이 글에서 다루고 있는 주요 영역에 집중하여 조직은 클라우드 마이그레이션 활동을 최적화하여 운영 요구 사항과 장기적인 비즈니스 목표에 부합하는 원활한 전환을 보장할 수 있습니다. Snowflake를 신뢰할 수 있는 파트너와 함께 사용하면 엔터프라이즈 데이터를 클라우드로 전환하는 여정을 원활하게 진행할 수 있습니다.  자세한 내용은 Snowflake의 마이그레이션 페이지 Migrate to the Cloud를 참조하세요. 또한, 네이티브 코드 변환 도구인 SnowConvert에 대해서도 자세히 알아보세요. 

Digital illustration of an on-premise data store sending data to a cloud icon with the Snowflake cloud in the center
Data Cloud Academy

Migrations Master Class

Take our free course and get best practices for migrating to Snowflake, including expert tips and customer experiences.
Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30일 무료 평가판시작하기

Snowflake를 30일 동안 무료로 사용해 보세요. 다른 솔루션에 내재된 복잡성, 비용 부담, 제약 조건 

등을 해소하는 데 도움이 되는 데이터 클라우드를 경험하실 수 있습니다.