데이터 아키텍처,데이터 거버넌스 및 보안을 단순화하여 모든 워크로드에서 가치를 높이는 Snowflake
오늘날에는 조직의 데이터 인프라가, 여기저기 축적되어 있는 포인트 솔루션들 때문에 미로처럼 보이기 쉽습니다. 일부 기업들이 복잡한 파이프라인으로 다양한 도구를 통합할 수 있는 방법을 찾고 있는 상황에서 그중 일부 단계를 제거하면 좋지 않을까요? 비즈니스 및 기술 요구에 가장 적합한 아키텍처를 구축하면서도 노력을 간소화할 수 있다면 어떨까요?
Snowflake는 조직의 데이터 인프라 아키텍처 구축 방법을 단순화하는 데 도움이 되는 기능을 지속적으로 추가함으로써 이를 실현하기 위해 최선을 다하고 있습니다. 트랜잭션 데이터와 분석 데이터를 Hybrid Tables로 통합하고, 개방형 레이크하우스를 위한 거버넌스를 Snowflake Open Catalog로 개선하고, 위협 감지 및 모니터링을 향상시키거나, Snowflake Horizon Catalog를 통해 이동하는 구성 요소를 줄임으로써 효과적인 완전 관리형 서비스를 고객에게 제공합니다.
BUILD 2024에서는 사용자 지정 조건에 맞춰 데이터 아키텍처를 구축 및 관리할 수 있도록 설계된 여러 개선 사항과 혁신이 발표되었습니다. 자세한 내용은 아래와 같습니다.
데이터 아키텍처 간소화로 가치 가속화
하이브리드 트랜잭션 및 분석 사용 사례의 경우 스트리밍 및 비정형 데이터 함께, 이동하는 구성 요소가 적은 Snowflake으로 솔루션을 구축할 수 있습니다. 따라서, 수동 구성 및 사일로 관리에 할애하는 시간과 비용을 줄이고 해당 리소스를 데이터 활용 방식을 혁신하는 데 투입할 수 있습니다.
Snowflake에서 트랜잭션 및 분석 워크로드를 통합하여 단순성 향상
많은 기업이 트랜잭션 워크로드를 처리하기 위해 두 개의 개별 데이터베이스를 유지 관리해야 합니다. 하나는 분석 워크로드를, 다른 하나는 분석 워크로드를 위한 것입니다. Snowflake Unistore는 이 두 워크로드 모두 단일 데이터베이스에 통합하여 사용자가 데이터 이동을 줄이고 일관된 보안 및 거버넌스 제어를 통해 대폭 간소화된 아키텍처 확보할 수 있도록 지원합니다.
Unistore는 빠른 단일 행 읽기 및 쓰기로 트랜잭션 워크로드를 지원하는 Hybrid Table(현재 AWS 상용 리전에서 GA로 제공)을 통해 가능해진 기능입니다. Hybrid Table의 빠르고 동시성이 높은 포인트 운영을 통해 애플리케이션과 워크플로우 상태를 Snowflake에 직접 저장하고, 리버스 ETL 없이 데이터를 제공하고, 단일 플랫폼에서 단일 거버넌스 및 보안 모델을 유지하면서 경량 트랜잭션 앱을 구축할 수 있습니다.
효율적인 데이터 수집 및 비용 관리
Snowflake 관리형 데이터를 위해, Snowflake는 데이터를 손쉽고 비용 효율적으로 액세스하는 데 도움이 되는 기능을 소개하고 있습니다. Apache Kafka용 Snowpipe(AWS 및 Microsoft Azure에서 PuPr 예정)를 사용하면 기존의 ‘푸시’ 커넥터 대신 ‘풀’ 매커니즘을 통해 자체 Kafka Connect 클러스터를 호스팅하지 않고도 Apache Kafka 이벤트를 Snowflake 계정으로 직접 추출하고 수집할 수 있습니다. 이로써 스트리밍 데이터를 사용하기 위한 전반적인 복잡성을 줄일 수 있습니다. 기존 Kafka 솔루션으로 외부 액세스 통합을 생성하기만 하면 됩니다.
SnowConvert 는 레거시 관계형 데이터베이스 관리 시스템(RDBMS)의 Snowflake 마이그레이션을 가속화하는, 사용이 용이한 코드 변환 도구입니다. SnowConvert 무료 평가와 무료 테이블 변환 외에도 Teradata, Oracle 또는 SQL Server 데이터베이스 뷰의 정확한 변환을 무료로 지원합니다.
새 스토리지 수명 주기 정책 (PrPr)은 사용자 지정 정책 조건과 일치할 때 기록을 자동 삭제하거나 저렴한 비용 계층으로 아카이빙하여 비용을 절감할 수 있는 또 다른 기회를 제공합니다. 이를 통해 쉽고 확장 가능한 방식으로 규제 준수를 유지하면서 스토리지를 최적화할 수 있습니다.
AI 기반의 자동화된 데이터 추출 및 통합을 통해 비정형 문서의 가치 실현
모든 유형의 기업이 매일 같이 청구서, 영수증, 통지서, 양식 등 문서의 홍수 속에 살고 있는 상황에서, 해당 문서에 포함된 정보를 수동으로 얻고 사용하는 것은 시간 소모적이고 오류가 발생하기 십상입니다. 비정형 문서를 내장형 LLM인 Arctic-TILT을 사용하여 비정형 문서를 정형 테이블로 변환하는 완전 관리형 Snowflake 워크플로우인 Document AI(AWS 및 Microsoft Azure에서 GA로 제공)를 사용하면 지능적으로 규모에 맞게 문서를 프로세스할 수 있습니다. 사용하기 쉬운 UI를 통해 파인 튜닝할 수 있는 옵션을 선택하면 AI에 대한 전문 지식 없는 비즈니스 사용자와 주제 전문가도 데이터 엔지니어의 도움 없이도 모델을 개발하고 개선할 수 있습니다. 플로리다 주립 대학교에서는 Document AI를 사용하여 PDF 및 서드 파티 소스에서 데이터를 효율적으로 추출하여 데이터 감사를 간소화하고 몇 주가 소요되는 수작업을 없애고 있습니다.
Snowflake Horizon Catalog를 통한 계정 및 데이터 자산 보호와 이해 향상
Snowflake의 가장 큰 이점 중에는 Horizon Catalog에 포함된 산업 최고의 내장형 규정 준수, 보안, 개인정보 보호, 검색 및 협업 기능이 있습니다. 이는 계정, 사용자 및 데이터 자산의 개인정보를 보호하고 보존하는 데 도움이 됩니다. Snowflake는 잠재적 위협에 대처할 수 있도록 고객의 플랫폼을 지속적으로 개선하고 있습니다.
강화된 보안 기능과 Trust Center 혁신을 통해 위협을 미연에 방지
Snowflake는 암호 전용 로그인 제거를 위한 또 다른 핵심 조치로서 모든 Snowflake 계정에서 새롭게 생성된 모든 인간 사용자에게 기본적으로 멀티 팩터 인증(MFA)을 적용하고 있습니다. 또한, 다크웹에서 발견된 사용자 비밀번호를 자동으로 확인하고 비활성화하는Leaked Password Protection(GA 예정)을 지원하고 있습니다. 이는 유출된 비밀번호에 대한 내장형 보호 기능을 제공하고 데이터 유출 가능성을 제한하는 데 도움이 됩니다. 침해된 사용자는 계정 관리자에게 문의하여 비밀번호를 초기화할 수 있습니다.
API 인증을 위해 Snowflake는 개발자 친화적이고 다용도적인 Programmatic Access Tokens(PrPr 예정)을 지원하여 애플리케이션 액세스에 대한 개발자 경험을 단순화하는 동시에 해당 토큰의 범위와 만료 기간을 포함하여 보안을 강화합니다. 또한 새로운 Outbound Private Link Connectivity(외부 액세스는 AWS 및 Azure에서 GA 중이며, 외부 스테이지는 Azure에서 PuPr로 제공 중, AWS에서는 PuPr 예정임. 외부 함수는Azure에서 GA 중임)은 클라우드 서비스 공급자를 위한 외부 서비스에 연결되며 CSP 네트워크 내에서 항상 데이터 트래픽을 유지하고 공용 인터넷을 거치지 않아 데이터 노출 및 사이버 위협의 위험을 최소화합니다.
Snowflake 계정의 보안 태세를 평가하고 모니터링하는 데 도움이 되는 인터페이스인 Trust Center의 개선 사항에는 새로운 Threat Intelligence Scanner Package(GA)가 포함되어 있으며, 인간이든 서비스든 어떤 사용자가 위험을 초래하는지 탐지하고 이러한 취약성을 해결하는 방법을 명확하게 제공합니다. 앞으로는 Trust Center Extensibility(PrPr 예정)를 통해 고객이 Snowflake 마켓플레이스에서 Snowflake Native App으로 제공되는 파트너의 사용자 지정 스캐너 패키지를 Trust Center에 추가할 수 있습니다.
민감 데이터를 쉽게 추적 및 처리하여 더 나은 데이터 거버넌스 구현
Lineage Visualization Interface(PuPr)를 통해 고객은 Snowsight의 인터랙티브 인터페이스로 데이터와 ML 자산의 흐름을 쉽게 추적할 수 있습니다. 이를 통해 고객은 업스트림에서 발생한 변경 사항이 다운스트림의 객체에 어떠한 영향을 주는지 쉽게 확인할 수 있습니다. 또한 관리자는 대량 작업을 수행하여 다운스트림 열을 보호하기 위해 태그와 정책을 전파할 수 있습니다. ML 자산의 경우 고객은 데이터에서 인사이트까지 엔드투엔드 특성 및 모델 계보를 추적하여 복제 가능성, 강화된 규정 준수, 단순화된 관측성을 확보할 수 있습니다.
사용자는 모든 스키마에서 민감 데이터의 Classification, 태그 지정 및 마스킹을 손쉽게 자동화할 수 있습니다. Sensitive Data Auto- Classification(PuPr 예정)은 바로 사용 가능한 분류기 또는 SQL을 사용자 지정한 분류기를 통해 만들어집니다.
민감 데이터는 엄청난 가치를 가질 수 있지만, 개인정보 보호 요건으로 인해 종속되는 경우가 많습니다. 데이터 협업을 위해 더 많은 사람들에게 액세스를 허용하여 분석할 수 있는 민감 데이터의 너비와 깊이를 확대할 수 있다면 어떨까요? Snowflake는 민감 데이터의 식별 또는 재설계 위험을 줄이기 위한 Diferential Privacy Policies(GA)와 테스트 및 분석을 위해 원본 프로덕션 데이터를 사용하여 긴밀한 복제본을 생성하는 연합 데이터 생성(PuPr)을 통해 이를 가능하게 합니다.
조직 전반의 Access History(PuPr 예정)에 대한 새로운 뷰는 동일한 조직 내의 계정 간에 민감한 데이터를 공유하는 데이터 관리자에게 누가 어떤 민감한 데이터에 액세스했는지에 대한 중앙 집중식 기록을 제공하여 감사 보고서를 더 간편하게 생성할 수 있도록 지원하고 규제 요건 준수를 입증하는 데 필요한 세분화된 가시성을 제공합니다. 데이터 담당자는 액세스 요청(PrPr) 설정을 통해 객체에 대한 새로운 가시성 속성을 연락처 상세 정보와 함께 설정함으로써 액세스 권한 부여 대상에게 쉽게 연락할 수 있습니다.
개방형 레이크하우스에서 데이터 엔지니어링 및 데이터 거버넌스 간소화
수집 및 통합에서 변환 및 보안에 이르기까지 데이터 레이크를 관리하는 프로세스는 번거롭고 비용이 많이 들 수 있습니다. 레이크하우스 아키텍처를 갖춘 조직을 위해 Snowflake는 선도적인 오픈 소스 테이블 형식인 Apache Iceberg™으로 파이프라인을 구축하고 데이터 레이크하우스를 보호하는 경험을 간소화하는 기능을 개발했습니다.
Apache Iceberg용 브론즈 및 실버 파이프라인 간소화
Snowflake의 모든 단계에서 Iceberg 테이블을 더 쉽게 사용할 수 있도록 지원하고 있습니다.
데이터 수집을 위해서는 Snowpipe Streaming을 사용하여 SDK(GA) 또는 푸시 기반 Kafka Connector(PuPr)를 통해 Iceberg 테이블로 스트리밍 데이터를 비용 효율적으로 로드할 수 있습니다. 기존 데이터 레이크에 Iceberg를 추가하는 배치 및 마이크로 배치 사용 사례의 경우에는 파일을 다시 작성하지 않고도 Iceberg 테이블에 Apache Parquet 파일을 추가하는 새로운 로드 방식인 COPY and Snowpipe(GA)를 도입하고 있습니다. PrPr 단계에서 Parquet Direct로 알려졌던 이 COPY and Snowpipe 의 새로운 파라미터는 전환 비용을 절감하면서 레거시 데이터 레이크의 성능을 개선하는 데 도움이 됩니다. Snowflake의 Delta Lake Direct(PuPr)를 사용하면 Universal Format(UniForm)의 요구 사항 없이도 Delta Lake 테이블을 ‘브론즈' 및 ‘실버' 파이프라인을 위한 Iceberg 테이블로 액세스할 수 있습니다. 조만간 Delta Lake Direct에서 자동 새로 고침 및 Iceberg 메타데이터 생성에 대한 지원이 출시됩니다.
Iceberg 생태계에는 변경 데이터 캡처(CDC) 파이프라인을 지원하는 다른 도구가 있지만, 신선도 요구 사항을 충족하기 위해 오케스트레이션 복잡성이 필요합니다. Snowflake의 Dynamic Apache Iceberg Table(금주 GA 예정)은 선언적 접근 방식을 통해 Iceberg를 위한 CDC 파이프라인을 크게 단순화합니다. 원하는 결과의 쿼리를 작성하고, 지연 시간을 지정하고, 나머지는 Snowflake가 처리하도록 맡깁니다. 조만간 PrPr을 통해, 외부 카탈로그의 Iceberg 테이블을 Dynamic Iceberg 테이블의 소스로 사용할 수 있게 됩니다. Snowpark Python은 Iceberg 테이블의 읽기 및 쓰기를 지원하지만, 이제는 Snowpark Python(GA)으로 Iceberg 테이블을 생성할 수도 있습니다. 마지막으로 스토리지를 복제하지 않고도 Iceberg 테이블을 복제(PuPr)할 수 있어, 테스트와 개발 중에도 Iceberg 테이블을 안전하고 비용 효율적으로 실험할 수 있습니다.
Microsoft Fabric OneLake(PuPr)를 스토리지 위치로 작성하는 것을 지원하는 등 다양한 도구를 통해 Snowflake와 Iceberg 테이블을 데이터 레이크하우스에 통합할 수 있습니다. 이 단계별 Quickstart 가이드를 사용하여 공동 고객이 단일 데이터 복사본에서 두 플랫폼을 활용하여 스토리지 및 파이프라인 비용을 어떻게 절감할 수 있는지 알아봅니다. 또한, Snowflake를 사용하면 모든 Iceberg REST 카탈로그(GA) 또는 외부 관리형 Iceberg 테이블 병합 읽기(PrPr)에서 Iceberg 테이블을 쉽게 쿼리할 수 있습니다. 테이블의 최신 버전을 쿼리하고 있는지 확인하기 위해 SQL의 Iceberg 테이블 및 Catalog Integration 정의에 자동 새로 고침 설정(GA 예정)을 추가할 수 있습니다.
Apache Polaris용 Snowflake 관리형 서비스인 Snowflake Open Catalog를 통해 쉽고 안전한 협업 구현
2024년 7월, Snowflake는 불필요한 데이터 사본이나 이동 없이 여러 엔진에 걸쳐 단일 데이터 사본의 상호운용성을 제공하는 Apache Iceberg catalog(현재는 Apache Polaris™으로 알려짐. 인큐베이션 단계)를 공개했습니다. 이제 Apache Polaris를 위한 완전 관리형 서비스인 Snowflake Open Catalog의 GA 버전을 사용할 수 있게 되었습니다. 이 서비스는 공급업체 종속이 없고, 엔진 유연성 및 엔진 간 보안을 갖춘 Polaris의 모든 이점을 제공합니다. 또한, 신뢰성, 보안, 확장성 및 지원을 제공하기 때문에 쉽게 시작하고 안전하게 사용할 수 있습니다. 조직 내 팀은 이제 Apache Flink™, Apache Spark™, Presto 및 Trino와 같은 다양한 엔진(읽기 및 쓰기)에 대한 일관된 액세스 제어를 통해 데이터 레이크에서 안전하게 협업할 수 있습니다.
협업 및 비즈니스 연속성을 추가적으로 지원하기 위해 Snowflake는 복제(비공개) 및 크로스 클라우드 자동 풀필먼트(PrPr)와 같은 기능에 Iceberg 지원도 도입했습니다. 장애 조치 그룹에 상위 데이터베이스 및 외부 볼륨을 추가함으로써 자체 오브젝트 스토리지로 소스에서 대상 계정으로 Snowflake 관리형 Iceberg 테이블을 복제할 수 있습니다. 또한, 여러 리전에서 사용 가능한 Snowflake 관리형 Iceberg 테이블을 포함한 목록을 구성하기만 하면 고객은 이러한 테이블을 다른 클라우드 및 리전의 소비자와 공유할 수 있습니다.
자세히 알아보기
데이터 아키텍처는 생산성 저하뿐만 아니라 보안 및 거버넌스를 위협하는 포인트 솔루션의 ‘미로’가 될 필요가 없습니다. Snowflake 통합 플랫폼을 개선하여 복잡성을 더욱 단순화하는 동시에 고객의 필요에 가장 적합한 아키텍처를 구축할 수 있도록 유연성을 제공하는 것을 목표로 합니다.
Snowflake 공지사항과 조직이 조건에 맞게 데이터를 사용할 수 있도록 Snowflake가 어떻게 지원하는지 자세히 알아보려면 BUILD 2024 기조연설이나 새로운 기능 세션을 놓치지 마세요.