이제 공개 미리 보기 상태의 Snowpark를 통해 비정형 데이터가 Snowflake에서 공식 출시됩니다.
참고: 이 내용은 2022. 4. 14에 게시된 컨텐츠(Unstructured Data Now Generally Available in Snowflake, Processing with Snowpark in Public Preview)에서 번역되었습니다.
Snowflake에서 비정형 데이터 관리 기능의 공식 출시를 발표하게 되어 기쁩니다. 저희는 2021년 9월에 이 기능의 공개 미리 보기를 시작했으며 그 후 다양한 사용 사례에 있어 여러 업계에서 고객들이 이를 빠르게 채택하는 것을 확인했습니다. 이러한 사용 사례에는 콜센터 기록 저장 및 보안, Snowflake 데이터 마켓플레이스에서 PDF문서를 안전하게 공유하기, 의료 이미지 저장 및 데이터 추출 등이 포함됩니다.
비정형 데이터에 대한 파트너 생태계는 계속해서 성장하고 있습니다. Snowflake에서는 Clarifai, Imira, Labelbox, Symantic Health, Veriton과 같은 Ml 파트너가 있어 고객이 비정형 데이터에서 귀중한 통찰력을 얻을 수 있도록 돕고 있습니다. Hammerspace와 같이 추가 데이터 관리 기능을 제공해 줄 수 있는 파트너도 있습니다.
비정형 데이터를 위한 Snowpark 공개 미리 보기
현재 공개 미리 보기에서는 여러 유형의 데이터를 저장하고 관리할 수 있는 단일 중앙 저장소를 원하시는 고객분들을 위해 비정형 데이터를 Snowflake에 저장하고 관리하는 기능뿐 아니라 외부 함수를 통해 외부에서 처리하거나 Snowpark와 자바를 사용하여 자체적으로 처리하는 기능도 제공하고 있습니다.
Snowpark는 (미리 보기 제공 중인) Scala, Java, Python을 네이티브로 지원하는 Snowflake의 새로운 개발자 프레임워크로 별도의 처리 엔진이 필요하지 않습니다. 단일 플랫폼에서 한 팀이 동일한 데이터에서 협업할 수 있도록 지원하여 사용자는 아키텍처를 간소화하고 다양한 새로운 사례를 지원할 수 있습니다.
“우리는 방대한 양의 첨부 파일이 있는 이메일 데이터에 텍스트 분석을 적용하는 프로젝트를 진행하고 있습니다. 데이터베이스에 이메일 본문과 첨부 파일을 바이너리로 별도 저장하던 중에 문제가 발생했습니다. 첨부 파일은 스토리지의 칼럼 제한을 초과할 수 있고, 원본 메일에 다시 엑세스하려면 디스크에 저장해야 합니다. Snowflake의 비정형 데이터 지원을 통해 모든 데이터와 프로세싱을 한 곳에 저장하고 다양한 사용 사례에서 머신 러닝을 위한 풍부한 데이터세트를 구축할 수 있습니다. Snowflake의 관리 단계에서 이메일 파일을 원본 형식으로 저장하고 Java UDF와 함께 Snowflake 엔진을 사용하여 처리할 수 있게 되었습니다.”
— 선두 소프트웨어 기업 데이터 과학 부사장, Eranga
Snowpark를 사용한 비정형 데이터 처리
사용자는 스트림 및 테스크와 디렉터리 테이블을 사용하여 비정형 데이터를 처리할 수 있도록 연속 데이터 파이프라인을 구축할 수 있습니다. 파일의 실제 처리는 Java 함수와 Snowpark를 사용하여 Snowflake 컴퓨팅을 통해 수행할 수 있습니다.
데이터 엔지니어, 데이터 과학자 및 개발자는 Java 사용자 정의 함수를 생성하여 다음을 수행할 수 있습니다.
- 문서에서 텍스트 추출.
- 이메일 처리, 메타데이터 추출, 첨부 파일 추출.
- 의료 이미지를 처리하여 저장된 환자 정보 추출.
의료 서비스 공급자가 PDF나 이미지 형식으로 저장된 의사 기록을 가지고 있고 이러한 파일에서 구조화된 테이블로 필드를 추출해야 하는 경우, 의료 서비스 공급자는 Snowflake 내에서 PDF또는 이미지 파일에서 데이터를 추출하는 Java 함수를 생성할 수 있으며, 이는 SQL 쿼리나 파이프라인에서 호출하여 Snowflake의 엔진에서 지속적으로 처리할 수 있습니다.
이러한 아키텍처의 예시는 다음과 같습니다.