「パフォーマンス上の理由からSnowparkに切り替えたいと思っていたのですが、プロセスは非常に簡単でした。これまで使用していたPySparkコードをSnowparkに変換する作業は、インポートステートメントの変更と同じくらいシンプルでした」
Homegenius
プリンシパルデータエンジニア
Snowflake内のガバナンスが確保されたデータのある場所で、Pythonなどのプログラミングコードを使用可能
メンテナンスやオーバーヘッドのない、伸縮性のあるスケーラビリティを実現
エンタープライズ級の一貫したガバナンス制御とセキュリティを確保
Sparkやスケーラブルなpandasでモデル化されたDataFrameを使用して、クエリの記述やデータ変換を行えます(パブリックプレビュー中)。
Snowflake MLのMLライフサイクル全体にわたって、モデルや特徴量の開発と運用のための統合されたAPIへのアクセスを可能にするPythonライブラリです。
ユーザー定義関数とストアドプロシージャを使用して、Python、Java、Scalaのカスタムコードを記述、実行できます。Anacondaリポジトリの組み込みパッケージをご活用ください。
Snowflakeマネージドのインフラストラクチャ内で、コンテナイメージを登録、展開、実行できます(パブリックプレビュー中)。
Pythonを使用して、未加工データをデータパイプライン用にモデル化されたフォーマットに変換する
Snowparkを使用しているお客様は、マネージドSparkと比較して平均で4.6倍のパフォーマンス高速化と35%のコスト削減を実現しています1。
Snowflake内のデータレイク、ウェアハウス、Icebergテーブルに接続されたデータを変換します。
Snowpark MLを使用して、エンドツーエンドのMLワークフローを構築、運用化する
scikit-learnやXGBoostなどのPythonフレームワークを使用して前処理、特徴量エンジニアリング、モデルトレーニングを行い、データを移動することなくSnowflake MLでモデルの展開と管理を行えるようになります。
任意のプログラミング言語によるMLモデル、生成AI、LLMの構築、コンテナイメージとしてのパッケージ化、構成可能なCPUやGPUへの展開を実現して、開発者に卓越した柔軟性をもたらします。
*2024年4月時点
「データの存在する場所で直接、特徴量エンジニアリングなどのデータサイエンスのタスクを実行できるようになり、多大なメリットを得ています。おかげで業務効率が大幅に向上し、業務をより楽しめるようになりました」
EDF
Data Science担当リード
1 2022年11月から2024年1月までの期間について、お客様の実稼働ユースケースと概念実証(PoC)の実践におけるSnowparkとマネージドSparkサービスの速度とコストを比較した結果に基づきます。調査結果はすべて、実データによる実際のお客様の結果を要約したものであり、ベンチマークに使用される作られたデータセットを表すものではありません。