モダンデータは動的です。データの使用目的がアナリティクスであれ、AIであれ、その他のビジネスユースケースであれ、組織のデータエコシステムの中を移動するうちにデータは発展して変化していきます。データリネージはこうした変更を追跡し、データの発生元およびライフサイクル内の動きをドキュメント化します。本稿では、データリネージとは何か、他の関連プロセスと何が違うのかについて説明します。さらに、組織がデータフローをドキュメント化し、業界および政府の規制を順守し、アナリティクスとレポートでのデータの有用性を上げるうえで、データリネージがどのように役立つかも詳しく解説します。
データリネージとは
データリネージとは、データライフサイクルをドキュメント化するプロセスです。一連のプラクティスを通じて、データの発生源や、データがシステムやプロセスの間を移動するにつれてどのように変化し、集約・操作されるのかについて、組織に明確な可視性を提供します。
データリネージにより、企業は自社が活用しているデータが高い品質、精度、一貫性を保っていることを確認できます。データリネージの追跡には、専用のツールを使用します。たとえば、Snowflakeのお客様であれば、HorizonというSnowflakeのビルトインガバナンスソリューションを使用できます。
データガバナンスやデータプロビナンスとデータリネージの違い
データリネージ、データガバナンス、データプロビナンスはそれぞれ、ビジネスデータがアナリティクスや機械学習などのアプリケーションで有用であり続けるために重要な役割を果たします。これらのコンセプトは密接に関連していますが、組織のデータ管理およびガバナンス戦略においてそれぞれ独立した目的で使用されます。
データガバナンスはより包括的で、その下にデータリネージとデータプロビナンスが収まります。データガバナンスには、データのセキュリティ、精度、可用性を確保するための一連のプラクティスが含まれます。
データプロビナンスは、データの作成者、データの作成日時、データに対する変更内容などの重要な詳細情報を収集します。データプロビナンスの主な目的は、データの履歴記録のドキュメント化です。
データリネージの目的は、データパイプラインでのデータの発生元、変遷、移動について記録することです。これにより、組織はデータフローと依存関係について把握できます。
データリネージが重要である理由
データリネージはデータガバナンスに欠かせないものであり、組織がデータフローを真に理解するために必要な可視性とドキュメントを提供します。このプロセスから重要な背景情報が供給されるため、信頼性の高いデータパイプラインの構築と維持の基盤となります。
データ品質の保証
現代の組織は多様なソースから収集したデータを頼りに戦略的目標を推進します。データリネージの実践により、企業はこのデータの信頼性を確認できます。これは、データ品質に問題がある場合、トラブルシューティングのためにデータを発生源まで遡って追跡する必要があるためです。データリネージの記録を通じて、何が問題だったのか、その理由は何かを特定できるようになります。
技術的負債の軽減
データガバナンスに関しては、楽な道を選ぶと、後で問題が生じたときに適切に対応するための時間とコストが膨らみがちです。データリネージの実践によって、データの発生源、変更の方法と日時、最終的な宛先などの必須情報がドキュメント化されるため、技術的負債が軽減されます。
データの経時的変更の追跡
データは静的なリソースではありません。使用する中で変更され、修正されます。データリネージツールは、データが組織のデータパイプラインを進む過程で発生するこうした変更を追跡し、データ移動に関する詳細情報を収集します。データリネージの実践により、組織はデータセットとトランスフォーメーションの間の関係を把握し、データ要素、プロセス、システム間の依存関係を分析できます。
データ移行の簡素化
データリネージは、データの移動と依存関係について詳細な見取り図を示し、データ移行に情報を提供します。たとえば、データをオンプレミスサーバーからクラウドへ、またはクラウド間で移行する場合、データソースの場所とライフサイクルについて理解することで、移行中にミスが発生する可能性が下がり、新しい環境でデータを確実に使用できるようになります。
規制コンプライアンスの向上
データリネージをエンドツーエンドで見渡せれば、データ内の問題や不一致を見つけるのは簡単です。このような可視性の向上によりセキュリティとコンプライアンスのリスクが低減し、組織は機密データが内部ポリシーと規制規格に従って保存され処理されていることを検証できます。
SNOWFLAKE HORIZONによるデータリネージの追跡
SnowflakeのビルトインのガバナンスソリューションであるHorizonには、データクラウドにおけるコンプライアンス、セキュリティ、プライバシー、相互運用性、アクセスの機能が統合されています。
Snowflake Horizonを使用することで、組織は追加認証、データ品質モニタリング、リネージによりコンプライアンスを強化できます。Snowflakeの新しいデータリネージUIは現在プライベートプレビュー版ですが、オブジェクトのアップストリームとダウンストリームのリネージを俯瞰で確認していただけます。これにより、ダウンストリームオブジェクトがアップストリームでの修正によってどのような影響を受けるのかを容易に把握できます。
データリネージに加え、Horizonは必須のデータガバナンス機能も提供しており、追加の構成やプロトコルは不要です。高度なプライバシーポリシーとクロスクラウドのデータシェアリングにより、データやアプリなどを安全な発見してアクセスできます。認証、暗号化、リスクの継続的な監視と保護、ロールベースのアクセス制御、きめ細かい認証ポリシーなど、堅牢なプラットフォームセキュリティ機能とデータセキュリティ機能を提供します。