Maschinelles Lernen (ML) ist heute in vielen Branchen unverzichtbar und die sogenannten Feature Stores spielen eine wichtige Rolle bei der Anwendung von maschinellem Lernen. Dazu zählen die Erkennung von Finanzbetrug, die Bereitstellung relevanter Produktempfehlungen im E-Commerce oder die Unterstützung medizinischer Fachleute, damit sie Krankheiten effektiver verhindern und behandeln können. In diesem Artikel sehen wir uns genauer an, was ein Feature Store ist und wie er Sie dabei unterstützen kann, den gesamten Lebenszyklus von ML-Features besser zu managen – damit Sie ML-Pipelines in Rekordzeit bereitstellen können.
WAS IST EIN FEATURE STORE?
Ein Feature Store ist ein recht neues Datensystem, das im Bereich des maschinellen Lernens angewendet wird. Es dient als zentraler Hub, um häufig genutzte „Features“ zu speichern und zu verarbeiten sowie um auf diese zuzugreifen. So können diese Features ganz einfach in der Entwicklung künftiger ML-Modelle wiederverwendet werden. Feature Stores operationalisieren die Eingabe, Verfolgung und Governance von Daten im Rahmen des Feature Engineering für maschinelles Lernen.
Um genau zu verstehen, warum Feature Stores so wichtig sind, müssen Sie im Kern verstehen, wie ML-Modelle funktionieren. Diese Modelle nutzen sogenannte „Features“, eine messbare Sammlung von Daten, mit denen Modelle darin trainiert werden können, anhand vergangener Daten Prognosen über die Zukunft anzustellen. Um beispielsweise vorherzusagen, ob Kund:innen im nächsten Monat einen Kauf tätigen werden, können Variablen wie die Summe der Einkäufe des letzten Monats oder die Anzahl der Websitebesuche in der aktuellen Woche verwendet werden. Bei medizinischen Anwendungsfällen kommen hingegen Merkmale zum Einsatz, die Patient:innen beschreiben, darunter Alter, Gewicht, Tabakkonsum, die Häufigkeit ihrer körperlichen Betätigung oder auch aktuelle medizinische Diagnosen.
ML-Modelle müssen zunächst einmal trainiert werden: Hierbei werden sie mit riesigen Mengen historischer Daten gefüttert, in Form von vorgefertigten Beispielen und Features. So können ML-Modelle anhand von Erfahrungen, die sie mit ähnlichen Daten gemacht haben, genaue Vorhersagen für neue Beispiele treffen oder ableiten. Sobald ein Modell darin trainiert wurde, anhand von Betriebsdaten Prognosen anzustellen, müssen Unternehmen ihre Pipelines so einrichten, dass sie Rohdaten in die gleichen Features umwandeln, die auch während des Trainings verwendet wurden.
Alle Daten – sowohl Trainings- als auch Betriebsdaten – müssen ordnungsgemäß vorbereitet werden, damit sie über die Feature-Pipeline in das Modell eingegeben werden können. Feature-Pipelines ähneln Daten-Pipelines. Die ausgegebenen Daten von den Feature-Pipelines wurden aggregiert, validiert und in das richtige Format umgewandelt, bevor sie in das ML-Modell integriert werden.
WIE OPTIMIEREN FEATURE STORES DAS MASCHINELLE LERNEN?
Feature Stores dienen als zentrales Repository, in dem häufig genutzte Features gespeichert und verarbeitet werden, damit sie über verschiedene ML-Modelle und Teams hinweg einfach wiederverwendet und geteilt werden können. Die Stores können nicht nur Feature-Werte speichern und verwalten, sondern ermöglichen auch die Umwandlung von Rohdaten aus einem Cloud Data Warehouse, einem Cloud Data Lake oder einer Streaming-Applikation in Features. Und diese Features unterstützen das Training neuer ML-Modelle und die Bewertung neuer Daten, deren Ergebnisse in ML-gestützte Applikationen einfließen.
VORTEILE VON FEATURE STORES
Feature Stores bieten zahlreiche Vorteile. Im Folgenden erfahren Sie, wie sie Ihre ML-Initiativen verbessern können.
Wiederverwendung von Features
Wurden neue Features entwickelt, können sie im Feature Store gespeichert werden. So können sie ganz einfach von anderen ML-Modellen und Teams wiederverwendet werden. Die Entwicklung neuer Features kostet Data Scientists viel Zeit. Wenn sie stattdessen vorhandene Features umfunktionieren und erneut nutzen können, wird der Prozess deutlich effizienter. Mit einem gut ausgestatteten Feature Store lassen sich schnell neue ML-Modelle entwickeln, da Features nicht von Grund auf neu entwickelt werden müssen.
Einheitliche Features
Es ist wichtig zu verstehen, wie ein Feature entwickelt wurde, wie es berechnet wird und welche Informationen es darstellt. Doch einheitliche Definitionen und eine einheitliche Entwicklungsdokumentation sind keine leichte Aufgabe, insbesondere für größere Unternehmen. Ein zentraler Feature Store löst dieses Problem, indem er ein zentrales Repository sämtlicher ML-Features bereitstellt, auf das alle Teams im Unternehmen ganz einfach zugreifen können.
Optimale Modell-Performance
Liegen Unstimmigkeiten vor in Bezug darauf, wie Features für das Training definiert sind und wie sie zur Bedienung der Pipelines implementiert sind, kann das die Performance der Modelle in der Produktion beeinträchtigen. Und da sich Produktionsdaten mit der Zeit weiterentwickeln, müssen Unternehmen unbedingt das Dataset-Profil überwachen, um eine optimale Modell-Performance zu gewährleisten. Hierzu bieten Feature Stores zentrale Feature-Pipelines. Sie gewährleisten, dass die Feature-Definitionen und ihre Implementierung über Modelltraining und -inferenz hinweg übereinstimmen. Und sie umfassen auch die laufende Überwachung von Daten-Pipelines.
Verstärkte Sicherheit und Data Governance
Für die Fehlerbehebung und Weiterentwicklung von Modellen müssen Teams schnell erkennen können, mit welchen Daten diese Modelle trainiert und nach der Bereitstellung gespeist wurden. Ein Feature Store beinhaltet ausführliche Informationen für jedes ML-Modell, darunter auch welche Daten verwendet wurden und wann. Feature Stores, die sich in ein Cloud Data Warehouse integrieren lassen, profitieren von der verbesserten Datensicherheit, die diese Konfiguration mit sich bringt. So erhalten nicht nur die Modelle mehr Schutz, sondern auch die Daten, mit denen sie trainiert werden.
Bessere Zusammenarbeit zwischen Teams
Ein Feature Store bietet eine zentrale Plattform, mit der ML-Features entwickelt, gespeichert, angepasst und wiederverwendet werden können. Dieser Ansatz optimiert die teamübergreifende Zusammenarbeit, da Personen aus verschiedenen Data-Science-Teams Ideen teilen, Features entwickeln und ihren Fortschritt verfolgen können. So entstehen am Ende Features, die gleich für mehrere Geschäftsapplikationen nützlich sind.
SNOWFLAKE UNTERSTÜTZT ML-MODELLE UND -APPLIKATIONEN
Beim Snowflake Feature Store (in Preview) handelt es sich um eine integrierte Lösung, mit der Data Scientists und ML Engineers ML-Features für Modelltraining und -inferenz entwickeln, speichern, verwalten und bereitstellen können. Er umfasst Python-APIs, die über die ML-Bibliothek von Snowpark verfügbar sind, SQL-Oberflächen zum Definieren, Verwalten und Abrufen von Features sowie eine verwaltete Infrastruktur für die Verwaltung von Feature-Metadaten und zur kontinuierlichen Feature-Verarbeitung. Der Snowflake Feature Store gibt ML-Teams Zugriff auf eine stets aktuelle Single Source of Truth mit Features für Modelltraining und -inferenz.
Erfahren Sie mehr darüber, wie Sie Snowflake für KI/ML verwenden können.