KI-Modelle teilen und monetarisieren – sicher in der AI Data Cloud
Die Verbreitung generativer KI-Modelle veranlasst Unternehmen dazu, KI und Large Language Models (LLMs) in ihre Geschäftsstrategie zu integrieren. Schließlich eröffnen diese Modelle neue Möglichkeiten, einen größeren Nutzen aus den Daten und dem geistigen Eigentum eines Unternehmens zu ziehen und sie einem breiteren Publikum im gesamten Unternehmen zugänglich zu machen.
Ein Schlüssel zum erfolgreichen Einsatz von GenAI-Modellen ist die Fähigkeit, Daten zu teilen. Unternehmen mit wertvollen Daten, mit denen sich LLMs optimieren lassen, wollen diese monetarisieren und für die Optimierung nutzen können, ohne Zugriff auf die ursprünglichen Datenquellen zu gewähren. Sie wollen auch sicherstellen, dass ihnen alle Nutzung angemessen zugeordnet wird.
Leider geben viele der derzeit verfügbaren Lösungen Unternehmen nicht die Werkzeuge an die Hand, um Daten sicher zu teilen, während:
sichergestellt wird, dass die wertvollen Daten eines Unternehmens stets von diesem verwaltet und nicht anderen Parteien zur Verfügung gestellt werden, was zu einer unangemessenen oder möglicherweise böswilligen Verwendung führen kann
gewährleistet wird, dass es eine sichere Sandboxing-Möglichkeit für innerhalb des Unternehmens verwendete Drittanbietermodelle gibt
der Zugang zu Daten und Modellen sorgfältig überwacht wird
Bei Snowflake gehen wir diese Herausforderungen direkt an und erleichtern es Entwickler:innen, vertrauenswürdige KI mit Unternehmensdaten bereitzustellen.
Auf unserer kürzlich abgehaltenen Entwicklerkonferenz BUILD 2024 haben wir drei Funktionen vorgestellt, die Ihnen helfen, Ihre optimierten LLMs zu teilen, Datasets zum Trainieren Ihrer LLMs zu teilen und traditionelle KI-/ML-Modelle sicher und geschützt innerhalb und außerhalb Ihres Unternehmens in der AI Data Cloud gemeinsam zu nutzen. Einen Überblick über diese Funktionen haben wir in einem vorherigen Blogbeitrag bereitgestellt. Sehen wir uns nun genauer an, wie Sie sie in Ihren Projekten einsetzen können.
Snowflake Cortex AI optimierte LLMs von Meta und Mistral AI
Um grundlegende KI-Modelle vollständig zu nutzen, müssen Unternehmen sie an ihre spezifischen Domänen und Datasets anpassen und optimieren. Diese Aufgabe ist in der Regel mit zwei Mandaten verbunden: Zu keinem Zeitpunkt verlassen Daten ihren Speicherort und es werden keine hohen Investitionen in die Infrastruktur getätigt.
Snowflake bietet Unternehmen nun die Möglichkeit, führende Modelle von Meta und Mistral AI mithilfe von Daten innerhalb ihres eigenen Sicherheitsrahmens und ohne Verwaltung einer Infrastruktur zu optimieren. Und noch besser: Mit Snowflake Model Registry können Entwickler:innen ihre benutzerdefinierten LLMs ganz einfach kontrollieren und verwalten.
Mit Secure Model Sharing (derzeit in Public Preview) können Sie benutzerdefinierte Foundation-Modelle in drei Schritten optimieren und teilen:
Wählen Sie das Basismodell aus und stellen Sie Ihr Trainings-Dataset als Teil der FINETUNE-Funktion oder über die No-Code-Erfahrung in Snowflake AI & ML Studio bereit. Die optimierten Modelle können über die COMPLETE-Funktion genutzt werden.
Teilen Sie Ihre optimierten Modelle sicher mit anderen Snowflake-Konten in Ihrer Region.
Replizieren Sie Ihre optimierten Modelle über verschiedene Regionen innerhalb Ihres Unternehmens hinweg.
SNOWFLAKE.CORTEX.FINETUNE(
‘CREATE’
<model_name>,
<base_model>,
<training_data>,
<validation_data>
);
Das Potenzial von Cortex-LLMs nutzen mit Cortex Knowledge Extensions
Unternehmen wollen ihre Grundlagenmodelle einfach um domänenspezifische Informationen ergänzen, um relevantere Antworten zu erhalten. Traditionell kostet es viel Zeit und Mühe, die richtigen Datasets zu finden und zu beschaffen, und dann mehr Zeit und technisches Geschick, die Daten für den Verbrauch vorzubereiten und die LLMs zu optimieren. Snowflake hat bereits den ersten Teil dieses Prozesses – das Auffinden geeigneter Daten – mit Snowflake Marketplace optimiert. Snowflake Marketplace bietet eine zentrale Anlaufstelle, um schnell mehr als 2.900 Datasets, Apps und Datenprodukte zu finden, zu testen und zu kaufen (Stand: 31. Oktober 2024). Mit Cortex Knowledge Extensions (derzeit in Private Preview) vereinfachen wir nun die Aufbereitung und Umwandlung von Drittanbieterdaten.
Cortex Knowledge Extensions bieten Kund:innen eine „einfache Taste“, um das von ihnen gewählte Grundlagenmodell mit aktuellen Informationen in einem bestimmten Bereich zu ergänzen, ohne dass zusätzliche technische Kenntnisse zur Feinabstimmung und Analyse von Rohdaten eines Inhaltsanbieters erforderlich sind. Kunden können sich darauf verlassen, offiziell lizenzierte Inhalte zu verwenden.
Cortex Knowledge Extensions ermöglichen es GenAI-Anwendungen, Antworten aus unstrukturierten, lizenzierten Daten von Anbietern zu ziehen und ihnen eine angemessene Attribution zu geben sowie das ursprüngliche vollständige Dataset von der Exposition zu isolieren. Anbieter können so generative KI monetarisieren und daran teilhaben und gleichzeitig das Risiko minimieren, dass ihre Inhalte für Modelltrainingszwecke genutzt werden.
Um ihre Daten auf dem Snowflake Marketplace verfügbar zu machen, richtet der Content-Anbieter einen Cortex Search-Dienst für seine Daten ein und veröffentlicht diesen im Snowflake Marketplace. Nach der Veröffentlichung können Datennutzende das Angebot finden und die Daten im Snowflake Marketplace beziehen. Datennutzende können dann Cortex AI-APIs verwenden, um LLMs mit den erfassten Snowflake Marketplace-Daten abzufragen.
Herkömmliche KI/ML-Modelle in der AI Data Cloud teilen
Immer mehr Unternehmen entwickeln individuelle KI-/ML-Modelle für spezifische Aufgaben wie Abwanderungsprognosen oder Umsatzprognosen. Diese Modelle können innerhalb des Unternehmens von Data Scientists oder extern von Partnern entwickelt werden. Unternehmen können nun die Leistungsfähigkeit dieser Modelle nutzen und sie mit Partnern, Kunden und Nutzenden innerhalb des Unternehmens teilen – mit Snowflake Native Apps sowohl auf Internal Marketplace als auch im externen Snowflake Marketplace.
Mit Snowflake Secure Data Sharing können Unternehmen Endbenutzer:innen ML-Modelle sicher innerhalb einer fein abgestuften rollenbasierten Zugriffskontrolle auf ihre Daten ausführen lassen. Die Daten selbst verlassen nie die Sicherheitsgrenzen des Unternehmens. Durch das Verpacken der Modelle mit Snowflake Native Apps wird sichergestellt, dass sie die Sicherheitshaltung der Snowflake Native Apps erben, einschließlich Sicherheitsscanning, Sandboxing und Zugriff auf lokale oder externe Ressourcen aufgrund spezifischer Berechtigungen, die dem Modell gewährt wurden.
Die gemeinsame Nutzung eines Modells ist so einfach wie das Hinzufügen von Modellartefakten zu einem Anwendungspaket und die Gewährung anwendungsspezifischer Berechtigungen für die Nutzung durch Verbraucher:innen. Verbraucher:innen können die Applikation dann kostenlos installieren und Modellfunktionen aufrufen.
Mit Snowflake Collaboration und Data Sharing können Unternehmen ganz einfach KI-/ML-Modelle erstellen und teilen – sowohl klassische Modelle als auch optimierte LLMs – und ihre Vorteile mit dem Rest des Unternehmens teilen. Um mehr zu erfahren und einige dieser Funktionen auszuprobieren, sehen Sie sich diese Ressourcen an:
Quickstart Kollaboration in Snowflake
2024 „Was gibt es Neues: On-Demand-Session zu Snowflake Horizon Catalog und Internal Marketplace