Die zentrale Plattform von Snowflake verbessert Performance, erweitert Geschäftskritikalität und Analytik und unterstützt mehr Datentypen
Die Welt durchlebt einen bemerkenswerten Wandel, der durch Daten vorangetrieben wird. Unternehmen haben aufgrund technologischer Einschränkungen innerhalb ihrer Dateninfrastruktur Silos geschaffen, damit verschiedene Workloads, Sprachen, Tools und Formate unterstützt werden können. Diese Silos können weitreichende Konsequenzen mit sich ziehen, etwa in Form von größeren betrieblichen Belastungen, Sicherheitsschwachstellen, höheren Gesamtbetriebskosten, unvollständigen Erkenntnissen und geringerer Agilität.
Hier kommt die einheitliche Plattform von Snowflake ins Spiel: Sie hilft, Silos aufzulösen und Architekturen zu vereinfachen. Beim Summit 2023 haben wir eine Reihe neuer Entwicklungen für die Plattform angekündigt, mit deren Hilfe unsere Kund:innen diese Silos auflösen können: verbesserte Performance, bessere Übersicht und Kontrolle über Ausgaben, optimierte Governance, umfangreichere Analytik, erweiterte Funktionen für Geschäftskontinuität, Innovationen rund um Apache Iceberg, die Möglichkeit, mit großen Sprachmodellen (Large Language Models, LLMs) Mehrwert aus unstrukturierten Daten zu gewinnen und die Bereitstellung ML-gestützter Funktionen für mehr Analyst:innen. In diesem Blogbeitrag geben wir einen kurzen Überblick über diese neuen Funktionen.
Kontinuierliche Verbesserung der Performance für unsere Kund:innen
Kund:innen an erste Stelle zu stellen, genießt bei Snowflake höchste Priorität. Wir konzentrieren uns darauf, mit nahezu jedem Produkt-Release kontinuierlich Innovationen für mehr Performance und Effizienz hervorzubringen. Viele dieser Plattformverbesserungen werden für unsere Kund:innen automatisch ausgerollt, sodass sie selbst nichts tun müssen.
Deshalb führen wir den neuen Snowflake Performance Index (SPI) ein, einen aggregierten Index zur Messung realer Verbesserungen der Snowflake Performance, die Kund:innen im Laufe der Zeit festgestellt haben. Zwischen dem 25. August 2022, als wir anfingen, den SPI zu tracken, und dem 30. April 2023 hat sich die Abfragedauer für stabile Workloads unserer Kund:innen in Snowflake um 15 Prozent verbessert.* Das ist nur eins der vielen Beispiele dafür, wie Snowflake seinen Kund:innen hilft, noch mehr aus der Plattform herauszuholen.
Search Optimization (SO) Service beschleunigt die Abfrage-Performance, indem es schnell die Nadel im Heuhaufen findet und eine kleine Anzahl von Zeilen aus großen Tabellen bereitstellt. Wir haben SO für mehr Datentypen geöffnet, darunter VARIANT, ARRAY, OBJECT und GEOGRAPHY, und machen diesen Service für mehr Anwendungsfälle allgemein verfügbar, darunter das Beschleunigen von Teilstring-Suchen in Textspalten und das Arbeiten mit anderen Performance-Funktionen wie Query Acceleration Service.
TOP-K-Analysen mit niedriger Latenz ermöglichen es Kund:innen, nur die relevantesten Antworten aus einem großen Ergebnissatz abzurufen und sie nach Priorität anzeigen zu lassen. Weitere Bereinigungsfunktionen, jetzt GA, sorgen dafür, dass seltener ganze Datasets durchsucht werden müssen, wodurch schnellere Suchen ermöglicht werden.
Damit Kund:innen einfacher die Struktur teurer Abfragen analysieren und Performance-Probleme verursachende Operatoren identifizieren können, werden wir demnächst Programmatic Access to Query Profile in GA bereitstellen.
Erfahren Sie mehr über die kontinuierlichen Performance-Verbesserungen, die wir an der Plattform vornehmen.
Bessere Übersicht und Kontrolle über Snowflake-Ausgaben
Wir haben drei neue Funktionen angekündigt, die Nutzer:innen helfen, eine bessere Übersicht und Kontrolle über ihre Snowflake-Ausgaben zu gewinnen und gleichzeitig ihre bestehenden Ressourcen zu maximieren und Kosten besser vorherzusehen.
Zunächst einmal liefert unsere neue Funktion zur Warehouse-Nutzung (in Private Preview) Kund:innen eine einzige Kennzahl, mit der sie Kapazitäten besser einschätzen, Warehouses angemessen dimensionieren und ihre Warehouse-Ausgaben optimieren können.
Die neue Funktion von Snowflake zur Zuordnung von Kosten pro Abfrage (demnächst in Private Preview) gibt Nutzer:innen die Möglichkeit, Warehouse-Ausgaben unterschiedlichen Abfragen zuzuordnen. Wenn etwa ein zentrales Team Snowflake für mehrere Abteilungen nutzt, die individuell abgerechnet werden (z. B. Personalbereich, Finanzen und IT), dann kann dieses zentrale Team nun sehen, wie viel Snowflake-Guthaben jede Abteilung nutzt. Das hilft in Fällen, bei denen zentralisierte Abteilungen unterschiedlichen Teams aufgrund des tatsächlich auf Snowflake verbrauchten Guthabens einen Teilbetrag zurückbuchen müssen.
Wir haben außerdem angekündigt, dass Budgets demnächst in Public Preview erscheinen, um Nutzer:innen noch mehr Kontrolle zu geben. Ein Budget definiert ein für ein bestimmtes Zeitintervall vorgesehenes Ausgabenlimit für Rechenressourcen für eine Gruppe von Snowflake-Objekten. Budgets helfen Kund:innen dabei, die Warehouse- und serverlose Nutzung zu überwachen, etwa die Nutzung von automatischen Clustern, materialisierten Darstellungen, Suchoptimierung und mehr. Wenn das Ausgabenlimit voraussichtlich überschritten wird, wird eine tägliche Erinnerungs-E-Mail verschickt.
Unterstützung der Geschäftskritikalität durch verbesserte native Data Governance, neue Snowflake UIs, einen wachsenden Compliance Footprint und aktualisierte cloudübergreifende Geschäftskontinuität
Wir bei Snowflake legen großen Wert darauf, Kund:innen, die ihre Daten unserer Plattform anvertrauen, die bestmöglichen nativen Data-Governance-Funktionen zur Verfügung zu stellen. Diese Kund:innen sitzen in den verschiedensten Ländern der Welt, weshalb wir die Klassifizierungsfunktionen so erweitert haben, dass sie auch Daten aus dem Vereinigten Königreich, Australien und Kanada unterstützen (in Private Preview).
Darüber hinaus können Kund:innen nun dank einer besseren Nutzungserfahrung einfacher sensible und personenbezogene Daten verwalten. Die Classification UI (in Private Preview) bietet Kund:innen in Snowsight einen intuitiven Workflow, mit dem sie Tabellen im gewünschten Schema klassifizieren und kennzeichnen können. Gleichzeitig bietet die Data Governance UI (demnächst in GA) eine übersichtliche Zusammenfassung gekennzeichneter und geschützter Assets in Snowsight und Workflows zum Ergreifen von Maßnahmen.
Wir erweitern unsere Data-Governance-Funktionen um native Datenqualitätskontrolle (demnächst in Private Preview) durch sofort nutzbare Kennzahlen zu Aktualität, Volumen und Genauigkeit von Daten und allgemeine Statistiken, wobei auch eigene Kennzahlen definiert werden können. Snowflake stellt diese Bausteine zur Kontrolle der Datenqualität so bereit, dass unsere Partner sie zusätzlich anpassen und erweitern können.
Neben den Innovationen für native Data Governance arbeiten wir außerdem kontinuierlich daran, unseren Compliance Footprint zu vergrößern. Besonders hervorzuheben ist hier, dass Snowflake die Government & Education Data Cloud Anfang Juni als neues Branchenangebot eingeführt und die Autorisierung für StateRAMP High auf der AWS GovCloud erhalten hat. Um Agenturen auf Bundes-, Landes- und regionaler Ebene dabei zu unterstützen, Sicherheits- und Compliance-Standards einzuhalten, unterstützt Snowflake nun regulierte Workloads wie die Criminal Justice Information Services (CJIS).
Snowgrid ist eine einzigartige cloudübergreifende Technologie-Ebene, die das Ökosystem Ihres Unternehmens über Regionen und Clouds hinweg verknüpft, damit Sie auf globaler Ebene agieren können. Snowgrid stellt die Grundlage für die cloudübergreifenden Funktionen für Geschäftskontinuität von Snowflake dar, und wir freuen uns, bekannt geben zu können, dass Account Replication ab sofort allgemein verfügbar ist. Diese Funktion erweitert die Replikation über Datenbanken hinaus auf Konto-Metadaten und -Integrationen und sorgt so für eine schlüsselfertige Geschäftskontinuität. Nutzer:innen von Snowflake können nun ihre Konto- und Clientverbindungen mithilfe von Client Redirect in Sekundenschnelle und in praktisch jedem beliebigen Umfang wiederherstellen.
Um die Nutzererfahrung im Hinblick auf eine cloudübergreifende Geschäftskontinuität zu vereinfachen und zu optimieren, können Kund:innen Account Replication über eine intuitive UI einrichten, konfigurieren und überwachen (demnächst in Public Preview). Die UI ermöglicht es ihnen, Replikationsquellen und -ziele sowie zu replizierende Objekte und Timings zu verwalten.
Mit der bald in Public Preview verfügbaren Replikation von Stages, Snowpipe, COPY (Erfassung) und Verzeichnistabellen werden Kund:innen in der Lage sein, ganze ETL-Pipelines zu replizieren (demnächst in Public Preview), wodurch sie besser gewappnet sind, wenn Snowflake in einer Region nicht mehr verfügbar sein sollte. Kund:innen können damit ihre Pipelines ausfallsicher gestalten und Snowflake idempotente Lasten garantieren.
Nutzer:innen von Snowflake können nun außerdem Streams und Tasks in GA replizieren. Diese werden häufig zusammen genutzt, um moderne Daten-Pipelines zu schaffen. Tausende Kund:innen von Snowflake entwickeln tagtäglich leistungsstarke Pipelines zur Datentransformation. Dank replizierbarer Streams und Tasks werden Ihre Daten-Pipelines nun auch nahtlos bei Ihren sekundären Snowflake-Konten funktionieren.
Umfangreichere Analytik dank neuer GEOMETRY-Unterstützung, neuen Finanzdienstleistungsfunktionen und schnellen SQL-Funktionen
Wir bei Snowflake legen Wert auf Komfort, Flexibilität und Effizienz, was durch unsere fortschrittliche Analytik zum Ausdruck gebracht wird.
Im Zuge unserer Bemühungen, die führende Plattform für Geodaten zu werden, haben wir beträchtliche Investitionen getätigt. Unabhängig davon, ob Ihre Standort-Daten in einer sphärischen (Geographie) oder flachen Oberfläche (Geometrie) oder einem ungültigen Formformat gespeichert sind: all diese Arten von Vektor-Geodaten können nun in GA verarbeitet werden. Außerdem verkünden wir die Public Preview von Transformationen zwischen räumlichen Bezugssystemen für Geometrie-Objekte, was Projektionen von einem Mapping-System in ein anderes ermöglicht.
Darüber hinaus verbessern wir kontinuierlich unsere SQL-Möglichkeiten, um durch neue Funktionen eine noch effizientere Codierung zu erreichen, Zeit zu sparen und für mehr Genauigkeit zu sorgen. Wir haben mehrere SQL-Verbesserungen (in GA) vorgenommen, einschließlich SELECT*, MIN_BY / MAX_BY, GROUP BY ALL und Banker’s Rounding. Insbesondere die Banker‘s Rounding-Funktion hilft dabei, Fehler in der Finanzanalyse zu minimieren, und erfüllt somit die spezifischen Anforderungen von Banker:innen und Finanzexpert:innen.
Aktualisierter Support für Apache Iceberg – mehr Einfachheit und bessere Performance
Apache Iceberg wird immer beliebter und entwickelt sich zunehmend zum Branchenstandard für offene Tabellenformate. Aufgrund seines führenden Ökosystems aus diversen Anwendenden, Mitwirkenden und kommerziellen Angeboten ermöglicht es Iceberg, nicht an einen Speicheranbieter gebunden zu sein und macht das Verschieben oder Kopieren von Tabellen zwischen verschiedenen Systemen überflüssig. Das schlägt sich oft in niedrigeren Rechenressourcen- und Speicherkosten für den gesamten Data Stack nieder.
Wir haben beim Summit 2023 angekündigt, dass wir External Tables für Iceberg und Native Iceberg Tables in einem Tabellentyp vereinen: dem Iceberg Table (demnächst in Private Preview). Kund:innen profitieren nun von der Einfachheit eines einzigen Iceberg-Tabellentyps, verfügen jetzt aber zusätzlich über Optionen zur Katalogimplementierung und müssen mit deutlich weniger Performance-Einbußen rechnen. Verwaltete Iceberg Tables ermöglichen vollständigen Lese-/Schreibzugriff von Snowflake und nutzen Snowflake als den Katalog, von dem externe Engines mühelos lesen können. Nicht verwaltete Iceberg Tables lassen sich mit Snowflake verbinden, sodass Iceberg Tables von einem externen Katalog gelesen werden können. Wir fügen außerdem eine einfache und kostengünstige Möglichkeit hinzu, um einen nicht verwalteten Iceberg Table in einen verwalteten umzuwandeln, damit Kund:innen direkt damit arbeiten können, ohne ganze Tabellen neu schreiben zu müssen.
Zwar hängt die Abfrage-Performance von der Parquet-Effizienz ab, allerdings haben unsere Tests auch ergeben, dass die Performance für nicht verwaltete Iceberg Tables zweimal besser ist als für External Tables. Und die Performance für verwaltete Iceberg Tables kommt mit dem Tabellenformat von Snowflake sehr nah an interne Tabellen heran.
Integration von on-premise gespeicherten Daten
Trotz des anhaltenden Trends, Daten in der Cloud zu speichern, bevorzugen es viele Unternehmen, ihre Daten aus verschiedenen Gründen weiterhin on-premise oder in privaten Cloudumgebungen zu speichern. Einige Daten mögen für eine Migration in die Public Cloud ungeeignet sein oder sich derzeit im Migrationsprozess befinden, aber diese Unternehmen legen Wert darauf, all ihre Daten nahtlos von einem einzigen Ort aus verwalten zu können – unabhängig vom Speicherort. Die Konsolidierung von und der Zugriff auf Daten aus heterogenen Quellen ist für ganzheitliche Dateneinblicke und Data Governance von entscheidender Bedeutung.
External Tables und Stages für die Speicherung on-premise, die demnächst allgemein verfügbar sind, helfen beim Schließen dieser Lücke. Kund:innen können mit Snowflake Daten von s3-kompatiblen Speichergeräten nutzen und gleichzeitig von der einfachen Anwendbarkeit, Elastizität, einheitlichen Governance, Resilienz und Konnektivität der Snowflake-Plattform profitieren. Zu Anwendungsfällen könnte die Durchführung von Analysen auf Data Lakes mit External Tables, die vereinfachte Aufnahme von Dateien on-premise in Tabellen in der Cloud oder sogar die Nutzung von Snowpark Python, Java oder Scala zur Verarbeitung von extern gespeicherten Dateien gehören. Weitere Informationen, darunter eine Liste geeigneter Speicheranbieter und unsere öffentliche Test-Suite, finden Sie in der Produktdokumentation.
Einführung eines integrierten LLM mit Document AI
Nahezu jedes Unternehmen verfügt über unstrukturierte Daten in Form von Dokumenten. Doch wertvolle analytische Erkenntnisse aus diesen Dateien konnten bisher nur Expert:innen für maschinelles Lernen (ML) gewinnen, oder sie wurden von allen anderen Daten isoliert betrachtet. Die in Snowflake eingebaute Document AI (in Private Preview), die auf unsere native Unterstützung unstrukturierter Daten aufbaut, erleichtert es Unternehmen, mithilfe natürlicher Sprache den Mehrwert von Dokumenten zu erkennen und für sich zu nutzen.
Document AI nutzt ein speziell entwickeltes multimodales LLM. Durch eine native Integration dieses Modells in die Snowflake-Plattform können Unternehmen mühelos Inhalte wie z. B. Rechnungsbeträge oder Vertragsbedingungen aus sicher in Snowflake gespeicherten Dokumenten extrahieren und die Ergebnisse mithilfe einer visuellen Schnittstelle und natürlicher Sprache verfeinern. Darüber hinaus können Data Engineers und Entwickler:innen Inferenzen durchführen, indem sie die eingebauten oder verfeinerten Modelle programmatisch aufrufen, etwa bei Pipelines mit Streams und Tasks oder bei Applikationen.
Zugang zu ML via SQL
Im Zuge wachsender Datenvolumina können Analyst:innen immer mehr akkurate Erkenntnisse aus Daten gewinnen. Insbesondere ML-Algorithmen können diesen Prozess beschleunigen. Allerdings hindern fehlende Programmierkenntnisse und komplexe Anforderungen an die Recheninfrastruktur Analyst:innen oft daran, ML zu nutzen.
Aus diesem Grund ergänzen wir unsere Plattform um ML-gestützte Funktionen (in Public Preview). Damit können Analyst:innen nun mithilfe von ML-Funktionen, die über einfache SQL verfügbar sind, neue Einblicke gewinnen und Prognosen erstellen. Dies gibt Analyst:innen Möglichkeiten an die Hand, die vorher nur solchen mit ML-Kenntnissen zur Verfügung standen. Die folgenden Funktionen sind nun in Public Preview verfügbar:
- Prognosen: Erstellen Sie dank der automatisierten Bearbeitung von Saisonalität, fehlenden Werten usw. zuverlässigere Zeitreihenprognosen.
- Anomalie-Erkennung: Identifiziert Ausreißer und löst Alarme für weitere Maßnahmen aus.
- Contribution Explorer: Identifizieren Sie mühelos Dimensionen und Werte, die über zwei unterschiedliche benutzerdefinierte Zeitintervalle hinweg zur Veränderung einer gegebenen Kennzahl beitragen.
ML kann nun umfassender genutzt werden, um im Alltagsgeschäft die Geschwindigkeit und Qualität von Entscheidungen zu optimieren. Durch bekannte SQL-Funktionen, die direkt über Snowflake oder Integrationen mit BI/Analytik-Tools wie Sigma Computing verfügbar sind, verringert diese Funktion die Komplexität von ML-Frameworks.
Weitere Informationen on-demand
Wenn Sie weitere Informationen über diese Innovationen erhalten möchten, besuchen Sie unsere Website zum Summit 2023.
* Basierend auf internen Snowflake-Daten, die vom 25. August 2022 bis zum 30. April 2023 gewonnen wurden. Zur Berechnung des SPI ermitteln wir mehrere Kunden-Workloads, die in Bezug auf die Anzahl der Abfragen und die Menge der verarbeiteten Daten über den angegebenen Zeitraum stabil und vergleichbar sind. Die Verkürzung der Abfragedauer ist auf eine Kombination von mehreren Faktoren zurückzuführen, darunter Hardware- und Softwareverbesserungen sowie kundenorientierte Optimierungen.