Produit et technologie

Exécutez Pandas sur des données d’entreprise de plus de 1 To directement dans Snowflake

Snowflake Snowpark icon with photo of two people using a computer, on a blue and black background.

L’une des bibliothèques les plus utilisées de l’écosystème Python, Pandas, aide les développeurs à analyser, charger et transformer des données à travers la data science, le data engineering et le machine learning. Selon l’enquête StackOverflow 2024 auprès des développeurs, la flexibilité et la facilité d’utilisation de l’API Pandas ont entraîné une croissance rapide de sa popularité, Pandas étant utilisée par un développeur sur cinq.

Mais Pandas a été initialement conçue comme une structure de données en mémoire, ce qui limite sa capacité à fonctionner sur de grands jeux de données. Cela signifie souvent que les développeurs ne peuvent travailler qu’avec la quantité de données qu’acceptent leurs machines. Ces défis d’échelle entraînent une vitesse de développement lente et constituent des obstacles pour les équipes data qui doivent opérer sur de gros volumes de données. Par conséquent, les équipes data ont dû s’appuyer sur la réécriture du code panda dans d’autres frameworks pour opérer sur des données à plus grande échelle, jusqu’à présent. 

Aujourd’hui, nous sommes ravis d’annoncer la disponibilité pour tous nos clients de Pandas sur Snowflake, qui apporte le meilleur de l’AI Data Cloud Snowflake aux développeurs Python en permettant des opérations pandas évolutives et distribuées dans Snowflake.

Bar chart showing the performance results of running pandas on Snowflake, resulting in up to 30x faster performance.

Nos études comparatives ont montré que Pandas sur Snowflake s’adapte à plus d’un téraoctet de données, pour les jeux de données où la bibliothèque Pandas standard est à court de mémoire avec même moins de 100 Go. En moyenne sur les workloads représentatifs, nous constatons que Pandas sur Snowflake est environ 6 fois plus rapide à l’échelle de 1 Go et environ 30 fois plus rapide à l’échelle de 10 Go que Pandas Vanilla en mémoire. 

Réglage ou réécriture minimal requis

Avec l’introduction de Pandas sur Snowflake, les utilisateurs peuvent travailler avec leur API Pandas et leur sémantique familières. Cette fonctionnalité permet aux développeurs d’exécuter Pandas directement sur leurs données dans Snowflake, tandis que les requêtes sont traduites en SQL pour être exécutées nativement dans Snowflake. 

Pandas sur Snowflake fait partie de la bibliothèque Snowpark Python, qui permet un traitement de données évolutif du code Python sur la plateforme Snowflake. En modifiant simplement quelques lignes de déclaration d'importation, les développeurs obtiennent la même expérience de Pandas qu'ils connaissent et adorent avec l'évolutivité et les avantages de sécurité de Snowflake. Par conséquent, les migrations vers Snowflake sont simples et les équipes data évitent le temps et les coûts liés à la réécriture de leurs pipelines pandas vers d’autres frameworks Big Data ou au provisionnement de machines à mémoire élevée coûteuses. 

Un accès sécurisé dans Snowflake supprime les risques liés aux données sensibles sur les machines locales

La conception en mémoire de Pandas a créé des problèmes pour les entreprises, notamment les problèmes de sécurité et de gouvernance qui résultent de l'extraction des données d'entreprise vers des ordinateurs portables pour les traiter avec Pandas. Dans le cadre de la bibliothèque Snowpark Python, le calcul est transféré vers Snowflake directement dans le périmètre sécurisé et gouverné de Snowflake. 

Reposant sur le projet open source Modin

Chez Snowflake, nous nous engageons à aller à la rencontre des développeurs là où ils sont en intégrant les outils et normes open source aux puissantes capacités de l’AI Data Cloud Snowflake. Pandas sur Snowflake est construite sur le projet open source Modin. Modin est une bibliothèque Pandas distribuée qui a rejoint la famille de projets open source de Snowflake par une acquisition en octobre 2023. Modin est utilisé par des centaines de milliers de data scientists et développeurs pour faire évoluer en toute transparence leurs workflows Pandas. Snowflake contribue activement et soutient à la fois le projet open source et sa communauté dynamique.

A technology stack diagram of the Snowflake Python Developer Ecosystem, including ingestion, transformation, delivery processes on the dev experience and devops elements.

Pandas sur Snowflake fait partie intégrante de l’écosystème de développement Python de Snowflake, qui comprend également Snowpark Python, Snowflake Python API, Streamlit in Snowflake et Snowflake Notebooks. Ces dernières innovations produit apportent la puissance de l’AI Data Cloud Snowflake aux développeurs Python et permettent aux équipes data de faire évoluer efficacement les pipelines de données et les applications d’entreprise.

Pour en savoir plus, consultez la documentation Snowflake ou essayez ce guide Quickstart Snowflake Notebooks pour commencer.  

 

Data Pipeline icon of a pipe with streaming arrows on a blue background with code images

The Essential Guide to Data Engineering

Découvrez comment adopter de bonnes pratiques de data engineering et créer des pipelines de données efficaces pour votre organisation.
Auteurs
Partager cet article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Démarrez votre essaigratuit de 30 jours

Essayez Snowflake gratuitement pendant 30 jours et découvrez l'AI Data Cloud qui élimine la complexité, les coûts et les contraintes d’autres solutions.