Pourquoi une stratégie data solide est essentielle à la réussite de l’IA générative
Souvenez-vous, il y a seulement quelques années, lorsque la plupart des entreprises planifiaient ou débutaient leur parcours vers le cloud. La pandémie a frappé le monde et presque du jour au lendemain, le besoin de changement radical des modes de travail a accéléré ces transitions vers le cloud. Une adaptabilité rentable s’est alors avérée nécessaire. Les entreprises qui ont été capables de s’adapter rapidement à la hausse ou à la baisse ont survécu à la pandémie, et ce, grâce à une migration vers le cloud.
À présent, les avantages considérables de l’IA générative créent un nouvel élan pour agir tout aussi rapidement et résolument. Il s’agit désormais de s’assurer que les données et leur plateforme de traitement sont prêtes pour les nouveaux modèles d’IA.
Mais le chemin à parcourir reste long dans un environnement où le volume, la vitesse et la complexité des données et des types de données ne cessent de croître. D’ici 2025, le volume de données générées quotidiennement devrait atteindre 7 pétaoctets, contre « seulement » 2,3 pétaoctets quotidiens en 2021. Et cela ne concerne pas n’importe quel type de données. Il est désormais estimé que la majorité de ces données (80 %) sont non structurées, telles que des images, des vidéos et des documents, ressources dont les entreprises ne tirent que très peu de valeur.
Un écart considérable entre ambitions et réalité
Dans le monde actuel riche en données, les entreprises ont conscience que leur compétitivité repose désormais sur la disponibilité, la véracité et l’accessibilité des données dont elles ont besoin. Toutefois, à l’heure actuelle, alors que 83 % des clients d’Accenture considèrent que les données en temps réel vont constituer un avantage compétitif déterminant pour les deux prochaines années, seuls 31 % d’entre eux affirment gérer efficacement ces données.
Autrement dit, il existe un écart considérable entre ambitions et réalité. Et à mesure que le besoin de partager des données (à la fois en interne et en externe) se transforme en une mission stratégique, la capacité à gérer et créer des pipelines de données solides et fiables devient essentielle. Pourtant, 55 % des entreprises confient aujourd’hui qu’elles ne sont pas en mesure de retracer l’historique de leurs données de la source au point final. Le défi est d’autant plus grand que des données structurées et non structurées sont stockées dans de nombreux silos sur plusieurs sites différents basés sur le cloud et on-premise. Cependant, il s’agit d’un défi que les entreprises se doivent de relever afin de rester compétitives.
C’est ce que confirme notre étude. Nous avons constaté que les entreprises les plus performantes sont 2,4 fois plus susceptibles de stocker leurs données sur des plateformes data modernes et spécialisées dans le cloud. Les mesures clés qui les démarquent ? L’élimination des silos de données et de la duplication, la création de produits de données fiables, la réduction des coûts de reprise des données, la mise à disposition plus rapide d’informations et de cas d’usage transversaux, et l’amélioration de l’adoption par les utilisateurs.
Prendre conscience de la valeur des données propriétaires
La valeur optimale du machine learning (ML) et de l’IA générative à grande échelle sera atteinte lorsque les entreprises pourront dépendre de leurs propres données pour générer des informations uniques et des recommandations qui changeront fondamentalement la donne en matière de performance. Ces entreprises pourront alors passer d’une interaction avec un chatbot générique entraîné sur Internet à la génération de contenu pertinent exploitant des informations d’entreprise à jour et potentiellement confidentielles.
Les entreprises faisant preuve d’un véritable contrôle de leurs données peuvent utiliser la technologie à des fins beaucoup plus ciblées et précieuses. Pensez par exemple à une entreprise du domaine des sciences de la vie utilisant un modèle entraîné uniquement sur la base de ses propres données concernant ses essais et ses produits, afin de prédire les chances de réussite d’un médicament de manière plus précise, plus efficace et plus rapide que ses concurrents.
De nombreuses entreprises modernes possèdent de vastes chaînes d’opérations, de produits et de valeurs qui génèrent des données à l’échelle mondiale et de manière fédérée. Afin d’élaborer des modèles plus ciblés et discrets, à l’image de celui évoqué dans l’exemple ci-dessus, les entreprises doivent trouver un moyen de permettre aux équipes d’accéder aux données stockées dans plusieurs clouds et de les partager au sein d’environnements sécurisés et gouvernés.
La solution idéale consiste à permettre une utilisation des données internes les plus à jour, sans avoir à les déplacer d’un endroit à l’autre, tout en respectant les exigences réglementaires pertinentes, que l’IA continuera de faire évoluer.
Cette approche peut bien sûr permettre d’éviter des coûts importants et inutiles en matière de stockage de données, tout en empêchant la création de nouveaux silos de données. Mais il s’agit également du moyen essentiel à l’instauration d’une gouvernance et d’une sécurité renforcées, par exemple au travers de la préservation de contrôles d’accès aux données précis. Enfin, un accès fluide (via une « clean room » virtuelle fiable) à de précieux ensembles de données contrôlés par des tiers offre de toutes nouvelles opportunités de création de valeur.
Prioriser la sécurité et la gouvernance des données
Comment les entreprises peuvent-elles évoluer rapidement tout en maintenant leur sécurité ? Pour cela, une stratégie data complète intégrant la sécurité et la gouvernance dans le noyau numérique s’avère indispensable. Cette stratégie doit permettre à chaque équipe d’avoir confiance dans toutes les données qu’elle utilise, qu’il s’agisse de données internes ou provenant d’autres sources, y compris des partenaires de son écosystème.
Elle doit également assurer un contrôle d’accès aux données de manière plus complexe qu’auparavant. L’un des nombreux points intéressants de l’IA générative réside dans sa capacité à démocratiser l’accès aux informations qui étaient auparavant uniquement accessibles aux spécialistes de l’IA et aux data scientists. Toutefois, la réduction des restrictions accroît également les risques. La sécurité et la gouvernance s’imposent alors encore davantage.
Et après?
De nombreuses entreprises, mais certainement pas la totalité d’entre elles, sont parvenues à relever la première étape du défi concernant les données : permettre le partage de données structurées à l’échelle de l’entreprise et à des tiers. La deuxième étape, qui consiste à pouvoir se fier à l’explosion d’informations non structurées, diffusées en continu et à grande vitesse, est encore en cours pour la majorité des entreprises. La troisième étape, à savoir l’exploitation de grands modèles de langage (LLM) personnalisés et de modèles de ML à grande échelle mis au point ou entraînés à partir de ces données, est en train d’émerger.
L’aspect essentiel de la deuxième étape consiste à susciter la confiance envers les données. Cela nécessite une plateforme data capable d’apporter tous les éléments de calcul aux données et de les rendre disponibles au sein des mêmes limites de gouvernance. Avec nos partenaires Snowflake, nous aidons nos clients à atteindre cet objectif. En offrant des contrôles au niveau des données et sur l’ensemble des clouds, la plateforme de Snowflake permet un traitement à proximité des données. Cela signifie que tous les employés d’une entreprise sont assurés que leurs modèles d’IA utilisent toujours des données fiables. Sans cela, le risque que des modèles fournissent des informations erronées persiste.
La troisième étape, c’est-à-dire la démocratisation et l’extension des avantages de l’IA et des LLM à la pointe du secteur, exigerait un moyen pour tout le monde (et pas seulement pour les spécialistes de l’IA) de consulter et d’utiliser ces technologies de pointe et d’appliquer toutes leurs données fiables afin d’entraîner et d’interroger à la fois les LLM personnalisés et open source.
Investir dans une plateformedata dans le cloud
Quelle que soit l’étape atteinte par votre entreprise ou l’objectif qu’elle s’est fixé, vous ne regretterez pas d’investir aujourd’hui dans une plateforme data moderne pour votre noyau numérique. Identifiez les domaines de votre entreprise présentant le potentiel de valeur le plus élevé et investissez dans l’optimisation de la gestion et de la sécurisation des pipelines de données qui les alimentent.
Nous constatons de plus en plus que nos clients considèrent cet investissement comme une priorité absolue. Les fonctionnalités d’IA générative et de ML sont rapidement en train de devenir le facteur de différenciation essentiel pour les entreprises, tous secteurs confondus. Dans le monde actuel, chaque entreprise doit démocratiser l’accès à ces fonctionnalités et s’assurer que les données qu’elles utilisent sont fiables.
En faisant cela, les entreprises obtiennent un avantage concurrentiel en se démarquant de trois façons essentielles :
- Elles s’assurent que toutes leurs équipes peuvent utiliser l’IA en quelques secondes dans le cadre d’analyses au quotidien.
- Elles accélèrent l’innovation, les utilisateurs techniques étant en mesure de créer et de déployer des applications d’IA en quelques minutes seulement.
- Elles maintiennent la sécurité et la gouvernance de l’ensemble de leurs données.