Le rôle croissant de l’IA et du machine learning en matière d’analyse de données
L’intelligence artificielle (IA) ne ressemble actuellement plus tout à fait à la manière dont elle a été imaginée au cours des décennies antérieures par les grands écrivains et réalisateurs d'oeuvres de science-fiction. Cela dit, on ne peut nier qu'elle est devenue presque omniprésence, tant dans nos vies professionnelles que personnelles – ni le rôle crucial qu'elle joue dans la gestion et l’optimisation de l’analyse de données.
Le machine learning (ML) est le domaine le plus important de l’IA pour l’analyse de données et ce, pour un certain nombre de raisons. Les algorithmes de ML complexes permettent de traiter, de distribuer et d'analyser des pans entiers de données structurées ou non structurées en quelques minutes, voire quelques secondes. Et, plus important encore, les plateformes de ML apprennent continuellement à partir des données qui y transitent.
Cela permet de perfectionner automatiquement et en continu les opérations de ML destinées à améliorer constamment la qualité, mais cela libère également le potentiel de l’analyse prédictive et de l’analyse prescriptive. Dans un blog pour le Forbes Technology Council, Chithrai Mani, Chief Technology and Innovation Officer chez InfoVision, explique que les entreprises ont commencé à se servir d'informations exploitables dérivées du ML pour mener des études de marché plus précises, prédire les comportements des clients individuels ainsi que les données démographiques essentielles concernant les consommateurs et concevoir des stratégies d’amélioration dans d’innombrables domaines opérationnels : marketing, service client, ou encore la gestion maintenance de la chaîne d'approvisionnement.
Il n’est donc pas surprenant que l’utilisation du ML soit l’une des tendances les plus notables en matière d’analyse de données, qui mérite d'être montorée au cours des années à venir. Selon Gartner, d’ici 2024, 75 % des entreprises seront passées de programmes pilotes d’IA et de ML à la pleine exploitation de ces technologies. Le ML a le potentiel d'accélérer des processus comme la modélisation décisionnelle, la personnalisation et la gestion des données et deviendra beaucoup plus omniprésent en périphérie (edge) des systèmes, compte tenu de la quantité de données qui y sont traitées. Comme l’a noté Data Science Central, le succès de ces efforts nécessitera des services d'ingénierie des données de haute qualité.
Un autre rapport de Gartner montre que l'amélioration de leurs opérations d’IA, y compris le ML, sera un élément essentiel pour les entreprises, en réponse aux volumes de données en constante expansion et à la dépendance croissante que les entreprises développent à leur égard. Le cabinet de recherche a également souligné que les données historiques deviendront un peu moins importantes pour l’analyse en raison du changement radical de l’économie causé par la pandémie de COVID-19. En tant que tels, les outils de ML devront s’adapter au fait de disposer de moins d’informations sur lesquelles baser leurs calculs, mais la nature même de la technologie suggère qu’elle est capable de surmonter ce défi.
Davantage de données au sein des architectures de multi-cloud, de cloud hybride et d'intercloud
Les entreprises ont tendance à migrer une grande partie de leurs charges de travail et des données qui y sont associées vers le cloud : selon les projections de Gartner, 75 % de l'ensemble des bases de données seront basées sur le cloud d’ici 2022 et, d'ici 2023, la moitié des revenus du marché des systèmes de gestion de bases de données (DBMS) proviendra de l’adoption de DBMS dans le cloud. Il y a, bien sûr, encore de nombreuses raisons de conserver certaines données sur site ; la migration n’a pas besoin d’être totale pour générer une grande valeur ajoutée. Mais si les chiffres de Gartner sont justes, il est difficile d’imaginer que cette tendance à la migration vers le cloud s’inverse, voie ralentisse considérablement.
En raison de la quantité et de la variété des données exploitées par cette tendance, de nombreuses entreprises ne migrent pas vers un seul cloud, mais plusieurs :
- Celles qui optent pour l’approche multi-cloud exploitent plusieurs clouds fournis par un ou plusieurs fournisseurs de services cloud (CSP).
- Le cloud hybride se traduit par l’utilisation simultanée d’une infrastructure sur site et de ressources de cloud public.
- L'intercloud fait le lien entre les clouds publics de plusieurs CSP au sein d'une même architecture holistique. Cette stratégie d’exploitation de différents types de cloud permet de migrer automatiquement les charges de travail et de tirer parti en temps réel des avantages spécifiques de chaque cloud en fonction des besoins de l’entreprise.
Certains services cloud ont également vu le jour pour répondre aux besoins de certains secteurs d’activité spécifiques. Selon VentureBeat, cette tendance implique solutions dites « cloud de secteur » comme Microsoft Cloud for Manufacturing, pour le secteur manufacturier, ou l’utilisation d’outils SaaS pour les dossiers patients électroniques.
Du point de vue de l’analyse commerciale, il convient de noter qu’il n’y a peut-être pas encore de différence significative entre les offres cloud des principaux fournisseurs tels que Microsoft, Amazon et Google à usage général et celles qui sont spécifiques à certains secteurs . Mais cette évolution vaut peut-être encore la peine d’être explorée par les entreprises qui s'inquiètent de la capacité des offres de cloud public standard à répondre aux demandes dans leurs secteurs respectifs.
Quel que soit le style de déploiement que les entreprises choisissent pour leur migration vers le cloud, il sera essentiel de s’assurer que leurs outils technologiques d’analyse de données sont adaptés au cloud.
L’essor du modèle de conception en data mesh
Pour tirer le meilleur parti de l’analyse des données, les entreprises ne peuvent pas se contenter de penser à l'emplacement où les données sont stockées, mais doivent également tenir compte de la manière dont elles sont organisées - leurs délimitations et leur architecture. Au cours de la dernière année, il y a eu beaucoup de débats sur des termes tels que data lake, entrepôt de données, data lakehouse, data mesh et data fabric - pour n’en nommer que quelques-uns -, ce qui est compréhensible, car ces concepts peuvent se révéler assez déroutants.
Afin d’éviter cette confusion, nous nous concentrons principalement ici sur l'un d'entre eux : le data mesh. Selon cette approche, les domaines de données pour différents types d'opérations d’une entreprise (par exemple, le marketing et la comptabilité) sont contrôlés indépendamment les uns des autres – presque comme s’ils étaient cloisonnés, même s’ils ne le sont pas – par les personnes concernées au plus proche des données par division.
Si chaque domaine possède des schémas distincts (une approche recommandée par Teradata), très peu sinon aucun goulot d’étranglement ne peut se produire dans les cas où les données d’entreprise sont centralisées en un seul schéma. Chaque domaine suit les règles de gouvernance des données si nécessaire, et les produits développés dans un domaine sont conçus selon des normes d’interopérabilité prédéfinies afin de pouvoir être utilisés par tous. En outre, dans le data mesh, les schémas de domaine peuvent être isolés, colocalisés au sein d'une seule base de données ou simplement connectés les uns aux autres, les deux dernières approches étant particulièrement bien adaptées à l’analyse de données d’entreprise.
Le data mesh permet d’accélérer le développement et la création de produits de données complexes et il facilite également leur partage au sein de l’entreprise. Cela peut constituer un avantage essentiel pour les équipes interfonctionnelles au sein de toute entreprise – des groupes qui doivent avoir à l'esprit plusieurs aspects des opérations simultanément.
Il faut dire que le data mesh peut entraîner certaines difficultés. De par sa nature, de nombreux ensembles de données sont générés. Cela peut entraîner la création des doublons, la dégradation des performances et de la qualité, ainsi que des problèmes de gouvernance. Mais pour les grandes entreprises, la décentralisation de domaines peut être très utile pour s’assurer que les données de nombreux domaines sont exploitées le plus efficacement possible. La solution QueryGrid de Teradata peut faire office d'outil idéal pour créer un cadre concernant la responsabilité et la maintenance du data mesh.
La demande croissante concernant les data scientists et les CDO
Une autre tendance majeure dans la gestion de l’analyse de données concerne les personnes qui effectuent le travail d’analyse « sur le terrain » et dévoilent les informations qu’elles contiennent.
D’une part, elles ne sont pas nombreuses : selon les données du Bureau of Labor Statistics (BLS) publiées en mai 2020 – la date la plus récente pour laquelle des chiffres précis sont disponibles – il y a moins de 60 000 « data scientists », « ingénieurs de données » ou personnes ayant des titres similaires dans la population active aux Etats-Unis. Cette offre reste très en-dessous de la demande et il semble peu probable que la demande concernant des personnes possédant de telles compétences ne connaisse un ralentissement. En outre, l’enquête menée en 2021 par Burtch Works auprès de professionnels de l’analyse et de data scientists a révélé que leurs salaires médians restent élevés malgré la pandémie, de sorte que la concurrence pour les services de ces experts sera féroce.
Selon MIT Sloan, les entreprises qui disposent déjà de directeurs en charge des données (CDO) ont peut-être trouvé la solution à ce problème : offrir une formation aux employés qui ne sont pas spécialistes de la data science sur les principes et les technologies qui font partie intégrante de l’analyse des données. Towards Data Science montre notamment que de nombreux professionnels des données ne sont pas titulaires de diplômes dans le domaine, mais y sont venus par d'autres voies et ont appris sur le tas. Grâce à la gestion efficace d’un CDO, les entreprises pourraient faire de certains collaborateurs des data scientists et développer une culture de l’analyse de données. Si la pénurie d’experts en matière de données et de data scientists persiste, de plus en plus d'entreprises pourraient adopter une telle stratégie.
Ces quatre tendances ne sont pas les seuls évolutions à suivre dans de domaine de l’analyse de données – et l’équipe de Teradata les suit de près. Consultez notre blog pour en savoir plus sur l’importance de l’analyse de données pour l’affiliation des commerçants, l’approche d’analyse intégrée de la technologie 5G et bien plus encore.