Aperçu
Les leçons à tirer des initiatives de data science en temps de pandémie
Les data scientists peuvent mettre en application leur expertise en matière de nettoyage, d’intégration et de modélisation des données pour faire la lumière sur des questions complexes.
La data science en temps de pandémie
Actuellement, la science des données a le vent en poupe. Bien évidemment, ce n'est pas la première fois que cela se produit : 2008 et 2016 ont été d'autres années fastes pour la discipline, lorsque le grand public s'est intéressé à l'exploitation des données afin de tenter de prédire le destin politique des Etats-Unis. (Les données ont fourni des prédictions plus précises lors de la première – « Comment les démocrates ont gagné la guerre des données en 2008 » – que lors de la seconde – « Comment les données nous ont fait défaut pour prédire le résultat d'une élection ».) En 2020, alors que les gouvernements s'efforcent de limiter la propagation du virus, le public a pris davantage conscience de l'impact de la data science sur nos vies.
Parallèlement à cette prise de conscience, le grand public perçoit également les nombreuses complexités qui peuvent découler de science des données. Alors que des personnes issues de disciplines et d’horizons différents publient des graphiques épidémiologiques et des courbes « R-nought » sur les médias sociaux, elles s'engagent dans le même temps dans des débats sur la signification de ces données et sur les modèles auxquels il faut prêter attention.
Les Big Data scientists ne sont pas étrangers à ces discussions devenues monnaie courante dans le monde de l’entreprise et savent que, tant qu’ils demeurent collégiaux, les désaccords sont inévitables, voire nécessaires pour développer des modèles plus précis.
Innover grâce à la collaboration
Comme l'écrit Sarah Callaghan dans la revue Patterns : « Je conseille vivement à tous les data scientists qui souhaitent améliorer les modélisations de ne pas se contenter de saisir les données ou de les analyser à l'aide de leur logiciel favori. Hors contexte, les chiffres qui en résultent peuvent être alarmants, surtout si l’on ne possède pas les connaissances spécifiques au domaine dont disposent les épidémiologistes. »Sarah Callaghan encourage les data scientists à participer au Kaggle COVID-19 Open Research Dataset Challenge (CORD-19), un défi qui répond à l'appel lancé par l'Office of Science and Technology Policy (ou Bureau de la politique scientifique et technologique) de la Maison Blanche pour répondre aux problèmes liés à la pandémie de COVID-19 à résoudre en priorité. Elle ajoute que le défi Kaggle représente « une occasion pour tous de travailler en équipe et de s'appuyer sur nos forces respectives ».
Ces initiatives de collaboration donnent aux entreprises un aperçu des facteurs qui peuvent conduire un groupe de personnes à atteindre un consensus et à obtenir des réponses exploitables. Si de tels efforts peuvent être déployés à vaste échelle pour s'attaquer à l'un des problèmes les plus complexes auquel le monde a dû faire face au cours de ce siècle, la création de politiques et d'initiatives efficaces en matière de données collaboratives au sein de l'entreprise est à portée de main.Voici quelques leçons concrètes que les entreprises peuvent tirer des initiatives liées à la data science en temps de COVID-19 :
1. Rassembler toutes les données
Collecter en permanence des données en temps réel pour les placer au cœur de l'activité des entreprises n'est pas une tâche simple. Comme l'indique l'absence de tests disponibles et le recours à des données collectées et codées manuellement pendant la pandémie, l'infrastructure et les processus mis en place pour ingérer de vastes volumes de données variées ont une importance cruciale. Le fait de ne pas collecter les données avec précision peut biaiser les modèles et allonger le temps nécessaire pour rassembler des échantillons suffisamment importants pour les analyser.Il est crucial pour une entreprise d’analyser l’ensemble de ses données. C'est dans cette optique que nous avons conçu Vantage, le logiciel d'analyse de données cloud hybride capable d’exploiter l'ensemble des données d'une entreprise. Nous étions conscients du fait que ce niveau de visibilité constituerait le meilleur moyen pour les dirigeants d'établir des connexions impossibles à repérer d’une autre manière.
2. Rendre les données ouvertes et accessibles
Les équipes qui travaillent au sein d'une même entreprise seront toujours soucieuses de protéger leurs données. Cependant, lorsqu'une crise planétaire menace la vie et l’emploi de chacun, cet instinct territorial s'estompe rapidement. Il faut ainsi se demander : comment encourager des niveaux d'accès et de collaboration similaires sur des projets critiques pour l'entreprise, pandémie ou non ?Dans un premier temps, pour permettre aux collaborateurs d’avoir accès aux données, la gouvernance ne doit pas se contenter d'assurer leur intégrité et leur sécurité. Elle doit être développée dans le cadre d’une stratégie de gestion de l'analyse de données plus large. Il est possible de créer une architecture de données en couches qui permet de garder le contrôle sur les métadonnées, comme les règles de gestion et les critères de définition , tout en permettant aux collaborateurs d'accéder aux données de manière agile. Par exemple, l'entreprise peut ouvrir des ensembles de données brutes et non structurées aux data scientists techniques, mais créer en parallèle des interfaces plus structurées et automatisées pour les analystes métier. Ces deux fonctions conservent ainsi l'autonomie dont ils ont besoin pour travailler avec les mêmes données et obtenir des informations, tandis que la sécurité et l'intégrité des données demeurent intactes.
3. Encourager la communauté à partager et à faire des retours
Même si les participants au défi CORD-19 de Kaggle sont en compétition pour gagner des prix, cela ne les empêche par de débattre ouvertement d'outils et d'approches que certains peuvent trouver utiles pour développer leurs projets de data science. En outre, les participants envoient régulièrement des commentaires aux organisateurs afin d'améliorer le déroulement du concours.L'entreprise peut créer cette même atmosphère de communauté et ce même niveau de soutien en instaurant une culture de l'apprentissage en continu, où le partage des idées et la collaboration entre les différents participants sont récompensés. Chez Teradata, nous disposons d'une plateforme appelée Transcend qui contribue au développement de notre culture d'apprentissage collaboratif. Ainsi, les collaborateurs utilisent Transcend pour faire leurs expériences en toute sécurité avec nos données d'entreprise et visualiser le travail déjà réalisé par les autres équipes, tout cela dans le but commun d'optimiser nos produits et nos services en fonction des besoins de nos clients.
4. Intégrer et partager les données pour favoriser la découverte d’informations
La mise en contexte des données est une étape cruciale pour permettre à une communauté à trouver des réponses. Les ingénieurs de l'université Johns Hopkins l'ont compris dès le début de la pandémie, lorsqu'ils ont établi une carte mondiale – et largement relayée par les médias – de la diffusion de la COVID-19, qui montrait des données en temps réel sur les cas d'infection dans le monde entier.La présentation des données dans un contexte à l'échelle et leur comparaison avec d'autres valeurs de référence plus familières permet d'obtenir des réponses que les données prises de manière isolée ne pourraient jamais dévoiler. C'est pourquoi il est important d'intégrer les ensembles et les types de données, et de donner aux data scientists les outils nécessaires pour visualiser et communiquer sur le contexte des données. C'est ce contexte, souvent par le biais de visualisations de données faciles à comprendre d'un simple coup d'œil, qui permet aux data scientists d'aider le public à prendre toute la mesure de la menace que représente le virus et à agir pour ralentir sa propagation.
La responsabilité du data scientist
En ces temps de pandémie, même si, contrairement aux « travailleurs essentiels » du quotidien, les data scientists ne sont pas en première ligne, ils ont néanmoins un rôle crucial à jouer – voire un devoir civique – dans la lutte contre la maladie. Ils peuvent en effet mettre en application leur expertise pour nettoyer, intégrer, modéliser et communiquer sur les données, afin de mettre répondre à des questions complexes. Lorsque les données constituent un point de friction majeur – ce qui est souvent le cas –, le data scientist a les moyens d'éliminer les obstacles pour permettre une meilleure compréhension.De leur côté, les chefs d’entreprises ont pour responsabilité d’éliminer les obstacles qui se dressent sur le chemin de tout collaborateur qui suhaiterait obtenir des réponses grâce aux données. C’est d’ailleurs souvent le cas pour bon nombre d’entre eux, surtout lorsque l’entreprise est dotée d'une culture d'apprentissage florissante et a toutes les cartes en main pour faire la différence.