Deux spécialistes expliquent comment ils s’emparent des données qui nous inondent et pour quoi faire.
Les chaînes que nous regardons à la télévision, la musique que nous écoutons, l’endroit où nous nous trouvons, la vitesse à laquelle nous nous déplaçons... toutes ces informations sont en théorie accessibles grâce à deux objets ultrarépandus et qui ne nous quittent plus : la “box” posée dans un coin de notre logement et notre smartphone toujours à portée de main. Nous sommes tous des pourvoyeurs de données, en continu. Volume, variété et vitesse, sont les “trois V” qui ont défini au départ le phénomène Big Data (données massives en français). La gestion et le croisement de grands volumes d’informations, ou datamining, existe depuis plus de vingt ans, mais depuis une dizaine d’années la cadence de la production des données s’est considérablement accélérée, avec le développement des objets connectés, des réseaux sociaux, le fleurissement des capteurs...
On met des capteurs partout
« On peut mettre des capteurs partout, même sur les brins d’herbe », plaisante Valentin Patilea, enseignant-chercheur en mathématiques appliquées et statistique à l’École nationale de la statistique et de l’analyse de l’information (Ensai, basée à Bruz). Tout peut se mesurer grâce à toutes sortes de capteurs disponibles aujourd’hui à des prix très abordables. Collecter des informations n’est plus un problème, les traiter et les analyser en revanche est plus compliqué. Et cela a un coût. Beaucoup d’entreprises ont cédé aux sirènes du Big Data et investi dans la collecte de données sans toujours savoir comment les exploiter de manière vraiment utile.
Les premières à investir dans le traitement sont celles qui peuvent en retirer un bénéfice commercial, par exemple pour analyser le comportement des consommateurs. Quand notre marque de chaussures préférée nous envoie un coupon de réduction au moment où nous passons devant le magasin, il ne s’agit pas de hasard ni d’une heureuse coïncidence... Nos goûts, habitudes d’achat, notre budget... ont été passés au crible du Big Data ! De même, certaines banques ou compagnies d’assurances y ont recours pour s’adapter aux attentes de leurs clients.
Pas d’heureuse coïncidence...
D’autres domaines comme la gestion de crise ou la météorologie pratiquent l’analyse et le traitement de données depuis longtemps. L’essor du Big Data et des puissances de calcul ne fait que renforcer et préciser leurs résultats. Et puis il y a le monde de la recherche, autre gros producteur de données et aussi celui qui a le plus les moyens de les traiter. Un chercheur en génomique (secteur très concerné depuis l’arrivée des machines de séquençage de l’ADN haut débit) ou en biologie pourra assez facilement aller taper à la porte d’un collègue informaticien ou statisticien. Aujourd’hui, on assiste à la naissance d’entreprises qui arrivent à vivre de l’exploitation de ces méthodes et algorithmes issus des laboratoires. Mais cela ne se fait pas en un clic !
Du big au Smart Data
« Travailler sur le Big Data c’est avoir une approche pluridisciplinaire, commente Gilles Durrieu, professeur en mathématiques appliquées et statistique à l’Université Bretagne Sud(1). Cela nécessite de mixer les compétences en informatique, mathématiques et statistique, auxquelles il faut ajouter des compétences complémentaires en biologie, astrophysique, par exemple... », explique le chercheur qui a notamment travaillé sur le comportement des huîtres. Si l’analyse des données concerne les consommateurs, il s’agira plutôt d’économie et de psychologie... Ensuite, « il faut savoir ce que l’on veut faire des données, ce que l’on recherche, bref, définir des objectifs, précise Valentin Patilea. Il est important de comprendre la donnée, de savoir d’où elle vient et comment elle a été générée pour modéliser l’incertitude, la part d’aléatoire, et ainsi séparer les signaux que l’on cherche. Il faut être conscient que beaucoup de données sont inutiles pour les objectifs définis, elles ne contiennent que du “bruit”. D’ailleurs, aujourd’hui, on ne parle plus de Big Data, mais de Smart Data ! » Et pour rendre le Big Data intelligent, il faut ajouter deux “V” supplémentaires à la définition, qui correspondent à valeur et véracité des données.
« En statistique, il existe deux mesures importantes de la qualité des indicateurs, comme, par exemple, une moyenne que l’on peut calculer à partir des données : la variance et le biais, complète Valentin Patilea. La variance mesure la précision de l’indicateur autour de la valeur cible. Or, aujourd’hui, comme le nombre de données est quasiment illimité, la variance sera nécessairement très faible et l’indicateur très proche de la valeur cible. Le biais, lui, correspond à une erreur de ciblage, qui peut facilement survenir quand on ne comprend pas comment la donnée est générée, quand on regarde du mauvais côté. »
Qu’elles soient “big” ou “smart”, les données, ou du moins leur traitement, vont changer notre façon de vivre. Et aussi celle de faire du sport ! Si l’on en croit le chercheur, la réussite des All Blacks au rugby tiendrait aussi au fait qu’ils captent et analysent depuis longtemps les attitudes et gestes de leurs joueurs : mouvements de leur corps, déplacements sur le terrain, à l’entraînement, mais aussi leur activité quotidienne, leur alimentation... Les data sont partout, elles soulèvent des défis scientifiques passionnants et le vivier d’emplois pour les utiliser est énorme. De quoi susciter et satisfaire pleinement la curiosité des jeunes intéressés par les mathématiques et l’informatique.
Des formations à la hauteur
Pour s’installer définitivement dans le paysage, toute nouvelle discipline se doit d’être associée à des formations pour assurer sa pérennité et être en adéquation avec les nouveaux métiers associés. En voici deux nouvelles axées sur le Big Data.
À l’École nationale de la statistique et de l’analyse de l’information (Ensai, à Bruz près de Rennes), à l’occasion du renouvellement de son accréditation, le master international en Big Data s’est mué en master en Statistique pour le Smart Data (lire article ci-contre). Son enseignement sera plus orienté vers les données de la société intelligente : ville intelligente, internet des objets, capteurs pour la médecine personnalisée... (responsable : Valentin Patilea).
L’Université Bretagne Sud (Vannes) propose un nouveau master Data science et modélisation statistique, une nouvelle formation sélective et renforcée sur cinq ans : le Cursus master en ingénierie (CMI) dans le domaine des Data sciences (responsable : Gilles Durrieu) et, avec l’école d’ingénieur Télécom Bretagne (Brest), un nouveau master réservé aux étudiants étrangers intitulé Data sciences. Ce dernier sera opérationnel à la rentrée de 2017.
Valentin.PATILEA@ensai.fr
Gilles Durrieu
gilles.durrieu@univ-ubs.fr
(1) Au laboratoire de mathématiques de Bretagne Atlantique (CNRS, UBS).
Valentin Patilea
Valentin.PATILEA@ensai.fr
Gilles Durrieu
gilles.durrieu@univ-ubs.fr
tél. 02 97 01 71 78
TOUT LE DOSSIER
du magazine Sciences Ouest