L’IA ne serait pas ce qu’elle est aujourd’hui sans le big data.

Ça ne vous aura pas échappé, il y a six ou sept ans, on rencontrait abondamment le terme « big data ». Toutes les entreprises du secteur informatique se sont réveillées un jour en repeignant leur façade avec un slogan sur le big data. Des sociétés de plusieurs centaines de personnes ont basculé du jour au lendemain de spécialiste de la business intelligence, statisticiennes ou décisionnelles pour devenir « expertes avérées » en big data. D’ailleurs, la plupart sont aujourd’hui devenues « expertes avérées » en intelligence artificielle. Alors certes il y a des évolutions, des adaptations mais il y a aussi une part importante de marketing et communication, qui malheureusement ne s’accompagne pas d’un changement aussi rapide des pratiques ni de la formation adéquate du personnel.

Beaucoup de données ?

Le big data est un terme anglosaxon. Evidemment me direz-vous, mais il faut noter que les américains ne sont pas des gens à s’embarrasser de critères étymologiques. Ils utilisent un terme généralement parce qu’il sonne bien à l’oreille et qu’il est simple, même s’il est un peu éloigné des caractéristiques fondamentales de la chose qu’il désigne.

A contrario sur le vieux continent on s’attache essentiellement au sens des mots. Aussi quand on interroge les spécialistes du secteur, ils nous disent que big data c’est « beaucoup de données ». Puis ils sortent des arguments qui sont dans la ligne droite d’une analyse cartésienne sous forme de 3, 4, 5, 6 ou 8 « V ». Il est question de volume, de vélocité, de véracité etc… cela semble évident à leurs yeux, le big data c’est une affaire de serveurs, de réseaux, et donc de vente de machines.

En fait il n’en est rien. Certes le volume de données évolue progressivement, mais de façon continue. Rien de cela ne justifie une rupture dans la technologie ou dans l’organisation des données. Nous avons aujourd’hui la possibilité d’adresser plus de données qu’hier, nous en produisons plus, il faut bien les stocker et les retrouver. Mais ce n’est pas une révolution.

Big data ou big brother ?

La vision du public est, elle aussi, déviante. En effet, le public a retenu que grâce au big data les entreprises et les administrations pouvaient « espionner les gens », conserver des données sur eux, les recouper pour comprendre ce qu’ils faisaient. Là non plus, il n’a pas été nécessaire d’attendre le big data pour recouper des données. La plupart du temps, chacun de nous offre bien volontiers ses données en retour de services gratuits dont nous ne pouvons plus nous passer. Et naturellement les entreprises exploitent ces données pour se rémunérer. Chacun est complice.

Bien sûr il est important de définir un cadre juridique et éthique de l’utilisation des données, mais ce n’est pas le big data qui y change quelque chose. On ne s’est pas réveillé un jour avec un stockage d’information qui ne pouvait pas se faire aussi la veille. Ce sont des phénomènes totalement disjoints.

La confusion est née des médias qui ont présenté le big data comme un big brother.

Ce qui constitue le fondement du big data

Le fondement du big data se trouve dans une prise de conscience par les concepteurs des systèmes bien que malheureusement encore insuffisamment répandue. Cette prise de conscience est d’autant plus rare qu’elle n’est pas ou très peu expliquée et enseignée.

Elle repose sur deux principes fondamentaux : le premier concerne l’écart entre les données produites et les données disponibles, et le second l’incertitude que cela engendre.

Données produites et données disponibles

En premier lieu il faut lever une ambiguïté entre deux notions : les données « produites » et les données « disponibles ». Bien des livres, des articles, des enseignants mêlent ces notions ce qui entretien la confusion. On produit aujourd’hui des milliers de fois plus de données que l’on en rend disponible. Les données sont fugitives en grande majorité, on ne les conserve pas. Par exemple lorsque vous allez naviguer sur un site internet, votre navigation est porteuse de données mais le site ne l’exploitera peut etre pas dans son intégralité et ne la conservera pas. Votre navigateur retiendra l’adresse du site mais pas toute votre navigation. Ces données seront produites et non disponibles.

Le phénomène s’amplifie de jour en jour. On produit chaque année 80% de données de plus que l’année précédente et on conserve seulement 40% de plus que l’année précédente. Avec les IoT cela va encore croitre. On ne peut conserver toutes les videos, tous les signaux, toutes les actions de chacun éternellement. Il faut accepter que les données disponibles soient parcellaires.

Un des premiers challenge du big data consiste donc à savoir ce qu’il faut rendre disponible.

Certains vendeurs peu scrupuleux proposent des solutions data lake très onéreuses pour stocker des informations dont nous n’avons pas usage mais qui « pourraient servir plus tard » ! cette démarche est puérile. Imaginez que notre cerveau, qui est une machine big data, conserve chaque pixel de chaque image reçue par chaque œil, chaque son enregistré par chaque oreille, etc., nous deviendront vite un méga disque dur incapable d’exploiter notre fardeau informatif. C’est similaire pour les data lake, Ce sont des technologies indispensables mais à consommer avec discernement.

La seule solution efficace est de considérer l’information comme un flux consommable et non stockable, tel l’énergie, de procéder à une discrimination des données pour identifier celles à se remémorer, de mettre en place un dispositif permettant de les abstraire, de les intégrer, de les comprendre. Le big data consiste alors à passer de données exprimées en extension à des données exprimées en compréhension, plus intelligentes et moins volumineuses. De fait le big data induit naturellement un besoin en intelligence artificielle.

Un monde d’incertitude

Le second principe réside dans un corolaire et forme le constat que : « puisque nos données disponibles sont parcellaires, nous ne pouvons accéder à toutes les données produites ».

Les données disponibles ne constituent qu’une infime fraction de celles produites mais elles sont déjà très nombreuses et croissent rapidement. On dit que si on les imprimait en tous petits caractères sur des feuilles A4 on ferait une pile de plusieurs milliers de fois la distance terre-soleil. Certains ont calculé qu’il faudrait 80 ans en utilisant toutes les machines disponibles du géant Google pour lire ces données ne serait-ce qu’une seule fois chacune. Dans ces conditions il est clair que lorsque nous interrogeons le stock de données disponible, nous devons nous contenter d’un tout petit extrait.

Cet extrait microscopique peut déjà nous occuper pendant pas mal de temps, mais nous sommes incapables de définir sa représentativité. Comme nous n’avons pas accès faute de temps aux autres données disponibles, comme nous n’avons plus accès faute de moyens aux autres données produites, comme nous avons aucune idée des données qui n’ont même pas été captées, il nous est impossible de savoir précisément ce que l’on manipule. Nous sommes entrés dans un monde numérique d »incertitude

Un monde ouvert en expansion

Alors bien sûr, dans le pays de Descartes, on ne veut pas toujours voir la vérité en face. On se dit que nos données ne sont pas si mal que çà et on passe sous silence leur imprécision, le risque de leur sous-représentation, les biais que cela va générer.

Il faut dire que pendant des décennies, nous n’avions accès qu’a de « petites bases de données locales ». Alors une croyance s’est développée, nous pensions qu’en traitant ces données dans leur intégralité nous étions en mesure de maitriser les processus. Mais la problématique existait déjà, nous ne rendions disponibles qu’une partie des données produites lesquelles ne constituaient déjà qu’une partie des données que nous aurions pu capter, etc. Cette problématique n’était pas exprimée, tout simplement. Alors nous avons pris de mauvais réflexes et développé cette croyance qui consiste à considérer systématiquement les données que nous avons comme de bons représentant des phénomènes observés.

Le big data c’est aussi abandonner cette croyance.

L’ensemble des données disponibles constitue ce que Gödel appelle « un monde ouvert en expansion » et a ce titre il a démontré qu’un tel ensemble était « indécidable ». De fait nous ne disposons d’aucun moyen pour évaluer la représentativité des données que nous manipulons et nous n’en aurons jamais.

Ce qui était courant hier : conserver plus de données pour plus de précision, se concentrer sur les cas le plus fréquents pour les généraliser, modéliser et rechercher l’exhaustivité étaient des leurres sans que nous n’en ayons conscience. Aujourd’hui il faut bâtir des systèmes en décidant d’oublier les données brutes, se concentrer sur les singularités, apprendre plutôt que modéliser, filtrer pour en tirer l’essentiel.

En résumé

Le big data a permis la prise de conscience du fait que

  • Nous ne connaissons pas et ne pourrons jamais connaitre la représentation réelle des données que nous manipulons
  • Nous devons discriminer les données et les abstraire si on veut les exploiter efficacement
  • Nous devons changer notre conception de la notion de data
  • Nous devons changer nos pratiques de traitement de la data

Jean Pierre MALLE