Que fais-tu différemment des autres concepteurs d’IA ?

Quand on a un marteau, tous les problèmes sont en forme de clous, c’est bien connu.

Les acteurs de l’IA travaillent aujourd’hui avec des « marteaux » intégratifs reposant sur diverses techniques mathématiques.

J’utilise le même « marteau » intégratif que les autres, mais aussi la « clé à molette » différenciative, alors quand je rencontre un boulon, je ne tape pas dessus comme un sourd avec le « marteau » intégratif. 😊

D’où vient le terme intégratif ?

Dans l’épistémologie systémique, on explique qu’un système automatique peut se représenter, en théorie, par une combinaison de fonctions de 3 types :

  • Des fonctions dites « régulières » ou « proportionnelles » (ce qui ne veut pas dire linéaires) représentées par une collection de f(x) dont le résultat ne dépend que de x
  • Des fonctions dites « intégratives », dont le résultat dépend de x et des x antérieurs (le passé)
  • Des fonctions dites « différenciatives », dont le résultat dépend des variations et des alternatives d’évolution de x (une tendance du futur proche)

Lorsqu’il est possible de calculer ces fonctions (ce qui n’est pas toujours le cas), on trouve alors généralement des fonctions polynomiales, des intégrales et des dérivées, d’où les noms choisis.

Pour la systémique tu peux lire par exemple Jean Louis Lemoigne : « Modélisation des systèmes complexes », Arlette Yatchinovsky : « L’approche systémique », ou Daniel Durand : « La systémique ».

Pourquoi n’utilises-tu pas le machine learning et le deep learning ?

Mais si, mes processeurs utilisent AUSSI les techniques intégratives telles que le machine learning et le deep learning.

De plus on ne peut pas dire qu’un système est exclusivement différenciateur ou exclusivement intégratif, il s’agit toujours d’un mixte des 3 composantes, mais souvent avec une prédominance de l’une d’entre elles en fonction de la problématique, d’où l’abus de langage.

Par exemple sur le processeur de recommandation de produits en temps réel sali que j’ai cédé à Netwave, lorsque les moteurs différenciateurs ne fournissent pas de résultats satisfaisants, le processeur exploite les résultats de moteurs proportionnels ou intégratifs notamment via des grilles pré-calculées. Et plus généralement, le processeur sali fournit un lot de recommandations mixant les différentes techniques.

Dernièrement, la société Cleverm8 a retenu mon processeur intégratif catis composé de 5 algorithmes de machine learning dont un réseau de neurones. Ce processeur destiné à la catégorisation est capable de traiter de classes fortement dissymétriques et de données incertaines en appliquant les principes de l’épistémologie systémique. Il sera disponible en ligne sur cette plateforme courant 2020.

Dans un autre cas, une société travaillant pour une grande banque française m’a demandé d’intervenir sur un ensemble d’algorithmes de machine learning qui généraient trop de faux positifs, le problème venait du fait que la dimension différenciative était insuffisamment prise en charge. Le taux d’objets d’une catégorie était très faible et la variété de ces objets très grande et mal représentée, dans ce cas les algorithmes intégratifs classiques apprennent mal.

La différenciation est-elle une forme de catégorisation ?

Non, c’est exactement l’opposé.

Si quelqu’un vient me voir en demandant de catégoriser quoi que ce soit, je me tourne sans hésiter vers les techniques intégratives de machine learning et deep learning, lesquelles sont connues, performantes et bon marché.

Mais ces techniques statistiques sont adaptées à la catégorisation et la reconnaissance car elles rassemblent des objets dans des catégories. Elles se polarisent sur les éléments fédérateurs, les ressemblances. Elles le font très bien, mais aussi précises et performantes sont-elles, elles ne peuvent pas traiter de toutes les problématiques.

C’est par exemple le cas des problématiques relevant d’apprentissage non supervisé, d’heuristiques, de meta-heuristiques etc..

C’est aussi le cas de problématiques pour lesquelles de nombreux signaux faibles ont une influence déterminante. Par définition ces signaux faibles sont rares et difficiles à capter, d’autant qu’on ne les connait pas forcément avant. Il peut s’agir par exemple d’une combinaison particulière de certaines données.

La différenciation consiste à traiter les signaux faibles, identifier ce qui différencie A de B. Il ne s’agit pas de constituer des catégories plus petites, mais de mettre en avant les différences au lieu des ressemblances. Les maths parlent alors de « dualité ».

Les modèles mathématiques utilisables portent notamment sur les travaux de Riemann, Poincaré, René Thom, etc.

Quel est l’avantage réel de la différenciation ?

Si l’on revient au cas de la recommandation de produits sur internet, on peut choisir de catégoriser les visiteurs, comme le font nombre d’éditeurs de solutions. Il s’agit alors d’analyser le passé et faire des « tas » sur lesquels on applique la même stratégie. Quand un visiteur est pris en charge, le système le place dans une catégorie et le traite comme les autres, à la chaîne. « ceux qui ont vu ce produit ont aussi vu celui-là », « ceux qui ont acheté çà ont aussi acheté çà », etc.

Mais si l’on ajoute au processeur une composante différenciative, il est alors possible de personnaliser les recommandations à l’individu, voire mieux, à la situation qu’il vit en ce moment. Car chacun de nous est un être différent en fonction des circonstances. On ne se comporte pas de la même façon au travail, en famille, dans son club de sport, … l’idée est donc de créer un modèle ou plusieurs modèles par individu au lieu d’un modèle par catégorie d’individus.

Or l’homme, de façon de plus en plus pressante, veut qu’on traite de son cas personnel, au lieu de lui proposer ce que l’on fait en standard pour tous les individus comme lui.  Ici démarre la notion de service.

C’est une vue de l’esprit que de penser que lorsque l’on fait ses courses on achète des produits, en fait on achète des services. Le produit est surement disponible ailleurs et si l’on vient là c’est pour le service (le prix, la proximité, la disponibilité font partie du service, mais aussi la présentation, les indications, le dialogue, etc.).

Dès lors il est légitime de construire un système avec une composante différenciative suffisamment conséquente pour adapter la recommandation à chaque visiteur individuellement.

A quelle problématique peuvent répondre tes processeurs ?

Par exemple si un client vient me voir avec la volonté de faire une IA pour orienter des élèves automatiquement.

  1. Il me montre des bulletins de notes avec les mentions « admis en xxx », je pense alors à une catégorisation du genre random forest et de nombreux datascientists sauront traiter sa problématique efficacement
  2. Puis il me sort des bulletins avec « admis en xxx mais doit renforcer les maths », « admis en yyy mais attention à l’anglais ». Là je me dis qu’il commence a y avoir un certain niveau de différenciation justifiant de faire appel au deep learning. Tous les datascientists ne maitrisent pas le deep learning mais il y en a de plus en plus qui sauront prendre en charge son problème
  3. Ensuite, il me montre des bulletins ou il y a 3 ou 4 recommandations, et m’explique qu’il faut traiter aussi des cas pour lesquels il n’y a pas d’exemples, ici la dimension différenciative prend de l’ampleur du fait de la sous représentation des cas
  4. Enfin, il me dit que les évaluations sont faites par des enseignants différents et qu’il peut y avoir des écarts de jugement, donc les exemples sont incertains, il en ressort que le deep learning produira trop de faux positifs

Ma question : combien d’erreur d’orientation considère-tu acceptable pour cet algorithme, quand il s’agit de ton enfant ?

Dans un autre cas, un policier dispose de plusieurs témoignages, un des témoins affirme que la voiture qui s’est enfuie était verte. Un algorithme standard va prendre cette donnée comme argent comptant. Mais le policier, quant à lui est capable de remettre en cause cette donnée pour résoudre son enquête, et si elle était bleue en fait ? ou noire ? faisait-il sombre ? le témoin est-il daltonien ? a-t-il confondu ? ment-il ? tout ceci constitue une variété. La couleur de la voiture n’est pas une « donnée » c’est juste un « indice ». Or les algorithmes standards traitent de données et non d’indices. Sans la dimension différenciative l’algorithme ne fournira aucune solution à l’énigme du policier, ou pire, il fournira une solution fausse.

Et maintenant ma question : combien d’accusation prononcées à tort par cet algorithme acceptes tu quand il s’agit de toi ?

Mes processeurs permettent de prendre en compte les données et leur appliquer des raisonnements similaires aux raisonnements humains, pour mieux comprendre les gens, mieux les accompagner, c’est le domaine de la « cognitive automation ».

Mais dans le cas de la cognitive automation, ceux qui n’utilisent que les maths échouent. Dans bien des cas un apport heuristique de psychologie cognitive ou de psychosociologie est indispensable, par exemple pour « cadrer » les variétés lorsque la différenciation concerne des comportements humains. En sémantique on apporte du sens par une ontologie, ce qui permet de faire comprendre à la machine qu’une vache est aussi un bovin par exemple, elle ne peut pas le deviner, c’est la même chose ici.

Tu peux te référer par exemple à Gerald Bronner : « L’empire de l’erreur », René Thom : « Prédire n’est pas expliquer ».

Certains disent qu’il faut éviter les biais humains dans les IA ?

Bien sûr, introduire une heuristique qui par définition est basée sur l’observation, peut véhiculer un biais. Mais je ferai deux objections.

La première réside dans le fait que les données que l’on exploite, sont considérées par la majorité des datascientists comme absolues. Ce qui est faux. Elles sont issues d’individus et de systèmes qui présentent eux aussi des biais. Un mécanicien qui reçoit une mesure demande systématiquement qu’elle est sa précision, avec quel appareil la mesure a été faite et vérifie l’étalonnage de l’appareil. En datascience beaucoup ne se posent pas la question, alors quand ils critiquent ensuite les heuristiques comme porteurs de biais cela me fait sourire.

La seconde, en réponse à la première, est qu’il ne faut pas se leurrer, les biais existent à l’extérieur et à l’intérieur des systèmes et il est bien préférable de doter les systèmes de mécanismes résistants à ces biais. La aussi les techniques différenciatives jouent un rôle majeur.

Pour ce faire chacun de mes processeurs fournit un résultat accompagné d’un calcul de la plausibilité, fonction de l’incertitude sur les données et de celle sur les traitements.

Même pour une simple catégorisation, je n’ai pas peur de dire « cet objet est de la catégorie A avec une plausibilité de 0.8 ou alors il est de la catégorie B avec une plausibilité 0.45 ». Alors qu’un algorithme standard dira seulement que cet objet est de la catégorie A au risque de produire un faux positif. (Au passage notons que la plausibilité n’est pas une probabilité et que la somme des plausibilités n’est pas égale à 1).

Peut-on dire que tes processeurs sont plus humains ?

Certainement, D’ailleurs certains me servent à construire ce que j’appelle des « employés numériques ». Ces employés numériques s’inscrivent dans un groupe de collaborateurs, clients, utilisateurs, fournisseurs, prestataires et prennent en charge une partie du travail cognitif. Par exemple mes processeurs inductil et newrails permettent à la société Cleverm8 de proposer respectivement des « conseillers numériques » et des « investigateurs numériques ».

Mais contrairement au RPA (Robotic Process Automation) qui instancie un processus prédéfinit permettant de produire une justification de ses décisions, la cognitive automation telle que je la pratique repose sur une analyse automatique de chaque situation qui se présente avec toutes ses spécificités en la prenant en charge au mieux.

Notre société est pervertie par le cartésianisme. Là aussi le cartésianisme est une très belle chose qui a permis nombre de progrès. Mais il a son domaine d’application. Il est aberrant de l’appliquer en dehors de ce domaine comme on le fait trop souvent, notamment en disant « j’en déduis que » alors qu’il ne s’agit généralement pas d’une déduction.

Par exemple, la vente relève assez peu du cartésianisme, les achats réfléchis sont rares. Pour concevoir un système performant, il faut recourir à une autre épistémologie, le constructivisme. Chacun de nous se construit, prend des repères, opte pour des attitudes qui lui sont propres, restructure son champ de conscience avec les informations reçues. Et c’est avec cette épistémologie qu’il faut construire une réponse adaptée, personnalisée tant dans le fond que la forme, pour mieux comprendre et mieux servir le client.

Or il se trouve que les modèles mathématiques applicables au constructivisme s’appuient aussi sur des approches différenciatives, en particulier « des variétés ». Mais attention à ne pas inverser mon propos car tous les algorithmes utilisant des variétés ne relèvent pas du constructivisme, par exemple on calcule les fonctions de convergence des algorithmes apprenants souvent de façon différenciative, ce qui n’a rien à voir.

Tu peux lire par exemple Jean Louis Lemoigne : « Les épistémologies constructivistes », Jean Piaget : « constructivisme intelligence » ou Edgard Morin : « La complexité humaine », ou encore Paul Boghossian : « La peur du savoir ».

Pourquoi les autres datascientist ne le font pas ?

Je dirais : « pas encore », notamment parce que les outils disponibles sont trop peu nombreux. Cleverm8 , Netwave et nombre d’autres acteurs y travaillent.

Bien sûr, encore nombre de datascientists suivent la masse sans se poser trop de questions. Quand tous les acteurs ne proposent au client qu’une seule approche, il faut bien qu’il en passe par là. Chacun peut alors dire triomphalement : ça marche !

Mais un jour ça ne marche plus, parce qu’un des acteurs propose une approche mieux adaptée, que tous les clients attendaient sans savoir l’exprimer. C’est ainsi que les choses progressent et c’est vrai dans tous les domaines. Tu sais bien que le progrès s’installe en 3 étapes, au début les autres disent « c’est ridicule », puis « c’est dangereux » et enfin tout ce petit monde adopte ce que tu faisais et dit « c’est évident ».

Aujourd’hui j’entends encore les critiques de certains datascientists et universitaires inconditionnels de la donnée et pourfendeurs du biais humain prononcer « c’est dangereux » à l’encontre de mes algorithmes.

Heureusement, il existe de nombreuses recherches menées sur l’IA qui s’opèrent sur le domaine de la différenciation, les GAFA sont très actifs dans ce domaine. Les médailles Fields décernées ces dernières années le sont aussi principalement dans cette voie. C’est le sens de l’histoire, la cognitive automation se fait une place dans le paysage de l’IA.

Jean Pierre MALLE

Vous avez aussi des questions, laissez nous un message .