L’analyse des immenses masses de données du Big Data se fait principalement par la mise en évidence de corrélations. Cette notion issue de la biologie est utilisée en économie depuis longtemps, mais on considère généralement que sur le plan scientifique elle n’a qu’une valeur descriptive : elle identifie une liaison entre deux variables, mais ne l’explique pas. Elle peut néanmoins être utilisée pour vérifier une hypothèse.

C’est précisément sur ce point que les Big Data s’écartent de la connaissance scientifique « traditionnelle », telle que l’a formalisée Karl Popper (Popper, 2006). Cette dernière procède principalement par déduction : d’une hypothèse, on déduit, logiquement, une conséquence, qu’on essaie ensuite de mettre à l’épreuve pour la vérifier. Rien de tel avec les Big Data, qui procèdent par induction.

L’induction, contrairement à la déduction, est un mécanisme utilisé par le cerveau humain presque à chaque instant. En effet, bien que la déduction soit jugée plus propre, plus scientifique, elle n’occupe qu’une partie du temps de traitement de notre cerveau. Elle s’applique particulièrement bien lorsque l’on analyse une situation hors de son contexte (Simha, 2007).

Par exemple, vouloir user d’une logique déductive pour traverser une rue imposerait de mesurer les vitesses des véhicules, de les placer dans l’espace avant de décider, à l’aide d’un système d’équations, du bon moment pour traverser. Inutile de souligner le caractère rédhibitoire de la lenteur qu’induirait cette analyse en n’utilisant que nos seuls sens et notre capacité cognitive…

En fait, notre cerveau appréhende la scène situationnelle de façon globale et la traite par induction. Pour ce faire, il généralise des principes observés lors de situations similaires nous impliquant ou impliquant ceux que nous observons (d’autres traversées de rues, en tous temps, avec ou sans lumière, sol mouillé ou non…). Notre cerveau est capable d’intégrer un nombre colossal de paramètres en une fraction de seconde et de projeter le fruit de ses inductions sur la scène courante.

Et c’est bien ce que requiert le traitement de données dans le cadre des Big Data : rechercher instantanément des informations essentielles, les traiter dans leur globalité sans a priori, reproduire des mécanismes efficaces déjà observés, produire de nouvelles informations directement utilisables dans la situation courante.

Chris Anderson, alors rédacteur en chef de Wired, est l’un des premiers à avoir pointé les conséquences de cette méthode (Wired, 2008), dans un article fameux. La connaissance issue des Big Data, explique-t-il, sera produite à partir de statistiques « agnostiques », et cette absence de point de vue est même l’une des conditions de leur réussite : les chiffres parlent pour eux-mêmes, en quelque sorte.

Par rapport à toute la tradition scientifique occidentale, issue de Descartes, cette approche est renversante, et l’on conçoit aisément que des esprits scientifiques, formés à la pensée déductive, ne soient pas très à l’aise avec elle. Plus largement, en dehors des spécialistes de l’épistémologie constructiviste (Le_Moigne, 2007) (le constructivisme, en épistémologie, est une approche de la connaissance reposant sur l’idée que notre image de la réalité, ou les notions structurant cette image, sont le produit de l’esprit humain en interaction avec cette réalité, et non le reflet exact de la réalité elle-même) on connaît mal les principes d’induction et d’abduction. L’éducation, dans les sociétés développées, s’est polarisée autour des principes hypothético-déductifs érigés en « pensée unique ». Pourtant un enfant, avant l’âge de sept ans, fonctionne dans un mode inductif et ce n’est que vers cet « âge de raison » qu’il découvre la logique déductive et le raisonnement démontré. Mais c’est un fait : l’élève n’entendra vraisemblablement pas parler d’induction dans son cursus scolaire. Pourtant, la logique inductive reste celle de notre vie courante, de nos actes quotidiens.

L’induction nous permet de généraliser un phénomène observé, même s’il ne l’est qu’une seule fois. Cette logique, pourtant fondamentalement humaine, reste étrangère à des ingénieurs et scientifiques rodés à l’épistémologie cartésienne. Cela explique un certain nombre de confusions, qui obscurcissent la compréhension des Big Data. Certains voient dans l’induction une forme de statistique et confondent la recherche de singularité avec une segmentation plus fine d’éléments obtenue statistiquement. D’aucuns parlent même d’intuition pour désigner l’induction.

Dans tous ces cas, la confusion est issue d’une volonté de comparer différents principes sur des domaines identiques. En fait il y a un domaine où la déduction excelle (Poincaré, 2009) et un domaine où l’induction est de mise. Chercher à faire de l’induction là où la déduction est efficace et pertinente est une ineptie… mais l’inverse est tout aussi vrai. Les deux outils ne sont pas comparables, et en un sens ils ne sont pas concurrents. La sagesse est d’employer le bon outil dans la bonne circonstance.

Cette dualité se retrouve dans l’approche temporelle de l’analyse. La déduction, la statistique ou la probabilité peuvent se nourrir en une fois de plusieurs années de données pour établir une « loi », c’est-à-dire un résultat répétable. L’induction est en revanche une technique continue, qui demande du temps. Elle fonctionne au fil de l’eau, elle va dégager des singularités, élargir leur assiette et mesurer l’efficacité de leur application.

Il n’y a pas d’unicité du raisonnement inductif. Le raisonnement dépend des inductions précédentes, des singularités détectées. Il n’est pas répétable. Là encore, on est loin des principes cartésiens. L’induction n’exige pas de disposer de paramètres complets et cohérents, car de toute façon notre cerveau ne les traitera que partiellement lui aussi, en se concentrant sur ce qu’il juge être l’essentiel de la situation. En contrepartie de cette célérité il y aura aussi production d’erreurs.

Si par définition, aucun raisonnement inductif n’est logiquement valide, cela ne signifie pas que toutes les inductions sont également incertaines : il faut distinguer la validité d’un raisonnement de son acceptabilité (Gaonac’h Daniel, 2011).

Gaonac’h Daniel, Ionescu Serban, Blanchet Alain. 2011. Psychologie cognitive et bases neurophysiologiques du fonctionnement cognitif. s.l. : PUF, 2011.

Le_Moigne, Jean-Louis. 2007. Les épistémologies constructivistes. s.l. : PUF, 2007.

Poincaré, Henri. 2009. La science et l’hypothèse. s.l. : Flammarion, 2009.

Popper, Karl R. 2006. Conjectures et réfutations. s.l. : Payot, 2006.

Simha, Suzanne. 2007. Comprendre Hume. s.l. : Armand Colin, 2007.

Wired. Chris, Anderson. 2008. 2008, Wired, Vol. http://www.wired.com/science/discoveries/magazine/16-07/pb_theory.