Une machine Big Data est un système qui collecte, traite / transforme et expose des données.

Le phénomène Big Data repose moins sur une évolution des technologies que sur un changement de posture. Devant la croissance exponentielle de données disponibles, un certain nombre d’objectifs ne peuvent plus être tenus. Une autre façon d’aborder les données est rendue nécessaire. Parmi ces objectifs perdus citons la qualité et l’exhaustivité des données.

Le Big Data est aussi un phénomène social, il marque l’ouverture d’un système de connaissance massif et généralisé. Cependant, l’accès à un plus grand volume d’information n’est pas synonyme d’un accroissement de la performance.

Le Big Data porte mal son nom. Le phénomène déclencheur de la prise de conscience est bien lié à l’accroissement du volume d’information disponible, mais le phénomène est bien plus profond que ne le laisse transparaitre le terme. En effet, nous avons enfin pris conscience que l’on ne pouvait plus collecter et traiter toute l’information, suivre toutes ses évolutions, tout vérifier, etc. l’information est produite par des systèmes externes dont on ne maitrise pas l’activité, les sens et les références évoluent dans le temps ou d’une région à l’autre, etc.

Nous sommes donc maintenant immergés dans un monde d’incertitude que nous nous refusions de voir préalablement. Et c’est ce passage de la certitude d’avoir les bonnes données, toutes les données et d’en maitriser le sens vers cette réalité devenue trop visible qui constitue le changement de paradigme.

Changement de paradigme

Avant le Big Data Avec le Big Data
Conserver plus de données pour plus de précision Oublier plus de données pour plus de possibilités
Eliminer les cas singuliers pour se concentrer sur les plus fréquents Abandonner les cas fréquents pour se concentrer sur les différentiateurs
Modéliser et normaliser les données Rechercher les singularités et les inconnues
Traiter exhaustivement les données Se concentrer sur les données essentielles

Quelques V

Les caractéristiques d’un système Big Data sont, selon les auteurs de 3 à 6 :

Volume Un système Big Data doit prendre en charge un volume important de données sous forme de stock et/ou de flux.
Vélocité Un système Big Data doit traiter des informations en évolution permanente
Variété Un système Big Data doit prendre en charge une grande variété de formats de données y compris et surtout des données non structurées.
Véracité Un système Big Data doit produire des données vraies alors qu’il collecte des données imprécises, incomplètes et interprétables.
Valeur Un système Big Data dispose et produit des données dont la valeur est fonction de l’usage, y compris des usages non encore identifiés.
Visualisation Un système Big data doit permettre de restituer des informations appréhendables malgré leur volume, leur variété et leur évolution permanente

Dimension sociale

Le Big Data a aussi des conséquences sur la vie de chacun d’entre nous. La technologie nous apporte toujours plus de puissance et de capacités mais elle nous délivre aussi un flux croissant de données. Nous arrivons à saturation et nous pouvons y consacrer tout notre temps et ne plus rien produire.

Là aussi il nous faut choisir, organiser sa vie numérique. Et pour cela il faut des outils. Mais ces outils ont besoin de mieux nous connaitre pour nous aider à voyager dans cet hyperespace des données. Et là nous avançons sur le terrain des données personnelles.

C’est une véritable révolution sociale, une recherche d’équilibre entre la vie privée et les services rendus, ou chacun se forgera sa réponse. Mais il est fort à parier que l’on cédera bien plus facilement qu’on peut le craindre sur la protection des données privées, au vu des bénéfices que cela va engendrer.

Biais

Les machines Big Data, aussi bien pensées soient-elles, présentent des biais :

Ignorance Les données ne sont pas toutes disponibles ou pas toutes collectées, le raisonnement conduit par la machine porte sur des données partielles, fournissant un résultat incertain.
Interprétation Le sens affecté aux données collectées n’est pas le même que celui décidé par le producteur de ces données, le contexte ayant souvent changé.
Raisonnement Le raisonnement mis en œuvre par la machine Big Data n’est pas compatible avec la nature ou l’origine de la donnée.
Précipitation Les données collectées ne font pas l’objet de vérifications ou de recoupements. Ceci est généralement dû à un arbitrage entre le temps de vérification et le risque pris compte tenu de la pérennité de la donnée.
Manipulation Les données collectées sont frelatées volontairement ou non.