Une machine Big Data est un système qui collecte, traite / transforme et expose des données.
Le phénomène Big Data repose moins sur une évolution des technologies que sur un changement de posture. Devant la croissance exponentielle de données disponibles, un certain nombre d’objectifs ne peuvent plus être tenus. Une autre façon d’aborder les données est rendue nécessaire. Parmi ces objectifs perdus citons la qualité et l’exhaustivité des données.
Le Big Data est aussi un phénomène social, il marque l’ouverture d’un système de connaissance massif et généralisé. Cependant, l’accès à un plus grand volume d’information n’est pas synonyme d’un accroissement de la performance.
Le Big Data porte mal son nom. Le phénomène déclencheur de la prise de conscience est bien lié à l’accroissement du volume d’information disponible, mais le phénomène est bien plus profond que ne le laisse transparaitre le terme. En effet, nous avons enfin pris conscience que l’on ne pouvait plus collecter et traiter toute l’information, suivre toutes ses évolutions, tout vérifier, etc. l’information est produite par des systèmes externes dont on ne maitrise pas l’activité, les sens et les références évoluent dans le temps ou d’une région à l’autre, etc.
Nous sommes donc maintenant immergés dans un monde d’incertitude que nous nous refusions de voir préalablement. Et c’est ce passage de la certitude d’avoir les bonnes données, toutes les données et d’en maitriser le sens vers cette réalité devenue trop visible qui constitue le changement de paradigme.
Changement de paradigme
Avant le Big Data | Avec le Big Data |
Conserver plus de données pour plus de précision | Oublier plus de données pour plus de possibilités |
Eliminer les cas singuliers pour se concentrer sur les plus fréquents | Abandonner les cas fréquents pour se concentrer sur les différentiateurs |
Modéliser et normaliser les données | Rechercher les singularités et les inconnues |
Traiter exhaustivement les données | Se concentrer sur les données essentielles |
Quelques V
Les caractéristiques d’un système Big Data sont, selon les auteurs de 3 à 6 :
Volume | Un système Big Data doit prendre en charge un volume important de données sous forme de stock et/ou de flux. |
Vélocité | Un système Big Data doit traiter des informations en évolution permanente |
Variété | Un système Big Data doit prendre en charge une grande variété de formats de données y compris et surtout des données non structurées. |
Véracité | Un système Big Data doit produire des données vraies alors qu’il collecte des données imprécises, incomplètes et interprétables. |
Valeur | Un système Big Data dispose et produit des données dont la valeur est fonction de l’usage, y compris des usages non encore identifiés. |
Visualisation | Un système Big data doit permettre de restituer des informations appréhendables malgré leur volume, leur variété et leur évolution permanente |
Dimension sociale
Le Big Data a aussi des conséquences sur la vie de chacun d’entre nous. La technologie nous apporte toujours plus de puissance et de capacités mais elle nous délivre aussi un flux croissant de données. Nous arrivons à saturation et nous pouvons y consacrer tout notre temps et ne plus rien produire.
Là aussi il nous faut choisir, organiser sa vie numérique. Et pour cela il faut des outils. Mais ces outils ont besoin de mieux nous connaitre pour nous aider à voyager dans cet hyperespace des données. Et là nous avançons sur le terrain des données personnelles.
C’est une véritable révolution sociale, une recherche d’équilibre entre la vie privée et les services rendus, ou chacun se forgera sa réponse. Mais il est fort à parier que l’on cédera bien plus facilement qu’on peut le craindre sur la protection des données privées, au vu des bénéfices que cela va engendrer.
Biais
Les machines Big Data, aussi bien pensées soient-elles, présentent des biais :
Ignorance | Les données ne sont pas toutes disponibles ou pas toutes collectées, le raisonnement conduit par la machine porte sur des données partielles, fournissant un résultat incertain. |
Interprétation | Le sens affecté aux données collectées n’est pas le même que celui décidé par le producteur de ces données, le contexte ayant souvent changé. |
Raisonnement | Le raisonnement mis en œuvre par la machine Big Data n’est pas compatible avec la nature ou l’origine de la donnée. |
Précipitation | Les données collectées ne font pas l’objet de vérifications ou de recoupements. Ceci est généralement dû à un arbitrage entre le temps de vérification et le risque pris compte tenu de la pérennité de la donnée. |
Manipulation | Les données collectées sont frelatées volontairement ou non. |