Il y a quelques années est né le métier de datascientist. A l’origine ce métier nouveau venait s’ajouter aux métiers de statisticiens et de dataminer en apportant des spécificités propres à la datascience telles que :

  • Une forte orientation métier pour être en mesure de comprendre les données (et donc des profils non généralistes)
  • Une forte compétence en mathématique pour traiter de problématiques complexes
  • Un profil ingénieur pour conceptualiser et produire rapidement dans un monde où chaque seconde perdue offre des avantages aux concurrents (faire des algorithmes qui fonctionnent plutôt que des algorithmes qui s’expliquent)

Dans ces circonstances concevoir un système big data devait mettre en œuvre à la fois des compétences de dataminer pour définir une architecture appropriée d’hébergement, de circulation et de préparation des données, des compétences de statisticiens pour traiter des signaux forts et des compétences de datascientists pour traiter des signaux faibles fortement imprégnés des spécificités des métiers. Tout ceci paraissait sain.

Mais la nature a horreur du vide, et les sociétés de service aussi. La carence en datascientist a alimenté la tentation de faire l’amalgame et aujourd’hui il n’existe plus de statisticien qui se dise statisticien, tous se prétendent datascientists (c’est mieux payé et on fait toujours comme avant).

Il faut dire que la datascience est bien moins confortable que la statistique. En statistique l’approche mise en œuvre est intégrative, relativement indépendante du métier, on élimine tout ce qui ne rentre pas dans le modèle, c’est nettement plus simple. En datascience l’approche est différenciative, on est confronté à des signaux faibles, des discontinuités, des spécificités liées aux métiers, c’est beaucoup plus compliqué. Alors forcément l’amalgame arrange tout le monde, sauf le client. Mais tant que le client ne sait pas faire la différence, certains profitent lâchement de la situation.

Heureusement, des sociétés de service commencent à se poser des vraies questions, quelle est la différence entre un statisticien et un datascientist ? On avance sur la bonne voie.