Au pays du digital, la Data Science est une nouvelle discipline à la croisée de plusieurs chemins : les mathématiques appliquées, la Computer Science, le Business Intelligence et le Machine Learning. Le Data Scientist représente parfaitement ce carrefour, car cet expert pluridisciplinaire est capable de travailler de façon transversale : il utilise les sciences et les techniques pour éclairer les routes du marketing. Voilà pourquoi le métier de Data Scientist caracole en tête des profils qui sont aujourd’hui activement recherchés !
Cela paraît sans doute évident, mais mieux vaut le répéter. Le Data Scientist doit avoir des compétences de… scientifique ! C’est un mathématicien ascendant statistiques. Il a la capacité de déterminer la bonne méthode d’approche pour analyser les données brutes extraites qu’il croise de façon à les faire parler. Et quand elles lui parlent, ces données deviennent utiles et donnent généralement l’indication d’une piste à suivre pour l’entreprise si celle-ci souhaite s’ouvrir à de nouvelles perspectives ou corriger des événements négatifs.
Comment travaille concrètement le Data Scientist ? Généralement, il procède en trois étapes clés : il assure la traduction d’une problématique business en mathématiques. Puis, il puise dans les plateformes d’extraction et de stockage des données pertinentes. Enfin, il croise les résultats de plusieurs sources pour fournir des résultats… qu’il traduit en solution Business. La boucle est bouclée !
Le Data Scientist a une approche croisée de toutes les données quand le Data Analyst gère une seule source de données spécifiques. Pour réussir son analyse, il conçoit des modèles et des algorithmes pour traiter les données brutes et leur donner du sens. Le Data Analyst est souvent à l’origine de la résolution d’une problématique ou de la découverte d’une nouvelle voie. Le Data Scientist, de par son analyse à la fois plus large mais aussi plus fouillée, peut déterminer de nouvelles orientations.
Néanmoins, au sein d’une équipe, ces deux spécialistes de la Data travaillent de concert, tout comme ils collaborent activement avec le Data Engineer ou le (Big) Data Developer. La méthodologie partagée est CRISP pour Cross Industry Standard Process for Data Mining. Six étapes balisent le cheminement de la team, de l’identification de la problématique à la résolution.
Il existe trois grandes catégories de données : les données internes et structurées, les données semi-structurées et les données non structurées. Au sein des data warehouse, le Data Scientist doit les assembler pour les analyser.
L’algèbre linéaire, les statistiques, les fonctions avec variables n’ont donc pas de secret pour lui. Il maîtrise les plateformes analytiques, elles l’aident à aiguiser son sens de l’observation, sa curiosité.
Il fait preuve d’esprit critique, émet des hypothèses, en formule de nouvelles, décide de se mettre seul en quête de réponse sur un phénomène et identifie les bons indicateurs.
Son esprit est tourné vers la recherche pour favoriser un meilleur développement. Il sait créer des programmes, des algorithmes pour l’aider dans sa quête. Son aisance rédactionnelle et orale est un allié dans la gestion de projets. Le Data Scientist a un côté très pédagogue, comme un professeur de l’école de la Datalphabétisation. Enfin, il est essentiel qu’il connaisse bien tous les métiers de l’entreprise et du secteur d’activité pour pouvoir répondre à leurs attentes. Il maîtrise l’anglais technique. Des qualités relationnelles en vue de manager une équipe sont appréciées.
Le Data Scientist maîtrise l’algèbre linéaire, il sait gérer les plateformes Hadoop et Spark, les bases de données SQL et NoSQL. Il utilise les langages de programmation Python et Scala, les logiciels de pratiques statistiques et sciences des données comme l’Open Source R ou SAS, ainsi que des outils de traitement tels que Hiv et Pig.
Des compétences logicielles en matière de data logging sont souhaitées, ainsi qu’une bonne connaissance des univers du Machine Learning et de l’Intelligence artificielle. Le Machine Learning est une technologie en plein essor, car elle extrait la valeur de sources variées sans avoir besoin d’un humain. Avec l’évolution de ce type d’outils très performants qui réduisent le champ de ses compétences techniques, il est donc capital que le Data Scientist maîtrise les outils de datas visualisation et les techniques de communication comme le Data Storytelling. Ces derniers lui offrent la possibilité d’exposer la valeur ajoutée de ses résultats.
Le niveau requis est de l’ordre de bac+ 4/+5. La formation initiale du Data Scientist doit lui permettre de valider des compétences dans les domaines suivants : mathématiques, statistiques, informatique et marketing. De nombreuses universités, comme Saint-Étienne, Caen, Pau ou Nantes, proposent des masters spécialisés.
Des écoles comme le Data Science Tech Institute, Télécom Paris, Polytech Nantes ou les IMT proposent des cursus spécifiques. Il est intéressant de rechercher un parcours qui associe les champs de compétences de deux écoles, comme ce cursus conjoint proposé par l’École Polytechnique et HEC. Il existe des certifications validées par IBM ou Microsoft pour témoigner de ses connaissances en Data Science.
Des parcours de formations certifiantes, de plusieurs mois ou de quelques semaines en mode Bootcamp, sont actuellement présentés par des organismes de formation.
La rémunération d’un Data Scientist démarre à 35-40 K€/an. Elle approche les 55-60 K€/an pour les profils aguerris. En free-lance, le tarif moyen journalier oscille entre 500 et 600 euros.
Avant de devenir Data Scientist, il est apprécié d’avoir été Data Analyst. Le Data Scientist Junior peut aussi démarrer en free-lance et faire du consulting. Au fil de son expérience, le Data Scientist peut devenir Data Chief Officer s’il souhaite évoluer vers des fonctions managériales.