Créée en avril 2010 par l’australien Anthony Goldbloom, la plateforme Kaggle est une plateforme de Data Science. Chaque année, elle réalise une étude auprès de ses utilisateurs afin de dessiner le profil type du data scientist.

Nous vous présentons dans ce billet certains résultats de l’étude 2020 (la quatrième du genre) dont l’intégralité peut être consultée ici.
Le rapport « State of Data Science and Machine Learning 2020 » a été réalisé sur la base des réponses de 2 675membres de Kaggle qui sont actuellement employés comme data scientist.
Le profil type du Data Scientist en 2020 :
• 82% sont des hommes. Ils étaient 84% en 2019. Cette légère progression de la part féminine ne saurait occulter le déséquilibre patent en termes de parité.
• Environ 60% des data scientists ont entre 22 ans et 34 ans. Seul un data scientist sur cinq est âgé de 40 ans ou plus. Par contre, près de 7% d’entre eux sont âgés de 18 à 21 ans.
• La plupart des data scientists codent depuis moins de 10 ans. La moitié des data scientists pratique le Machine Learning depuis 1 à 2 ans seulement.
• Les diplômes d’études supérieures continuent d’être la norme. Plus de 68% d’entre eux ont obtenu soit un Master ou doctorat (17,2%). Moins de 5% des data scientists n’ont aucun diplôme post-bac.
• L’apprentissage de la data science est continu et 90% des répondants déclarent s’inscrire dans une démarche de formation continue. Celle-ci est suivie en ligne majoritairement en suivant les cours de Coursera, Udemy ou Kaggle Learn.
• Sur Kaggle, deux pays dominent le paysage de la data science : les USA et l’Inde (respectivement 14,5% et 22%), la France, avec 3%, est en septième position.
• Les employeurs des data scientist sont majoritairement de petites entreprises. 37% d’entre eux travaillent dans des PME (de moins de 50 salariés).
La technologie et les outils du data scientist :
• Le cloud computing est plébicité (Amazon EC2 en particulier).
• La bibliothèque libre Python : Scikit-learn, est l’outil d’apprentissage automatique le plus populaire auprès des utilisateurs de Kaggle (utilisé par 82,8% des répondants). Elle est suivie par Tensor Flow.
• Les algorithmes de régression linéaire ou logistique sont les plus utilisés.
• Tableau et PowerBI sont les outils de BI les plus populaires.
• L’environnement de développement basé sur Jupyter continue d’être l’outil incontournable des data scientists (74,1% des réponses).
L’étude Kaggle permet, loin des idées reçues, de dessiner le portrait-robot du Data scientist. Cette matière est préemptée par la jeunesse qui va trouver dans l’IA en général, et dans le Machine Learning en particulier, les outils pour construire le monde de demain.
demain.ai soutien très régulièrement les étudiants en Master ou en PhD. Nos experts interviennent régulièrement auprès des grandes universités françaises.
A propos de demain.ai
Spécialistes de l’IA en entreprise et des contenus, nous sommes des experts de la conception et de la mise en place de robots-rédacteurs. Nous permettons à nos clients de développer leurs activités en créant des contenus à une échelle inaccessible à l'être humain.
Devis gratuit
Comment votre organisation peut-elle tirer profit de la DataEcriture ? Quelles économies pouvez-vous réaliser et quels nouveaux services pouvez-vous imaginer pour vos clients ? Nos spécialistes peuvent vous apporter des réponses immédiatement.