Ne devenez pas un Data Scientist banalisé


Soyez unique et démarquez-vous (Photo de Ricardo Gomez Angel sur Unsplash)

Une marchandise est un bien de base utilisé dans le commerce qui est interchangeable avec d’autres biens du même type. Les matières premières sont le plus souvent utilisées comme intrants dans la production d’autres biens ou services. […] La qualité d’un produit donné peut différer légèrement, mais elle est essentiellement uniforme d’un producteur à l’autre.

—Investopédia

Les céréales sont des marchandises. Le boeuf est une marchandise. Le gaz naturel, le pétrole et l’or sont également des marchandises.

En tant que data scientist, vous n’êtes pas censé être une marchandise.

Les data scientists sont-ils tous pareils ? Est-ce que tous les piquets de la même forme peuvent s’insérer dans n’importe quel trou qu’une organisation peut chercher à remplir ? Sont-ils simplement des corps chauds interchangeables ?

Bien sûr que non. Les scientifiques des données effectuent des tâches dans une grande variété de contextes variés et utilisent des ensembles de compétences techniques et non techniques très différents pour être en mesure de répondre aux exigences de leurs rôles.

Au moins, ça devrait être le cas. Cependant, apparemment de plus en plus de scientifiques des données considèrent le paysage de la science des données comme une liste de cases à cocher en matière de compétences, créant à toutes fins utiles une armée d’individus aux compétences similaires en lice pour attirer l’attention des employeurs.

✔️ Compétences de base en programmation Python
✔️ Un aperçu de l’écosystème informatique scientifique de Python
✔️ Une certaine compréhension des réseaux de neurones et import tensorflow as tf
✔️ Bases du traitement du langage naturel et de l’importation de transformateurs HuggingFace
✔️ Connaissance pratique des bases de la vision par ordinateur
✔️ SQL, ou du moins comment SELECT * FROM Customers WHERE Country='Canada';
✔️ Connaissance de ce qu’est le MLOps, que vous ayez déjà travaillé avec ou non

Super, maintenant vous avez les mêmes compétences que tout le monde.

Ce n’est pas comme ça que vous vous démarquez. Plus important encore, ce n’est pas ainsi que vous faites votre travail. Si tel était le cas, si chaque organisation avait besoin de la même chose pour un scientifique des données, elle prendrait simplement la suivante sur la pile, sans tenir compte des compétences d’un individu donné.

Ne vous méprenez pas : nous devons tous construire une base solide sur laquelle développer notre propre marque de compétences en science des données. Mais même si vous aviez un niveau de compréhension intermédiaire à expert des compétences énumérées ci-dessus – ce qui serait en soi impressionnant, sans aucun doute – vous ne vous démarquez pas sur papier des autres.

Vous avez appris les bases. Vous avez coché les cases. Il est temps de construire là-dessus.

Les organisations et les personnes chargées d’embaucher des scientifiques des données ne savent souvent pas ce qu’elles recherchent… mais elles recherchent quelque chose! Il est temps que les scientifiques des données se démarquent, et cela nécessitera d’utiliser le mot « s » : spécialisation.

Je suppose que vous vous êtes lancé dans la science des données parce que vous avez le sens de la curiosité, que vous êtes un penseur logique et que vous voulez travailler sur des problèmes intéressants. Aucune de ces caractéristiques ne devrait vous suggérer que vous devriez acquérir le même ensemble de compétences et d’expertise que tout le monde possède ! Tout ce qui concerne les caractéristiques innées d’un data scientist crie “individuel” tandis que le chemin général pour en devenir un et les compétences que l’on acquiert en cours de route murmure “conformité”.

Pour assurer votre employabilité à long terme, vous devez vous démarquer, vous démarquer et pour cela affirmer votre individualité. L’époque des scientifiques généralistes des données est révolue, si tant est qu’ils aient vraiment existé.

Améliorer les compétences. Se concentrer. Spécialiser. Ce sont les clés de la longévité dans le jeu de la science des données.

Les licornes n’existent pas. Visez plutôt à être une espèce en voie de disparition.

C’est vrai, une espèce en voie de disparition. Si vous avez des compétences, à la fois techniques et non techniques, que les autres autour de vous n’ont pas, vous êtes une espèce en voie de disparition. Dans le règne animal, cela peut ne pas être bénéfique pour la survie à long terme d’une espèce, mais en tant que data scientist employable, cela l’est certainement.

Alors, comment devenir une espèce en voie de disparition ? Développer un ensemble de compétences spécialisées, techniques ou non techniques, ou les deux.

Il y a tellement de compétences techniques disponibles à ajouter à votre répertoire de nos jours qu’il semble presque ridicule d’en énumérer. Mais afin de démontrer que cela n’a pas besoin d’être le processus difficile que vous pensez peut-être, je vais le faire.

Premièrement, nous voulons penser aux compétences techniques dans le sens d’être une niche. Vous avez déjà (vraisemblablement) couvert le paysage des compétences en science des données de manière large et superficielle ; il est temps de l’examiner à travers le double prisme de la profondeur et de l’étroitesse.

Il y a 2 manières de base auxquelles je peux penser pour aborder l’acquisition de compétences techniques “de niche”.

Nouveau et brillant

Lors de l’acquisition des compétences requises pour les derniers trucs techniques, vous devez équilibrer le fait d’être trop tôt et trop tard, ce qui peut être un acte passionnant. Personne ne cherche un expert dans un nouvel outil qui est sorti hier, mais une fois que tout le monde l’utilise, vos compétences ne font plus de vous cette espèce en voie de disparition.

Une suggestion serait de rechercher des outils open source récemment développés qui n’ont pas encore fait leur chemin mais qui sont vraiment prometteurs. Entrer au rez-de-chaussée et apporter des contributions serait un excellent moyen de vous différencier vis-à-vis de cet outil, en particulier aux heures de grande écoute.

Essayé et testé (mais pas grand public)

C’est la combustion lente. L’outil existe depuis un certain temps, mais il n’a pas encore atteint le succès qu’il devrait probablement connaître. Je pense que JAX en est un excellent exemple. JAX existe depuis quelques années, il est de niveau inférieur à d’autres outils similaires, il a donc un public de personnes à la recherche de cet avantage, et sa popularité ne cesse de croître. Ajouter une certaine expertise ici vous distinguerait de la foule TensorFlow ou PyTorch, surtout si vous êtes familier avec tout ce qui précède.

Vous voyez, il ne s’agit pas nécessairement de ne pas connaître les autres choses, mais de les connaître et quelque chose d’autre.

Je pense que les 2 façons dont vous pouvez différencier les compétences non techniques sont assez évidentes, et nous les examinerons ci-dessous.

Communication

La communication est la clé de la science des données. Rien de nouveau à signaler ici. Cependant, ce que la communication englobe réellement change. Pouvez-vous imaginer à quel point la compétence de “communiquer efficacement des idées avec plusieurs collègues simultanément dans un environnement de réunion en ligne synchrone” aurait été peu convoitée il y a 3 ans ?

Peut-être que pour vous démarquer ces jours-ci, vous pourriez proposer votre propre marque de sollicitation d’adhésion : passez du temps à développer vos artefacts utilisés pour transmettre les résultats d’un projet et l’histoire que vous construisez autour de celui-ci. C’est quelque chose qui est toujours souligné par les nouveaux scientifiques des données, mais souvent le nouvel outil ou la technique brillante prime. Il n’y a rien de mal à être la personne de l’équipe vers laquelle les autres se tournent pour vendre efficacement les résultats et la vision de l’équipe aux autres parties prenantes.

Domaine d’expertise

Celui-ci est une évidence. Vous souhaitez mettre vos compétences en machine learning au service du secteur financier ? Vous feriez mieux de vous renseigner sur le secteur de la finance !

Cela va au-delà des domaines de l’industrie ; Il y a beaucoup trop de gens qui attaquent le traitement du langage naturel du point de vue technique qui n’ont pas une solide compréhension de la linguistique, et cela se voit. Vous souhaitez vous démarquer en PNL ? Prenez quelques textes linguistiques. Idem pour la vision par ordinateur : si vous ne connaissez pas les teintes, l’interpolation, le bruit gaussien, etc., démarquez-vous en apprenant. Cela ne fera que vous aider à entrer là où vous voulez vous intégrer.

Oublions l’idée que tous les scientifiques des données doivent connaître X, Y et Z. Il y a beaucoup plus de lettres dans l’alphabet des compétences, alors apprenez vous-même un E, un J ou même un petit M.

Et toujours…

Ne devenez pas un Data Scientist banalisé
Image de l’auteur

Matthieu Mayo (@tmttxt) est un scientifique des données et le rédacteur en chef de KDnuggets, la principale ressource en ligne sur la science des données et l’apprentissage automatique. Ses intérêts portent sur le traitement du langage naturel, la conception et l’optimisation d’algorithmes, l’apprentissage non supervisé, les réseaux de neurones et les approches automatisées de l’apprentissage automatique. Matthew est titulaire d’une maîtrise en informatique et d’un diplôme d’études supérieures en exploration de données. Il peut être joint à editor1 à kdnuggets[dot]com.

Leave a Comment

Your email address will not be published. Required fields are marked *