Python >> Tutoriel Python >  >> Python

11 conseils pour créer un portefeuille solide de science des données avec Python

Vous cherchez des conseils pour créer un portefeuille de data science qui vous placera devant d'autres data scientists en herbe ? Ne manquez pas ces conseils utiles.

Pourquoi avoir un portfolio ?

Même si la demande de spécialistes des données est élevée, la concurrence pour les postes de premier échelon dans ce domaine est rude. Il n'est pas surprenant que les entreprises préfèrent embaucher des personnes ayant au moins une certaine expérience du monde réel en science des données. Mais comment acquérir cette expérience avant même d'être embauché pour votre première un emploi en science des données ?

Eh bien, vous n'avez pas besoin d'être embauché pour faire de la science des données, et la construction d'un portefeuille de science des données est un excellent point de départ. Les données sont partout autour de vous. Il vous suffit de définir un problème et de démontrer à quel point vous êtes capable de le résoudre à l'aide de votre boîte à outils de science des données.

Créer un portefeuille de science des données qui déchire

Vous avez donc appris les bases de Python pour la science des données et vous cherchez un endroit pour commencer votre portefeuille de science des données. Mais comment construire une équipe vraiment forte portefeuille ?

Voici mes conseils essentiels pour construire un portefeuille de science des données qui vous distinguera des autres scientifiques des données en herbe. Plongeons-nous !

1. Construisez un portefeuille autour de vos centres d'intérêt

Qu'est-ce qui vous intéresse? Les politiques de Trump, les taux de criminalité dans différents endroits ou peut-être l'émission de télévision South Park ? Vous pouvez créer un projet de science des données pour (presque) tout ce qui vous intéresse. Identifiez simplement le problème que vous souhaitez résoudre (par exemple, déterminer le prix de votre maison à vendre) ou la question à laquelle vous souhaitez répondre (par exemple, qui est le personnage le plus populaire dans Game of Thrones ?).

N'oubliez pas :le sujet doit vraiment vous intéresser. Cela vous motivera à travailler dur et à aller au-delà des outils d'analyse génériques pour trouver les réponses à vos questions brûlantes sur les données. Et bien sûr, cela se voit toujours quand les gens sont vraiment passionnés par ce qu'ils font.

2. Choisissez des projets que les autres comprendront

Assurez-vous que les projets de votre portefeuille ne sont pas si spécifiques que seuls les experts du domaine pourront suivre l'histoire. Par exemple, vous pourriez être très bon en chimie et décider d'analyser comment différents ingrédients de shampooing affectent le prix et les critiques d'un produit. Mais d'autres personnes pourraient ne pas aimer l'idée de passer au crible un texte ésotérique sur les sodium laureth sulfates , parabènes , et pyrithione de zinc .

Bien sûr, si vous recherchez un poste en science des données dans une industrie de niche spécifique (par exemple, la chimie), ce serait formidable d'avoir des projets spécialisés dans votre portefeuille. Mais sinon, vous devriez également envisager des sujets susceptibles d'intéresser un public plus large.

3. Évitez les ensembles de données communs

Les ensembles de données couramment disponibles offrent une excellente occasion de mettre en pratique les compétences et les concepts nouvellement acquis, alors n'hésitez pas à les utiliser comme exercice. Mais au-delà de cela, ce sont des chevaux morts qui ont déjà été complètement battus dans leurs tombes de science des données. Donc, à moins que vous ne vouliez vous perdre dans une foule de demandeurs d'emploi, gardez-les hors de votre portefeuille.

En outre, lorsque vous travaillez avec des ensembles de données uniques et que vous vous efforcez de résoudre des problèmes non triviaux, vos employeurs potentiels peuvent être plus sûrs que chaque projet représente votre propre travail et n'est pas simplement une copie du code de quelqu'un d'autre qui est largement disponible en ligne.

Le scraping Web est un excellent moyen d'obtenir un ensemble de données unique. Heureusement, Python dispose d'un certain nombre de bibliothèques qui peuvent vous aider à tirer le meilleur parti du Web dans un format adapté à l'analyse. Considérez ces bibliothèques :

  • requests vous aidera à obtenir du contenu HTML.
  • BeautifulSoup est idéal pour extraire des données à partir de fichiers HTML.
  • pandas est un excellent choix pour la manipulation et l'analyse de données supplémentaires.

4. Équilibrez votre portefeuille avec différents projets

Les employeurs recherchent un ensemble spécifique de compétences lorsqu'ils recherchent un data scientist. Utilisez votre portfolio pour mettre en valeur vos compétences en Python pour la science des données en incluant différents types de projets :

  • Un nettoyage des données projet montrera comment vous pouvez utiliser la bibliothèque pandas pour préparer vos données pour l'analyse.
  • Une visualisation des données montrera vos compétences dans la création de visualisations attrayantes mais significatives à l'aide des bibliothèques Python disponibles (matplotlib, seaborn, plotly, cufflinks, bokeh).
  • Un apprentissage automatique projet est nécessaire pour démontrer vos compétences en apprentissage supervisé et non supervisé à l'aide de la bibliothèque scikit-learn.
  • Un storytelling projet vérifiera votre capacité à tirer des informations non triviales des données.

Vous vous sentez un peu rouillé avec les pandas et matplotlib ? Consultez notre cours en ligne Introduction à Python pour la science des données pour vous familiariser avec ces bibliothèques Python essentielles.

5. Participer à des concours

Les compétitions sont très populaires dans la communauté des sciences des données. Les entreprises, les gouvernements et les chercheurs fournissent souvent des ensembles de données au public que les scientifiques des données peuvent ensuite analyser pour produire les meilleurs modèles pour décrire les données et apporter de la valeur aux propriétaires des données.

En participant à différents concours de science des données, vous pourrez :

  • Exercez vos compétences en codage et en science des données
  • Évaluez votre position par rapport à d'autres data scientists
  • Montrez vos réalisations à des employeurs potentiels.

N'ayez pas peur de renforcer votre portefeuille en incluant des liens vers les classements ou en mentionnant les rangs centiles des compétitions dans lesquelles vous avez particulièrement bien réussi.

Consultez les plates-formes de concours de science des données suivantes si vous êtes intéressé :

  • Kaggle
  • Données pilotées
  • Codalab

6. Découvrez les portefeuilles d'autres data scientists qui ont réussi

C'est toujours plus facile de créer quelque chose quand on voit de bons exemples. Même après avoir lu des tonnes d'articles sur la façon de créer un portefeuille de science des données parfait, vous pouvez encore avoir beaucoup de questions sans réponse. Comment puis-je mettre cela ensemble? À quoi devrait ressembler le portefeuille final ?

Si vous vous sentez perdu, assurez-vous de consulter les portefeuilles de data scientists à succès pour avoir une meilleure idée de la direction à prendre. Vous pouvez être inspiré par Sajal Sharma, Donne Martin ou Andrey Lukyanenko.

7. Envisagez d'utiliser Jupyter Notebook

Jupyter Notebook vous permet de mélanger facilement du code, du texte et des images en Python. Cet IDE offre de grandes opportunités pour créer des documents visuellement attrayants qui combinent de manière transparente votre code, vos visualisations, vos tableaux et vos explications. Cependant, en fonction de vos préférences personnelles, vous pouvez choisir de travailler avec un autre IDE Python. En fin de compte, trouvez quelque chose avec lequel vous êtes à l'aise.

8. Postez votre code sur GitHub

GitHub est un endroit populaire où les programmeurs partagent leur code et les résultats de leurs projets. En règle générale, il est courant chez les scientifiques des données de rendre leurs projets personnels accessibles au public. Alors que les projets commerciaux ne sont généralement pas open source en raison de considérations de concurrence, les grandes entreprises technologiques comme Facebook et Google rendent beaucoup de leurs projets ouverts. Ainsi, lorsque vous rendez votre travail public sur GitHub, vous démontrez que vous appartenez à la communauté des data scientists qui contribuent au travail open source.

9. Racontez des histoires avec vos données

La science des données consiste à raconter des histoires avec des données, il est donc important de montrer que vous vous sentez à l'aise avec Python et les principales bibliothèques de science des données. Cependant, vous ne créez pas de tracés uniquement pour avoir une belle image, et vous n'exécutez pas d'algorithmes d'apprentissage automatique uniquement pour obtenir des modèles précis. En tant que scientifique des données, vous devriez être en mesure d'ajouter du sens à vos conclusions, de faire la différence entre ce qui est important et ce qui ne l'est pas, et de développer toute information intéressante que vous obtenez de vos données. Il est donc essentiel que votre portefeuille de science des données inclue une interprétation détaillée des résultats de chaque projet.

10. Créer un blog

Au-delà d'une maîtrise de Python pour la science des données, les responsables du recrutement ont un autre ensemble de compétences très importantes qu'ils recherchent lorsqu'ils recherchent des scientifiques des données :la communication écrite et orale. En fait, votre capacité à communiquer des concepts complexes d'apprentissage automatique en termes simples prédit la qualité de votre communication avec vos coéquipiers et vos responsables. Êtes-vous capable d'expliquer les résultats de votre modèle d'apprentissage automatique afin qu'il ait un sens pour un non-informaticien ?

Écrire un blog est un excellent moyen de démontrer que vous comprenez vraiment ce que les données vous « disent » et que vous pouvez expliquer les résultats à quelqu'un qui n'est peut-être pas aussi familier avec la science des données. Vous pouvez utiliser Medium ou d'autres plates-formes de blogs pour démarrer votre blog sur la science des données.

11. Mettez à jour votre portefeuille

Construire un portfolio est un processus itératif. Au fur et à mesure que vous acquérez de nouvelles compétences, découvrez de nouveaux outils ou découvrez une autre technique intéressante, votre portfolio doit également être mis à jour pour refléter vos nouvelles connaissances. Ne pensez pas que vous ne pouvez pas modifier votre projet après l'avoir rendu public :il est tout à fait acceptable (et courant) d'itérer et d'améliorer vos projets après leur publication, en particulier sur GitHub.

Vous avez découvert comment créer des visualisations interactives ? Pensez à valoriser certains de vos projets avec ces parcelles. Vous avez découvert une autre astuce qui peut améliorer les performances de votre modèle d'apprentissage automatique ? Assurez-vous de mettre à jour les projets de votre portefeuille en conséquence.

Récapitulation

Suivez ces conseils et votre portefeuille de science des données vous aidera à décrocher votre premier emploi en science des données beaucoup plus rapidement. Mais bien sûr, vous devez d'abord devenir très à l'aise avec Python pour la science des données et maîtriser d'autres compétences essentielles en science des données.