Python >> Tutoriel Python >  >> Python

Idées de projets de science des données Python

Vous vous demandez ce que devrait être votre tout premier projet de science des données ou votre premier grand projet en Python ? Ou cherchez-vous votre prochain projet de science des données? Cet article vous donnera quelques idées et directions.

Créer des projets de science des données en Python est essentiel pour votre développement de carrière. C'est le meilleur moyen d'apprendre de nouveaux outils de science des données, de mettre en pratique les compétences que vous avez acquises et de démontrer vos compétences à des employeurs potentiels. Votre capacité à terminer un grand projet par vous-même, sans aucune incitation externe, est également une bonne indication de votre motivation à poursuivre une carrière en science des données.

Alors, par où commencer ? La première étape consiste à définir l'idée du projet.

Comment choisir un projet de science des données

Commençons par quelques éléments importants à prendre en compte lors du choix du sujet de votre prochain projet de science des données en Python.

Créez un projet autour de vos véritables centres d'intérêt. Travailler sur quelque chose qui vous intéresse vraiment est une grande source de motivation. Ainsi, pendant que vous êtes en mesure de décider du sujet de votre projet de science des données, choisissez quelque chose sur lequel vous aimerez travailler. Vous pouvez construire votre projet autour des statistiques du football, de la technologie blockchain ou des tweets de Trump. Suivez simplement vos centres d'intérêt !

Travaillez sur des sujets compréhensibles pour les autres. Bien que vous soyez libre de choisir n'importe quel sujet, je vous recommande d'éviter les sujets qui nécessitent une connaissance approfondie du domaine pour suivre le projet. Avec un projet de data science, vous souhaitez présenter vos compétences à un large public. Ce projet sur la physique théorique des particules n'est peut-être pas la meilleure idée.

Soyez créatif et évitez les ensembles de données communs. Bien que les ensembles de données de jouets couramment disponibles soient parfaits pour pratiquer les compétences Python nouvellement acquises, il est préférable de choisir des données plus uniques pour votre projet. Il est difficile d'impressionner quelqu'un en résolvant un problème qui a déjà été résolu par des milliers d'aspirants data scientists. D'un autre côté, choisir un problème non trivial vous aidera à vous démarquer de la foule.

Avoir un portefeuille diversifié. Lorsque vous réfléchissez à votre prochain projet Python, gardez à l'esprit que votre portefeuille de science des données doit démontrer la diversité de vos compétences. Par exemple, vous souhaiterez peut-être créer des projets qui montrent vos capacités de visualisation de données ou votre capacité à travailler avec des séries chronologiques, des données textuelles non structurées, des images, etc. Pour plus de détails, lisez mon article sur la façon de créer un solide portefeuille de science des données.

Idées pour votre prochain projet de science des données en Python

Comme nous en avons discuté, l'objectif de votre projet de science des données est généralement de démontrer les compétences que vous avez dans le domaine. J'ai donc regroupé mes idées de projets de science des données en fonction des compétences que vous souhaitez peut-être mettre en valeur. Si vous souhaitez créer un portefeuille de science des données solide et diversifié, voici quelques pistes à prendre en compte :

  1. Analyse exploratoire des données (EDA). Chaque projet de science des données commence par l'exploration de l'ensemble de données. Ainsi, démontrer vos compétences en analyse exploratoire de données peut être une bonne idée pour l'un de vos premiers projets de science des données. Python possède plusieurs bibliothèques clés qui peuvent vous aider avec EDA. Utilisez pandas et NumPy pour préparer des statistiques récapitulatives pour votre ensemble de données. Utilisez matplotlib et seaborn pour créer des histogrammes, des nuages ​​de points et d'autres visualisations qui vous aideront à mieux comprendre vos données et à identifier les éventuelles valeurs aberrantes. Le sujet de votre projet EDA peut être à peu près n'importe quoi, comme l'analyse de vos données clients ou l'exploration des statistiques sur la criminalité dans votre ville.
  2. Les visualisations de données telles que les histogrammes et les nuages ​​de points font souvent partie d'une analyse exploratoire des données. Cependant, vous pouvez également avoir des projets axés sur la visualisation, où des tracés plus avancés sont un résultat clé. Par exemple, vous pouvez créer une carte thermique montrant comment l'engagement du public avec vos publications sur les réseaux sociaux varie en fonction du jour de la semaine et de l'heure à laquelle vous publiez. Un projet plus avancé pourrait consister à visualiser les données sur le changement climatique avec Python.
  3. Analyse tabulaire des données. Dans le monde des affaires, beaucoup de données arrivent dans des tableaux. Ainsi, l'un de vos premiers projets de science des données devrait démontrer votre capacité à travailler avec des données tabulaires à l'aide de Python. Il existe de nombreux ensembles de données populaires avec des données tabulaires ; une option intéressante est Titanic, où l'on vous demande de prédire quels passagers ont survécu au naufrage du Titanic basé sur des attributs clés. Vous préférerez peut-être rechercher un ensemble de données plus « professionnel ». En fonction des données que vous pouvez obtenir, vous pouvez construire votre projet autour de la prédiction d'une catégorie de produits en fonction de ses attributs, prendre des décisions de prêt en fonction de l'historique de crédit des demandeurs et d'autres caractéristiques, ou classer les messages de la boîte de réception comme spam ou non-spam en fonction de leur expéditeur. , la ligne d'objet et d'autres attributs.
  4. Prévision de séries temporelles. Vous êtes très susceptible de rencontrer des problèmes de prédiction de séries chronologiques dans le cadre de l'entreprise et au-delà. Lorsque vous travaillez avec des données de séries chronologiques, vous devez utiliser une variété de méthodes de prévision classiques et d'apprentissage automatique. Au minimum, vous devez être familiarisé avec l'autorégression (AR), la moyenne mobile (MA) et la moyenne mobile autorégressive (ARMA). Heureusement, Python dispose d'outils comme la bibliothèque statsmodels qui sont très utiles pour prédire les séries temporelles. Pour démontrer votre capacité à traiter ce type de données, vous souhaiterez peut-être vous attaquer à un projet sur la prévision des prix des crypto-monnaies, les ventes futures, le PIB et l'inflation, la météo, le trafic Web, etc.
  5. Analyse des données textuelles . La grande majorité des données du monde réel sont stockées dans un format non structuré, mais cela ne devrait pas être un obstacle pour un bon data scientist. Python fournit de nombreux outils pour capturer et traiter des données non structurées. Pour montrer vos compétences en matière de traitement de données textuelles non structurées, envisagez de créer un projet autour de la découverte des mots les plus fréquents dans les articles de Reuters, en classant les tweets comme normaux ou offensants, en résumant de longs documents en brefs paragraphes ou en répondant à des questions basées sur des informations trouvées dans un ensemble de documents. .
  6. Analyse des sentiments. L'une des applications commerciales les plus fréquentes de l'analyse de données textuelles est l'analyse des avis des clients à l'aide de l'analyse des sentiments. Ce type de recherche de texte permet de classer les commentaires des clients comme positifs, neutres ou négatifs (en général ou par rapport à des attributs de produit spécifiques tels que le prix, la qualité, l'emplacement). Je présente ce type de projet séparément, car il nécessite l'application d'outils d'apprentissage automatique plus avancés. Pourtant, Python rend l'analyse des sentiments assez simple. Vous pouvez commencer par analyser les avis Amazon pour n'importe quel produit :livres, jeux vidéo, ordinateurs portables, kits Lego, etc.
  7. Détection des anomalies. C'est encore un autre sujet de science des données que vous voudrez peut-être couvrir avec votre prochain projet de science des données Python. C'est aussi assez courant dans le monde des affaires. Par exemple, vous pouvez créer un projet sur l'identification des transactions frauduleuses par carte de crédit, la détection de produits défectueux lors de la fabrication ou la classification d'objets astronomiques ; ce qui, bien qu'il soit nommé comme un problème de classification, s'avère en fait être un autre problème de détection d'anomalies.
  8. Classement des images. Pour un projet de science des données plus avancé, considérez un problème de classification d'images. Des modèles d'apprentissage automatique à la pointe de la technologie aident Google à classer vos images dans Google Photos et aident Pinterest à suggérer des images pertinentes en fonction de vos historiques de recherche et de consultation. Construire ce type de modèle nécessite beaucoup de données d'entraînement et de ressources informatiques, mais vous pouvez commencer par des projets plus simples, comme la reconnaissance de chiffres manuscrits, la détection d'une pneumonie sur la base d'images radiographiques thoraciques ou la classification d'images en fonction de la scène représentée.

Bien sûr, ce n'est pas tout ce qu'il y a dans un projet de science des données - il y a beaucoup plus de choses à faire après avoir choisi un sujet. Lisez ce guide du débutant sur les projets de science des données Python pour en savoir plus sur les autres étapes essentielles pour créer un projet intéressant.

Il est temps de pratiquer vos compétences Python !

Il existe de nombreux projets passionnants de science des données qui sont mieux abordés avec Python. Python est facile à apprendre, dispose d'une riche sélection de bibliothèques et vous aide à créer des modèles de science des données prêts pour la production. Si vous n'avez pas encore commencé à apprendre ce langage de programmation, c'est une bonne idée d'apprendre Python en 2021.

Pour maîtriser les compétences nécessaires à une carrière en science des données, je recommande de commencer par le cours interactif LearnSQL.com d'introduction à Python pour la science des données. Il comprend 141 défis de codage couvrant les bases de Python, le traitement des données tabulaires, les visualisations de données et d'autres sujets.

Si vous souhaitez également apprendre à traiter des fichiers CSV, Excel, JSON et des données textuelles en Python, envisagez de suivre notre parcours Python for Data Science. Il comprend cinq cours interactifs qui ont un total de 329 défis de codage. Ça va être très amusant !

Bonus. Lisez cet article pour découvrir des trucs et astuces Python que tout data scientist devrait connaître.

Merci d'avoir lu et bon apprentissage !