Python >> Tutoriel Python >  >> Python

Comment lire des fichiers Excel en Python

Avez-vous travaillé avec des fichiers Excel ? Je vais vous montrer comment les lire dans Python afin que vous puissiez automatiser les tâches liées à Excel.

Si vous êtes un analyste de données, un ingénieur de données ou quelqu'un qui écrit des scripts pour automatiser des tâches simples, il est fort probable que vous ayez travaillé ou travaillerez avec des fichiers Excel. Dans cet article, nous verrons comment lire des fichiers Excel en Python. Vous pouvez également consulter notre cours Comment lire et écrire des fichiers Excel en Python pour en savoir plus sur les fonctionnalités complètes du openpyxl bibliothèque.

Si vous souhaitez développer vos compétences pour devenir un scientifique des données, assurez-vous de consulter notre cours Introduction à Python pour la science des données, où vous en apprendrez plus sur Python et ses outils pour vous aider à démarrer dans votre voyage.

Que sont les fichiers Excel ?

Microsoft Excel est une application de feuille de calcul de Microsoft pour Windows, macOS, Android et iOS. Une feuille de calcul est utilisée pour stocker et analyser des données tabulaires structurées en lignes et en colonnes.

Excel est l'un des formats les plus utilisés pour l'échange de données. Il doit sa popularité au fait que le système d'exploitation Windows est si couramment utilisé.

Excel est également populaire auprès des personnes non techniques. Voici quelques raisons :

  1. Il est facile à utiliser.
  2. Il dispose de fonctionnalités puissantes qui facilitent la visualisation et l'analyse.
  3. La plupart des bases de données et des outils de traitement des données disposent d'interfaces pour fonctionner avec Excel.

Examinons un exemple de données que l'on peut trouver dans un fichier Excel pour mieux comprendre la structure.

Date de commande Élément Unités Coût unitaire 06/01/2020Crayon1000,88 23/01/2020Chaise1022,33 22/05/2020Bureau245,42

C'est l'une des structures de données les plus courantes que nous trouvons dans un fichier Excel. En tant que data scientist, vous pouvez être chargé d'analyser les ventes de l'entreprise à l'aide de données structurées comme celle-ci. Les données peuvent provenir d'un autre service après avoir travaillé avec lui ou directement de la base de données. La lecture des données directement dans Python rend la tâche d'analyse beaucoup plus simple, surtout si les données sont assez volumineuses.

Une autre tâche courante pour un data scientist est de visualiser ou de rendre les données plus présentables. Les data scientists prennent souvent les données générées par l'entreprise et transmettent les résultats de l'analyse aux managers et autres employés non techniques. Bien qu'Excel offre des fonctionnalités similaires, les bibliothèques de science des données de Python ont évolué rapidement et les gens gravitent de plus en plus vers Python. Si vous n'êtes pas convaincu, je vous invite à jeter un œil au billet de blog suivant qui vous donne plus de raisons pour lesquelles Python vaut la peine d'être appris en plus d'Excel.

Par exemple, j'ai travaillé avec des tonnes de fichiers Excel lorsque j'ai aidé ma petite amie à automatiser certaines tâches à son travail. Ils lisaient manuellement les données de plusieurs fichiers Excel et CSV pour créer des rapports, partageant ces rapports avec leurs clients. L'ensemble des tâches prenait 2 jours par mois pour près de 4 collègues. Avec le xlrd bibliothèque et quelques recherches sur Google, j'ai pu automatiser toutes ces tâches avec un minimum d'intervention de l'utilisateur et créer tous les rapports pour chaque client.

Comme dans ce cas, il est assez courant de travailler avec plusieurs formats de fichiers. Le CSV est un autre format de fichier très courant; jetez un oeil à cet article où nous montrons comment lire des fichiers CSV en Python.

Comment travailler avec des fichiers Excel à l'aide de Python

De nombreuses bibliothèques Python peuvent être utilisées pour lire facilement un fichier Excel. Certaines options sont openpyxl , pandas , et xlrd . Nous nous concentrerons sur la façon de lire des fichiers Excel vers Python en utilisant le openpyxl bibliothèque.

Nous importons d'abord le load_workbook() fonction du openpyxl bibliothèque à lire dans le fichier Excel. Ensuite, nous passons le nom du fichier que nous voulons lire comme argument à cette fonction.

from openpyxl import load_workbook
name = 'name_of_the_file.xlsx'
wb = load_workbook(name)

Avec cet extrait de code, nous pouvons lire notre fichier Excel en Python. Un fichier Excel peut contenir de nombreuses feuilles de calcul, mais il existe un moyen pratique de vérifier le nombre de feuilles de calcul. Nous pouvons simplement utiliser wb.sheetnames pour obtenir le nom de chaque feuille de calcul sous forme de liste. Par exemple, ils pourraient être sheet1 , sheet2 , et sheet3 . Nous pouvons sélectionner celui avec lequel travailler, de la même manière que nous indexons les dictionnaires en Python.

Nous pouvons maintenant faire quelques choses de plus avec openpyxl pour parcourir les lignes de ce fichier et imprimer chaque ligne séparée par un espace. Gardez à l'esprit que cela imprimera les noms de colonne sur la première ligne.

for row in wb["SalesOrders"].iter_rows():
for cell in row:
print(cell.value, end=" ")
print("")

Dans l'extrait de code ci-dessus, nous utilisons le iter_rows() fonction sur la feuille wb["SalesOrders"] .Cela renvoie un objet itérable avec toutes les lignes de la feuille de calcul, que nous pouvons utiliser dans le for boucle. Ensuite, nous parcourons toutes les cellules de la ligne dans la seconde boucle for. Nous accédons à la valeur dans chacune de ces cellules simplement en utilisant cell.value .

Vous pouvez maintenant lire des fichiers Excel en Python

La lecture à partir de fichiers Excel vous permet de faire beaucoup avec les données disponibles, comme la visualisation, l'analyse, l'apprentissage automatique ou même la création de présentations structurées. Il existe de nombreuses autres fonctionnalités fournies par le openpyxl bibliothèque. Si vous souhaitez en savoir plus à leur sujet et acquérir une expérience pratique en même temps, jetez un œil à Python pour la science des données. Cette piste comprend le travail avec de nombreux formats de fichiers différents, y compris notre cours interactif Comment lire et écrire des fichiers Excel en Python, et vous enseigne toutes les compétences nécessaires pour un scientifique des données.

L'expérience pratique est l'une des choses les plus cruciales qu'un data scientist puisse avoir à son actif. Pour la plupart des postes, vous devrez démontrer vos connaissances par le biais d'entretiens techniques ou de projets fictifs. Jetez un œil à notre liste de questions d'entretien Python courantes pour les Data Scientists, si vous souhaitez revoir vos connaissances avant un entretien.