Python >> Python tutorial >  >> Python

Studerer Netflix abonnementsdatasæt i Python

Hej medkoder! I dag skal vi se på datasættet for en meget populær filmstreamingplatform, Netflix. Datasættet indeholder oplysninger om antallet af shows, abonnementsomkostninger for mange lande, der er til stede i datasættet, som bruger Netflix.

Lad os starte med at forstå datasættet.

Netflix abonnementsdatasætbeskrivelse

Du kan downloade datasættet fra Kaggle-linket her. Den indeholder følgende attributter:

  1. Land:Nogle lande, der bruger Netflix.
  2. Samlet biblioteksstørrelse:Samlet antal film og tv-serier, der er sendt i et bestemt land.
  3. Nej. af tv-udsendelser:Samlet antal tv-serier udsendt i landet.
  4. Nej. af film:Samlet antal film udgivet i landet.
  5. Pris pr. måned – grundlæggende:Den månedlige pris for "basispakken".
  6. Prisen pr. måned – Standard:Den månedlige pris for "standardpakken".
  7. Pris pr. måned – Premium:Den månedlige pris for "premiumpakken".

Kodeimplementering for Netflix-abonnementsdataundersøgelse

Lad os nu gå i gang med at studere datasættet for Netflix-abonnementer ved hjælp af Python.

Import af biblioteker

import numpy as np 
import pandas as pd 
import os
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import pandas_profiling

Indlæser datasæt

Det tilstedeværende datasæt er i form af CSV-filer, som inkluderer en række data pr. linje, og hver linje er en kommasepareret liste, hvor hvert element er en kolonne. Pandaer gør det nemt at læse disse data, og derfor bruger vi pandamodulet til at læse datasættet ved hjælp af koden nedenfor.

data = pd.read_csv('gta_cars.csv')
data.head()

Visualisering af nogle grundlæggende histogrammer

Vi vil visualisere histogrammer for nogle af kolonnerne fra datasættet ved hjælp af koden nedenfor. Histogrammer hjælper os med at forstå, hvordan en bestemt kolonne er fordelt sammen med en bestemt række af værdier.

plt.style.use('seaborn')
plt.figure(figsize=(20,7),facecolor='w')

plt.subplot(1,3,1)
plt.hist(data['Total Library Size'],edgecolor='black',color='pink')
plt.xlabel("Size of the Library")
plt.ylabel("Distribution")
plt.title("Histogram for Library Size")

plt.subplot(1,3,2)
plt.hist(data['No. of TV Shows'],edgecolor='black',color="lightgreen")
plt.xlabel("No. of TV Shows")
plt.ylabel("Distribution")
plt.title("Histogram for No. of TV Shows")

plt.subplot(1,3,3)
plt.hist(data['No. of Movies'],edgecolor='black',color="cyan")
plt.xlabel("No. of Movies")
plt.ylabel("Distribution")
plt.title("Histogram for No. of Movies")

plt.show()

Visualisering af månedlige abonnementsomkostninger for landene

Vi kan også visualisere abonnementsomkostningerne for basis-, standard- og premiumpakker af Netflix for alle de lande, der er til stede i datasættet. Til denne øvelse vil vi visualisere de grundlæggende månedlige omkostninger i form af søjlediagrammet, cirkeldiagrammet og punktdiagrammet ved hjælp af koderne nedenfor.

Du kan se, hvor smukke grundene viser sig at være, og de er også interaktive, hvilket gør dem til et plus!

fig = px.bar(data, x='Country', y='Cost Per Month - Basic ($)', color = "Cost Per Month - Basic ($)",
             title="Country vs Cost per Month")
fig.show()
fig = px.pie(data, values='Cost Per Month - Basic ($)', names='Country',title = "Cost Per Month - Basic ($)")
fig.update_traces(textposition='inside')
fig.update_layout(uniformtext_minsize=12, uniformtext_mode='hide')
fig.show()
fig = px.scatter(data, x="Country", y="Cost Per Month - Basic ($)",title = "Cost Per Month - Basic ($)")
fig.show()

Alle abonnementsomkostninger i ét plot

Dernæst kan vi også visualisere alle abonnementstyper (Basic, Standard og Premium) omkostninger for alle landene i et enkelt plot ved hjælp af koden nedenfor.

plt.figure(figsize=(20,10),facecolor='w')
plt.plot(data["Country"],data["Cost Per Month - Basic ($)"],color="maroon",label="Basic Subscription")
plt.plot(data["Country"],data["Cost Per Month - Standard ($)"],color="darkblue",label="Standard Subscription")
plt.plot(data["Country"],data["Cost Per Month - Premium ($)"],color="orchid",label="Premium Subscription")
plt.xticks(rotation=90)
plt.title("All Subscription Costs in Various Countries",size=14)
plt.legend(title = "Subscription Type")
plt.show()

Konklusion

Tillykke! Denne vejledning dækkede de grundlæggende visualiseringer af Netflix-abonnementsdatasættet, der findes på Kaggle. Jeg håber, du har lært en masse gennem selvstudiet og vil være i stand til at anvende de samme kodestykker på andre datasæt.

Tak fordi du læste med!

Hvis du kan lide at læse sådanne tutorials, er her nogle lignende tutorials, du helt sikkert vil nyde:

  1. Sådan parses CSV-filer i Python
  2. JSON til CSV:Eksporter en JSON-fil til en CSV-fil ved hjælp af Python