Manipolazione Dati nel Retail
Argomenti: Data Gathering, Data Understanding, Data Manipulation
Intro
Ciao Pythoner! 👋
Sei arrivata/o alla fine di questo viaggio, è ora di sporcarsi le mani!
Per ricevere il timbro da domatore di questo simpatico serpente, dovrai superare qualche prova.
1. Setup: Prepariamoci all'Analisi
Prima di tutto, un caloroso "buon lavoro" da parte nostra. Ti abbiamo preparato un dataset interessante e una serie di istruzioni per guidarti nell'analisi.
Per accedere al dataset, clicca sul link di download qui sotto.
Una volta scaricato il dataset, assicurati di posizionarlo in una directory facilmente accessibile. Questo semplificherà molto la fase di importazione dei dati nel tuo codice.
2. Data Gathering
In questa fase l'obiettivo è prendere confidenza con i dati, di cosa stiamo parlando? Come è costruito il dataset?
Preliminary Steps:
- Importa i pacchetti di cui pensi di aver bisogno (puoi tornare qui anche più avanti, quando avrai bisogno di usarli!)
- Importa il dataset
Schema e struttura:
- Dai un'occhiata alle colonne, quali sono i loro nomi? Di che tipo sono? Puoi già provare ad indovinarne il contenuto!
- Dai un'occhiata ai dati, guardane una porzione, bastano poche righe (le prime o le ultime)
- Quante righe abbiamo in tutto? Qual è quindi la shape del dataset?
- Guarda le principali statistiche descrittive delle variabili numeriche
- Guarda i principali conteggi delle valorizzazioni di alcune variabili categoriche, sia in numeriche assolute che in percentuale
- Ordina le righe come è più intuitivo per te, sulla base della tua comprensione fino ad ora!
Data cleaning:
- Rinomina alcune colonne potrebbero non essere parlanti, rinominale come ritieni più opportuno
- Ci sono dei duplicati? Controlla!
- Ci sono dei null? In quali colonne? Come li filleresti?
3. Data Understanding
In questa fase esploreremo visivamente e con maggior dettaglio i nostri dati!
Categorical Features
- Fai un grafico con i conteggi di una variabile categorica (o anche più di uno, se lo ritieni utile!). Ci sono vari modi per farlo, se hai tempo a disposizione prova a seguire più strade, è spesso molto formativo!
- Fai un grafico con la distribuzione di una variabile categorica (o anche più di uno, se lo ritieni utile!), prova un box plot ad esempio!
Numerical Features
- Fai un grafico con la distribuzione di una variabile numerica (o anche più di uno, se lo ritieni utile!)
- Prova a vedere come di relazionano due variabili tra di loro!
- Se ti piace giocare con i colori, prova ad aggiungere al plot del punto b. un colore diverso per ogni valorizzazione di una variabile categorica (hint: prova ad approfondire il parametro "hue")
- Esplora graficamente la correlazione tra due feature numeriche
- Di ciascuna feature numerica, prova a calcolare media, mediana, deviazione standard
- Di ciascuna feature numerica, prova a calcolare curtosi ed asimmetria
4. Data Manipulation
Adesso gioca e manipola i tuoi dati!
- Filtra il tuo dataset tenendo solo le righe in cui una data colonna numerica è > 0
- Crea una nuova colonna che sia una combinazione di quelle esistenti
- Overall, quanto hanno speso questi Store ogni mese? Puoi provare ad aggiungere anche altre misure a questo raggruppamento, come la media, mediana, min, max
Congratulazioni! 🎉
E' arrivato il momento di presentare il progetto al resto del gruppo!