Tecniche di base per pulire i dati
Argomenti: Gestione dei valori mancanti, rimozione delle colonne, deduplicazione, conversione dei tipi di dati.
Intro
La pulizia dei dati è una delle fasi più critiche e consumative nel ciclo di vita dell'analisi dei dati. Dati puliti e accurati sono essenziali per ottenere risultati analitici corretti. Questo modulo esplora alcune delle tecniche di base per la pulizia dei dati usando Pandas.
Gestione dei valori mancanti
I valori mancanti sono comuni nei set di dati e possono distorcere l'analisi se non trattati correttamente.
Rilevare valori mancanti:
missing_values = data.isnull().sum()
Eliminare righe con valori mancanti:
data_cleaned = data.dropna()
Imputazione dei valori mancanti (sostituendo con la media, mediana, moda, o un valore fisso):
data_filled = data.fillna(data['colonna'].mean())
Rimozione delle colonne
Alcune colonne potrebbero non essere rilevanti per l'analisi e possono essere eliminate per semplificare il DataFrame.
data_reduced = data.drop(columns=['colonna_inutile1', 'colonna_inutile2'])
Deduplicazione
I dati duplicati possono distorcere le analisi. È fondamentale identificarli e rimuoverli.
Rilevare duplicati:
duplicati = data.duplicated()
Rimuovere duplicati:
data_unique = data.drop_duplicates()
Conversione dei tipi di dati
La conversione corretta dei tipi di dati assicura che le operazioni sui dati siano appropriate e senza errori.
data['colonna_stringa'] = data['colonna_stringa'].astype('category')
Mantieni sempre una copia del tuo dataset originale prima di iniziare la pulizia. Questo ti permette di tornare indietro se commetti errori durante la manipolazione.
Esercizi
Esercizio 1
- Identifica e gestisci i valori mancanti nel tuo dataset.
- Esamina il tuo DataFrame per eventuali duplicati e decide come gestirli.
- Controlla i tipi di dati delle colonne e converti dove necessario.
- Valuta se ci sono colonne non necessarie e prendi una decisione informata sulla loro rimozione.
Congratulazioni! 🎉
Hai appreso alcune delle tecniche fondamentali per pulire e manipolare i tuoi dati.