python 6 - Pandas Flashcards
(24 cards)
commande pour importer panda
import panda as pd
comment lire un DataFrame à partir d’un fichier CSV
df = pd.read_csv(“data/communes-france-2025.csv”)
(df signifie dataframe)
Comment afficher le DataFrame pour vérifier son contenu
type(df)
Comment afficher les 3 premières lignes du DataFrame
df.head(3)
si on met rien entre parenthèses ça affiche par défaut les 5 premières lignes
Comment afficher les 3 dernières lignes du DataFrame
df.tail(3)
si on met rien entre parenthèses ça affiche par défaut les 5 dernières lignes
Comment afficher aperçu statistique des colonnes numériques
df.describe(include=”all”)
Comment afficher les noms des colonnes
df.columns
Comment faire le lien avec SQL ?
df.query(“population > 300000 and population < 1000000”)
Qu’est ce qu’une série ?
Une série est un tableau à une dimension qui peut contenir des données de différents types (entiers, flottants, chaînes de caractères, etc.). C’est un vecteur numpy avec un index des lignes.
Une colonne ou une ligne d’un DataFrame Pandas est une Série.
Comment accède t on à une série ?
On y accède en utilisant le nom de la colonne entre crochets: df['nom de colonne']
: sélectionne une colonne
serie_code_insee = df[“code_insee”]
Comment vérifier le type d’une colonne ?
type(serie_code_insee)
# Une colonne est un objet Series
Comment adapter les types d’une série ?
On peut également adapter les types des Series avec des méthodes comme astype()
df[“dep_code”] = df[“dep_code”].astype(str)
df[“population”] = df[“population”].astype(int)
comment sélectionner des colonnes spécifiques
cols = [
“code_insee”,
“nom_standard”,
“latitude_mairie”,
“longitude_mairie”,
“altitude_minimale”,
“altitude_maximale”,
]
df[cols].head()
Comment appliquer une condition ?
population = df[“population”]
cond = population >= 1000
cond.head()
Sélectionner les villes avec une population supérieure à 200 000
df[df[“population”] >= 200_000].head()
Comment on ajoute une colonne
df[“Pays”] = “France”
df.head()
df[“denivele”] =
(df.altitude_maximale -df.altitude_minimale)
# pd.DataFrame.__setitem__(self, key, value)
Comment modifier une colonne ?
Transformer la colonne “denivele” en m en cm
df[“denivele”] = df[“denivele”] * 100
Comment supprimer une colonne ?
df = df.drop(columns=”denivele”, axis=1)
comment renommer une colonne
df = df.rename(
columns={
“denivele”: “denivele_m”,
}
)
comment effectuer la somme sur 1 colonne ? (ou 2 ?)
df[[“population”, “superficie_km2”]].sum(axis=0)
renvoie
population 67648309
superficie_km2 615991
comment effectuer la moyenne sur une colonne ?
population = df[“population”]
population.mean()
comment utiliser groupby
df_population_par_departement = df.groupby(“dep_code”)[“population”].sum()
à quoi sert la fonction agregate
La fonction aggregate permet quant-à elle de personnaliser les fonctions appliquées par colonne. Il est possible en un seul appel de grouper les données et d’appliquer plusieurs statistiques sur les colonnes du DataFrame.