Aller au contenu principal

Techniques d'exploration des données

L'exploration des données (EDA) est une étape essentielle pour comprendre la structure des données et identifier les problèmes potentiels.

1. Visualisation des données

  • Histogrammes : Comprendre la distribution des variables numériques.
  • Boxplots : Détection des outliers.
  • Scatter plots : Analyse des relations entre deux variables continues.
  • Heatmaps : Visualisation des corrélations entre plusieurs variables.

2. Statistiques descriptives

  • Moyenne, médiane, écart-type : Caractériser les variables continues.
  • Fréquences et proportions : Analyse des variables qualitatives.

3. Détection des valeurs aberrantes (outliers)

  • Boxplots : Visualisation des valeurs extrêmes.
  • IQR (Interquartile Range) : Méthode statistique pour définir les outliers.
  • Z-Score : Identification des valeurs éloignées de la moyenne.

4. Analyse des corrélations

  • Corrélation linéaire (Pearson) : évaluer les relations linéaires.
  • Corrélation non-linéaire (Kendall, Spearman).
  • Matrice de corrélation pour une vue globale des relations.

5. Analyse de la distribution des données

  • Tests de normalité (Shapiro-Wilk, Anderson-Darling).
  • Visualisation : Histogrammes, courbes de densité.

6. Réduction de dimensionnalité

  • PCA (Analyse en Composantes Principales) : Synthétiser l'information.
  • t-SNE : Visualiser les données dans un espace réduit.
  • UMAP : Méthode alternative pour la réduction de dimension.

7. Groupement des données (Clustering)

  • K-Means : Regrouper les données en clusters.
  • DBSCAN : Détection de groupes de formes arbitraires.
  • Analyse hiérarchique : Construction de dendrogrammes pour visualiser les regroupements.