Aller au contenu principal

Les différents algorithmes d'apprentissage automatique

scikitlearn algorithm cheatsheet

Définition de l’apprentissage automatique

L'apprentissage automatique (ML) est un domaine de l'intelligence artificielle qui développe des algorithmes capables d'apprendre à partir des données pour exécuter des tâches sans instructions explicites.
Des exemples incluent la reconnaissance faciale, la prédiction des prix, ou le tri des e-mails.

Catégories principales

  1. Apprentissage supervisé Les algorithmes apprennent à partir de données avec des étiquettes (labels) connues (ex. : prix d'une maison ou catégorisation d'e-mails).

    • Régression : Prédire une variable continue (ex. : prix).
    • Classification : Attribuer une catégorie (ex. : spam ou non-spam).

    Exemple : Prédire le prix d'une maison en fonction de la surface, l’emplacement, et l’année de construction.

    Regression vs Classification

  2. Apprentissage non supervisé Les algorithmes analysent des données sans connaître de vérité préalable.

    • Clustering : Regrouper des données similaires (ex. : trier automatiquement des e-mails en groupes).
    • Réduction de dimensions : Simplifier les données sans perdre trop d’information (ex. : compresser une image tout en reconnaissant ses objets).

Principaux algorithmes

  1. Régression linéaire
    Trouve une relation linéaire entre une entrée et une sortie pour minimiser l'erreur de prédiction.

    Exemple : Relation entre taille et pointure : chaque pointure de plus = 2 cm de plus en taille (exemple simplifié).

    linerar regression height shoe size

  2. Régression logistique
    Prédit des probabilités pour des classes (ex. : homme ou femme selon taille/poids).
    Utilise une fonction sigmoïde pour modéliser les classes.

  3. K-Nearest Neighbors (KNN)
    Prend la moyenne des K plus proches voisins pour prédire une valeur (classification ou régression).

    Attention

    Problème d’overfitting si K est trop petit ou underfitting si trop grand (tester plusieurs K pour savoir).

    KNN

  4. SVM (Support Vector Machines)
    Trace une limite qui sépare des classes avec une marge maximale pour éviter les erreurs.

    SVM

  5. Arbres de décision Modèle des décisions successives sous forme d’arbre, basé sur des règles “oui/non”.

  6. Forêts aléatoires (Random Forests) Combine plusieurs arbres pour éviter le surapprentissage. Chaque arbre vote pour une prédiction finale.

  7. Boosting (ex. : AdaBoost, Gradient Boosting) Corrige les erreurs de modèles précédents pour améliorer la précision.

  8. Réseaux de neurones (Deep Learning)

    • Utilisent des layers cachées pour détecter automatiquement des relations complexes.
    • Exemple simplifié : Reconnaître un chiffre malgré des écritures différentes.

    Neural Network

Apprentissage non supervisé : Clustering

  • K-Means Clustering : Regroupe des données selon leur proximité avec des centres de clusters.
  • Autres techniques : Clustering hiérarchique, DBScan.

K Means Clustering

Réduction de dimensions

  • Exemple : La réduction via PCA (Analyse en Composantes Principales) fusionne des variables corrélées pour simplifier les données.

Résumé des algorithmes

AlgorithmeTypeExemple d’utilisation
Régression linéaireRégressionPrédire le prix d’une maison.
KNNLes deuxCatégoriser des individus.
Forêts aléatoiresLes deuxDétection de fraude.
Réseaux de neuronesLes deuxReconnaissance d’image.
K-Means ClusteringNon-superviséGroupement d’e-mails similaires.