L’apprentissage par renforcement est-il supervisé ou non ? Bien que cette question technique soit importante, concentrons-nous sur une perspective commerciale. L’apprentissage par renforcement (RL) recèle un immense potentiel pour transformer les processus décisionnels et optimiser les stratégies dans tous les secteurs.
Le volume considérable de données produites par les ordinateurs, les smartphones et diverses technologies peut être décourageant, en particulier pour ceux qui ne connaissent pas ses implications. Pour exploiter efficacement ces données, les chercheurs et les programmeurs ont fréquemment recours à l’apprentissage automatique pour améliorer l’expérience utilisateur.
Des méthodologies sophistiquées pour les data scientists émergent quotidiennement, englobant des techniques d’apprentissage supervisé, non supervisé et par renforcement. Cet article vise à décrire succinctement l’apprentissage supervisé, non supervisé et par renforcement, à mettre en évidence leurs distinctions et à illustrer leurs applications par des entreprises de premier plan.
L’apprentissage par renforcement est-il supervisé ou non ?
L’apprentissage par renforcement trace sa propre voie dans le monde de apprentissage automatique, distinct de l’apprentissage supervisé et non supervisé. Mais apprenons d’abord ce qu’est l’apprentissage supervisé et non supervisé.
Qu’est-ce que l’apprentissage supervisé ?
L’apprentissage supervisé est une technique d’apprentissage automatique dans laquelle un modèle est formé sur un ensemble de données étiqueté. Cela signifie que les données incluent à la fois des exemples d’entrée et leurs sorties souhaitées correspondantes (étiquettes). L’objectif est que le modèle apprenne la relation entre les entrées et les sorties, afin de pouvoir prédire avec précision la sortie de nouvelles données invisibles.
Pensez-y comme à un élève qui apprend avec un enseignant. L’ensemble de données étiqueté est comme des problèmes pratiques avec des solutions. L’étudiant (le modèle) étudie ces exemples et l’enseignant (l’algorithme) guide le processus d’apprentissage. L’objectif est que l’étudiant apprenne à résoudre des problèmes similaires de manière autonome.
Concepts clés:
- Données étiquetées : Le cœur de l’apprentissage supervisé. Chaque point de données a une entrée (caractéristiques) et sa sortie correcte correspondante (étiquette).
- Entraînement: Le modèle reçoit les données étiquetées. Il analyse les modèles et les corrélations entre les entrées et les sorties.
- Fonction d’apprentissage : Le modèle développe une fonction mathématique qui mappe les entrées aux sorties aussi précisément que possible.
- Prédiction: Une fois formé, le modèle peut prendre de nouvelles entrées et prédire leurs sorties correspondantes.
Qu’est-ce que l’apprentissage non supervisé ?
L’apprentissage non supervisé est une technique d’apprentissage automatique dans laquelle le modèle est formé sur un ensemble de données non étiqueté. Cela signifie que les données incluent uniquement les entrées, sans sorties cibles correspondantes. L’objectif est que le modèle découvre des modèles, des structures ou des relations cachés au sein des données elles-mêmes.
Pensez-y comme à un enfant explorant un nouvel environnement sans aucune instruction spécifique. L’enfant apprend en observant des modèles, en regroupant des objets similaires et en comprenant les relations sans que personne ne lui dise directement comment s’appellent les choses.
Concepts clés:
- Données non étiquetées : L’apprentissage non supervisé n’a pas de réponses prédéfinies sur lesquelles apprendre.
- Découverte de modèles : Le modèle analyse les données pour trouver des similitudes, des différences et des structures sous-jacentes.
- Aucune indication explicite : Aucun « professeur » ne corrige le modèle. Il apprend par la découverte de soi.
Qu’est-ce que l’apprentissage par renforcement ?
L’apprentissage par renforcement est un type d’apprentissage automatique dans lequel un agent apprend par essais et erreurs en interagissant avec un environnement. L’agent essaie différentes actions, reçoit des récompenses ou des pénalités en fonction de ses actions et ajuste sa stratégie pour maximiser la récompense totale au fil du temps.
Imaginez dresser un chien. Vous ne dites pas explicitement au chien comment s’asseoir. Au lieu de cela, vous lui donnez des récompenses (des friandises) lorsqu’il effectue des actions qui le conduisent à s’asseoir. Au fil du temps, le chien apprend à associer la position assise à des récompenses.
Concepts clés:
- Agent: Le décideur, l’entité qui apprend.
- Environnement: Le système avec lequel l’agent interagit.
- État: La situation actuelle de l’agent au sein de son environnement.
- Actions: Ce que l’agent peut faire dans son environnement.
- Récompenses: Les retours positifs ou négatifs sont des signaux que l’agent reçoit pour ses actions.
- Politique: Stratégie utilisée par l’agent pour déterminer l’action à entreprendre dans un état donné.
Quelle technique de machine learning choisir ?
Il n’existe pas de « meilleure » technique d’apprentissage automatique qui surpasse universellement toutes les autres. La meilleure technique dépend entièrement de ces facteurs :
- Le problème: Quelle tâche essayez-vous de résoudre ?
- Classification (par exemple, filtrage du spam par courrier électronique) ?
- Régression (par exemple, prévoir les prix de l’immobilier) ?
- Clustering (par exemple, regroupement de clients)
- Détection d’anomalies (par exemple, identification de transactions frauduleuses) ?
- Type de données :
- Vos données sont-elles étiquetées ou non ?
- Quelle est la taille de votre ensemble de données ?
- Les données sont-elles structurées (par exemple, nombres, catégories) ou non structurées (par exemple, images, texte) ?
- Performance souhaitée :
- Privilégiez-vous la vitesse ou la haute précision ?
- Dans quelle mesure est-il important que le modèle soit facilement interprétable (comprendre comment il prend des décisions) ?
Choisissez l’apprentissage supervisé si vous disposez d’un ensemble de données avec des exemples étiquetés (données d’entrée et leurs sorties correctes correspondantes). Les techniques populaires incluent la régression linéaire (pour prédire des valeurs continues), la régression logistique (pour la classification), les arbres de décision (pour créer des modèles basés sur des règles), les SVM (pour trouver des limites entre les classes de données) et les réseaux de neurones (pour la reconnaissance de formes complexes).
L’apprentissage non supervisé est parfait pour explorer votre ensemble de données, découvrir des modèles cachés ou regrouper des points de données similaires lorsque vous n’avez pas de résultat prédéfini en tête. Les techniques populaires incluent le clustering K-Means (regroupement des données par similarité), l’analyse en composantes principales (ACP) (réduction de la complexité des données) et les encodeurs automatiques (pour trouver des représentations compactes des données).
L’apprentissage par renforcement est particulièrement utile pour les problèmes axés sur la prise de décision avec des récompenses à long terme, comme dans les jeux ou la robotique. Dans l’apprentissage par renforcement, un agent interagit avec un environnement, reçoit des commentaires sous forme de récompenses ou de pénalités et apprend la stratégie optimale pour maximiser les récompenses au fil du temps.
Crédits images : Kerem Gülen/Milieu du voyage