Qu’est-ce que la régression dans l’apprentissage automatique ?

KOHb - Getty Images

Les techniques de régression sont essentielles pour découvrir les relations au sein des données et créer des modèles prédictifs pour un large éventail de cas d'utilisation en entreprise, des prévisions de ventes à l'analyse des risques. Voici une plongée approfondie dans cette puissante technique d’apprentissage automatique.

La régression dans l'apprentissage automatique est une technique utilisée pour capturer les relations entre les variables indépendantes et dépendantes, dans le but principal de prédire un résultat. Cela implique la formation d’un ensemble d’algorithmes pour révéler des modèles qui caractérisent la distribution de chaque point de données. Une fois les modèles identifiés, le modèle peut alors faire des prédictions précises pour de nouveaux points de données ou valeurs d'entrée.

Il existe différents types de régression. Deux des plus courantes sont la régression linéaire et la régression logistique. En régression linéaire, l’objectif est d’ajuster tous les points de données le long d’une ligne claire. La régression logistique se concentre sur la détermination si chaque point de données doit être en dessous ou au-dessus de la ligne. Ceci est utile pour trier les observations dans des catégories distinctes telles que fraude/non-fraude, spam/non-spam ou chat/non-chat.

La régression est un concept fondamental dans la plupart des statistiques. L'apprentissage automatique fait passer les choses à un niveau supérieur en utilisant des algorithmes pour distiller ces relations fondamentales via un processus automatisé, a déclaré Harshad Khadilkar, scientifique principal au TCS Research et professeur associé invité à l'IIT Bombay.

"La régression est ce que les scientifiques et les entreprises utilisent pour répondre à des questions quantitatives, en particulier du type "combien", "combien", "quand", etc. Dans l'apprentissage automatique, il découvre toute mesure qui n'est pas actuellement disponible dans le domaine. données", a expliqué Khadilkar.

Deux techniques courantes utilisées en régression dans l'apprentissage automatique sont l'interpolation et l'extrapolation. En interpolation, l'objectif est d'estimer les valeurs dans les points de données disponibles. L'extrapolation vise à prédire les valeurs au-delà des limites des données existantes, sur la base des relations de régression existantes.

La régression est un concept essentiel non seulement pour les experts en apprentissage automatique, mais aussi pour tous les chefs d'entreprise, car il s'agit d'une technique fondamentale de l'analyse prédictive, a déclaré Nick Kramer, vice-président des solutions appliquées au sein de la société de conseil mondiale SSA & Company. La régression est couramment utilisée pour de nombreux types de prévisions ; en révélant la nature de la relation entre les variables, les techniques de régression donnent aux entreprises un aperçu de problèmes clés, tels que le taux de désabonnement des clients, l'élasticité des prix, etc.

David Stewart, responsable de la science des données chez Legal & General, un gestionnaire d'actifs mondial, a noté que les modèles de régression sont utilisés pour faire des prédictions basées sur des informations que nous connaissons déjà, ce qui les rend largement pertinentes dans différents secteurs. Par exemple, la régression linéaire, qui prévoit un résultat numérique, pourrait être utilisée pour évaluer la taille d'une personne en fonction de facteurs tels que l'âge et le sexe. En revanche, la régression logistique pourrait aider à prédire la probabilité qu’une personne achète un nouveau produit en utilisant ses achats antérieurs de produits comme indicateurs.

La régression linéaire a une sensibilité fixe ou constante aux variables dont elle dépend, qu'il s'agisse de la prévision des cours boursiers, de la météo de demain ou de la demande de détail. Par exemple, un double changement dans une variable entraînera un écart spécifique dans le résultat, a déclaré Khadilkar. De nombreux algorithmes standards de l’industrie utilisent la régression linéaire, comme la prévision de la demande en séries chronologiques.

La régression logistique, en revanche, se concentre sur la mesure de la probabilité d’un événement sur une échelle de 0 à 1 ou de 0 % à 100 %. L'idée centrale de cette approche est de créer une courbe en forme de S qui montre la probabilité qu'un événement se produise, l'événement -- tel qu'une panne du système ou une faille de sécurité -- étant hautement improbable d'un côté de la courbe et à proximité. certain de l'autre.

Comme indiqué, les techniques de régression linéaire se concentrent sur l’ajustement de nouveaux points de données sur une ligne. Ils sont précieux pour l’analyse prédictive.

En revanche, la régression logistique vise à déterminer la probabilité qu'un nouveau point de données appartienne au-dessus ou au-dessous de la ligne, c'est-à-dire à une classe particulière. Les techniques de régression logistique sont utiles dans les tâches de classification telles que celles mentionnées ci-dessus : pour déterminer si une transaction est frauduleuse, un e-mail est du spam ou une image est un chat ou non.

Blog

Qu’est-ce que la régression dans l’apprentissage automatique ?