Apprentissage automatique (ML). Entraîner des modèles mathématiques avec un algorithme Arbres de décision méthodes de régression et de classification

Bouton [Formation et application d'un modèle mathématique à l'aide de la méthode de l'arbre de décision (régression et classification).]

Les arbres de décision sont classés comme algorithmes d'apprentissage automatique supervisé (ML) et sont utilisés pour prédire les variables de sortie continues (régression) et catégorielles (classification). Cette fonctionnalité de notre logiciel rend la technologie d'apprentissage automatique accessible à un large éventail d'utilisateurs.

Vous pouvez télécharger un exemple de fichier de feuille de calcul structuré pour créer un modèle mathématique et prédire un algorithme d'arbre de décision pour l'analyse de régression : XLSX et pour le classement XLSX .

Les données structurées des fichiers de tableaux peuvent être utilisées pour l'importation : classeur Excel (*.xlsx) ; Classeur binaire Excel (*.xlsb) ; Feuille de calcul OpenDocument (*.ods).

Où est-il utilisé ?

L'analyse des données à l'aide de la méthode de l'arbre de décision peut être utilisée :

comme une alternative efficace (coût, temps, ressources)" Planification des expériences "pour rechercher les modes optimaux de paramètres d'entrée ;
pour une évaluation préliminaire ou alternative des paramètres de sortie lorsque les procédures de mesure de ces paramètres sont effectuées au moyen d'essais coûteux et/ou longs ;
pour les systèmes experts d’aide à la décision (DSS), lorsque les décisions sont associées à des risques d’erreurs humaines.

Fichiers de modèle de données

Notre logiciel peut utiliser des modèles mathématiques entraînés d'arbres de décision pour la bibliothèque scikit-learn, créés sur d'autres ordinateurs et enregistrés dans des fichiers (*.sav).

Arbres de décision par méthode de régression pour grandeurs continues (mesures) en entrée et en sortie

Exemple d'utilisation chez un de nos clients :
Vous gérez le développement de la conception et la production de l'assemblage, et commandez des pièces auprès d'un grand centre de métallurgie. Le nombre de demandes de calcul du coût d'un centre métallurgique dépasse largement le nombre de commandes réelles de celui-ci. Les responsables du centre métallurgique sont déjà réticents et tardifs à répondre à vos demandes. Vous proposez au centre métallurgique de vous fournir un algorithme de calcul afin que vous puissiez calculer rapidement le coût des travaux du centre métallurgique sans distraire ses employés du travail, mais, naturellement, vous recevez un refus.

L'historique de vos commandes avec la quantité, les caractéristiques techniques des pièces (qui servent de base au calcul du coût des prestations du centre métallique) et le coût fourni constituent une excellente base pour créer un modèle de régression et l'utiliser pour obtenir en toute autonomie un centre métallique très proche. prix sans envoyer de demandes de calcul. Fonction d'apprentissage automatique Arbres de décision par régression logicielle Les cartes de contrôle Shewhart + AI démontreront une évaluation de l'exactitude du modèle mathématique lors de sa construction. Une analyse graphique de l'erreur des prix des centres métalliques prédits à l'aide du modèle mathématique construit « Valeurs actuelles par rapport aux valeurs prévues » vous montrera une évaluation des risques possibles, à la fois dans les directions « dangereuses » et « sûres », que vous pouvez prendre en compte. compte dans votre tarification. Pour mettre à jour votre modèle mathématique, vous pourrez le compléter avec des commandes qui parviendront effectivement à exécution dans le centre métallurgique.

Fenêtre permettant d'accéder aux fonctions d'apprentissage automatique (ML)

Figure 1. Fenêtre d'accès aux fonctions d'apprentissage automatique (ML). Une liste de menus déroulants s'affiche lorsque vous passez la souris sur l'élément du menu principal.

Figure 2. Fenêtre des fonctions d'apprentissage automatique (ML). Une info-bulle s'affiche lorsque vous passez la souris sur le bouton pour accéder aux fonctions des arbres de décision (régression et classification).

Fenêtre de transition vers les fonctions d'application d'algorithmes d'apprentissage automatique à l'aide de méthodes d'arbres de décision (régression et classification).

Figure 3. Fenêtre de transition vers les fonctions de gestion des algorithmes d'apprentissage automatique à l'aide d'arbres de décision (régression et classification). Une info-bulle déroulante apparaît lorsque vous passez votre souris sur le bouton pour accéder au panneau de configuration des algorithmes de l'arbre de décision (régression).

Figure 4. Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique utilisant la méthode de l'arbre de décision (régression). Une liste déroulante s'ouvre pour sélectionner la variable prédite.

Fenêtre de la fonction de contrôle pour l'algorithme d'apprentissage automatique utilisant la méthode de l'arbre de décision (régression)-2.

Figure 5. Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique utilisant la méthode de l'arbre de décision (régression). La case permettant de supprimer les restrictions sur la profondeur de l'arbre de décision est cochée. La case est cochée pour enregistrer le modèle lors de la modification des paramètres du modèle dans le dossier d'application correspondant (SCCPython\resources\Model_AI).

Figure 6. Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique utilisant la méthode de l'arbre de décision (régression). Une liste déroulante avec les types de graphiques d'évaluation de modèles mathématiques s'ouvre. La zone de tracé affiche le graphique « Valeurs réelles par rapport aux valeurs prévues » pour l'ensemble de données de test.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (régression)-4.

Figure 7. Fenêtre de la fonction de contrôle de l'application du modèle mathématique de l'arbre de décision (régression). Le graphique est mis à l'échelle sur l'axe X pour afficher moins de points (de 140 à 196) à l'aide de l'outil Zoom situé sous le graphique. Une info-bulle déroulante s'affiche lorsque vous survolez le bouton pour accéder à la fonction de sélection d'un modèle mathématique entraîné pour l'appliquer aux nouvelles données sélectionnées dans les étapes suivantes.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (régression)-5.

Figure 8. Fenêtre de la fonction de gestion de la sélection du modèle mathématique de l'Arbre de Décision (régression). Une info-bulle déroulante s'affiche lorsque vous survolez le champ contenant le chemin d'accès au modèle mathématique entraîné sélectionné.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (régression)-7.

Figure 9. Fenêtre de la fonction de gestion de la sélection du modèle mathématique de l'Arbre de Décision (régression). Une info-bulle déroulante s'affiche lorsque vous passez le curseur sur le bouton pour accéder à la fonction de sélection des données à utiliser dans un modèle mathématique.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (régression)-8.

Figure 10. Fenêtre de la fonction permettant de gérer la sélection d'un fichier de données et de leur appliquer le modèle mathématique de l'Arbre de Décision (régression). Une info-bulle déroulante apparaît lorsque vous survolez le bouton « Prédire les résultats ».

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (régression)-9.

Figure 11. Fenêtre de contrôle de l'application d'un modèle mathématique d'arbre de décision (régression) aux données importées. En cliquant sur le bouton « Prédire les résultats », le modèle est appliqué aux données importées et à la fin de l'opération, une fenêtre de notification s'ouvre pour enregistrer les valeurs prédites dans un fichier Excel avec les données sources.

Si vos données importées contiennent une ou plusieurs colonnes de variables explicatives avec des valeurs catégorielles, telles que [homme, femme], une procédure automatique de codage One-Hot sera effectuée pour convertir les données en nouvelles colonnes codées numériques [0, 1]. Les données codées à chaud seront enregistrées dans le fichier [xlsx] original dans une nouvelle feuille.

Raisons pour lesquelles la précision d'un modèle mathématique utilisant la méthode de l'arbre de décision (régression) peut donner une faible précision

Données limitées : si les données d'entrée d'un modèle sont limitées ou contiennent des informations insuffisantes, le modèle peut contenir des données insuffisantes pour produire un modèle prédictif précis.
Sélection de fonctionnalités incorrecte : si des fonctionnalités inappropriées ou non pertinentes sont incluses dans le modèle, cela peut affecter la précision du modèle. La sélection des bonnes caractéristiques et le nettoyage des données des valeurs aberrantes et du bruit sont très importants pour obtenir une grande précision du modèle de régression.
Sous-entraînement : si un modèle n'est pas entraîné suffisamment longtemps ou n'est pas suffisamment complexe pour approximer des relations complexes dans les données, il peut produire une précision de prédiction médiocre. Dans de tels cas, il peut être nécessaire d’augmenter la profondeur de l’arbre de décision ou d’utiliser d’autres techniques d’apprentissage automatique.
Surajustement : si un modèle comporte trop de paramètres ou un arbre de décision trop profond, il peut surajuster les données d'entraînement et avoir de mauvaises performances avec les nouvelles données. Une façon de lutter contre le surajustement consiste à utiliser la régularisation, telle que le bobbing ou la contrainte des paramètres du modèle.
Données déséquilibrées : si l'ensemble de données d'entraînement contient un nombre impair d'exemples de valeurs de variables cibles, cela peut entraîner une mauvaise précision du modèle. Dans de tels cas, il peut être nécessaire d’utiliser des exemples de techniques de pondération.
Bruit dans les données : le bruit ou les valeurs aberrantes aléatoires dans les données peuvent entraîner une faible précision du modèle de régression. Il est nécessaire d'effectuer une analyse préliminaire des données et de supprimer les valeurs aberrantes, ainsi que d'appliquer des méthodes pour réduire l'influence du bruit, telles que le lissage ou le filtrage des données.

Arbres de décision par méthode de classification pour les quantités continues (mesures) en entrée et les données catégorielles (classes) en sortie

Exemple 1. Sur la base des résultats des tests cliniques du patient, il est nécessaire de prendre une décision sur son diagnostic, par exemple malade/non malade.

Exemple 2. Il est nécessaire de tirer une conclusion sur l'appartenance d'un objet ou d'un événement à une classe (type) spécifique sur la base des résultats de mesures de plusieurs de ses caractéristiques (propriétés).

Fenêtre de la fonction de contrôle pour l'algorithme d'apprentissage automatique utilisant la méthode de l'arbre de décision (classification)-1.

Figure 12. Fenêtre de la fonction de gestion de l'entraînement et de l'évaluation du modèle mathématique de l'arbre de décision (classification). Une info-bulle déroulante s'affiche lorsque vous passez la souris sur le bouton pour accéder au panneau de contrôle des algorithmes d'arbre de décision utilisant la méthode de classification.

Fenêtre de la fonction de contrôle pour l'algorithme d'apprentissage automatique utilisant la méthode de l'arbre de décision (classification)-2.

Figure 13. Fenêtre de la fonction de gestion de l'entraînement et de l'évaluation du modèle mathématique de l'arbre de décision (classification). La case est cochée pour supprimer la limite sur la profondeur de l'arbre de décision. La case est cochée pour enregistrer le modèle lors de la modification des paramètres du modèle dans le dossier d'application correspondant (SCCPython\resources\Model_AI). Une liste déroulante s'affiche avec un choix de types de graphiques d'évaluation pour le modèle entraîné lors de l'utilisation de données de test qui n'étaient pas incluses dans l'ensemble de données d'entraînement.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (classification)-3.

Figure 14. Fenêtre de la fonction de gestion de l'entraînement et de l'évaluation du modèle mathématique de l'arbre de décision (classification) avec graphiques de la « matrice de confusion ». Un indice s'affiche lorsque vous passez le curseur de la souris sur le bouton pour accéder au panneau de configuration permettant de sélectionner un modèle entraîné pour importer des données à l'étape suivante.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (classification)-4.

Figure 15. Fenêtre de la fonction de sélection d'un modèle mathématique entraîné de l'arbre de décision (classification) pour les données sélectionnées par l'utilisateur à l'étape suivante. Une info-bulle s'affiche lorsque vous passez votre souris sur le bouton pour accéder au panneau de contrôle de sélection de données afin de lui appliquer le modèle entraîné sélectionné.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (classification)-5.

Figure 16. Fenêtre de la fonction d'application d'un modèle d'arbre de décision mathématique formé (classification) aux données sélectionnées par l'utilisateur. Une info-bulle apparaît lorsque vous passez votre souris sur le bouton « Prédire les résultats ».

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (classification)-6.

Figure 17. Fenêtre de la fonction d'application d'un modèle d'arbre de décision mathématique formé (classification) aux données sélectionnées par l'utilisateur. En cliquant sur le bouton « Prédire les résultats », le modèle est appliqué aux données importées et à la fin de l'opération, une fenêtre de notification s'ouvre pour enregistrer les valeurs prédites dans un fichier Excel.

Fenêtre de la fonction de contrôle de l'algorithme d'apprentissage automatique à l'aide de la méthode de l'arbre de décision (classification)-7.

Figure 18. Fenêtre de la fonction de gestion de l'entraînement et de l'évaluation du modèle mathématique de l'arbre de décision (classification). Dans la zone graphique, les matrices de confusion sont affichées en grand - le deuxième type de graphiques pour l'arbre de décision (classification).

Raisons pour lesquelles la précision d'un modèle mathématique utilisant la méthode de l'arbre de décision (classification) peut donner une faible précision

Quantité de données insuffisante : si le modèle est entraîné sur une petite quantité de données, cela peut entraîner une faible précision. Plus il y a de données disponibles pour la formation, plus le modèle peut être précis.
Sélection de fonctionnalités inadéquate : si des fonctionnalités inappropriées ou non pertinentes sont incluses dans le modèle, cela peut réduire sa précision. Il est important de sélectionner les caractéristiques les plus fortement corrélées à la variable cible pour obtenir une précision de classification élevée.
Prétraitement des données insuffisant : un traitement incorrect des données, tel qu'une mise à l'échelle ou une normalisation inappropriée, peut entraîner une mauvaise précision du modèle. Il est important d'effectuer les étapes de prétraitement des données nécessaires, telles que le nettoyage des données des valeurs aberrantes ou le remplissage des valeurs manquantes.
Surentraînement du modèle : si un modèle est trop complexe ou comporte trop de paramètres, il peut surentraîner sur les données d'entraînement et avoir de mauvaises performances sur les nouvelles données. Le surajustement peut être réduit, par exemple, en limitant la profondeur de l'arbre ou en utilisant la régularisation.
Déséquilibre des classes : si les classes dans les données sont déséquilibrées, c'est-à-dire qu'une classe domine les autres, le modèle peut avoir tendance à prédire la classe dominante et à afficher une faible précision sur les classes les moins représentées. Dans de tels cas, l’utilisation de techniques d’équilibrage de classes telles que le suréchantillonnage ou le sous-échantillonnage peut améliorer la précision du modèle.
Sélection incorrecte des règles de décision : si les règles de décision qui déterminent la distribution des classes dans les nœuds de l'arborescence sont mal sélectionnées, cela peut entraîner une faible précision du modèle. Il est important de sélectionner des règles de décision appropriées qui séparent le plus précisément possible les classes.

Cartes de contrôle Shewhart PRO-Analyste +IA pour Windows, Mac, Linux Registre des logiciels russes (entrée n° 18857 du 05/09/2023)