Cartes de contrôle Shewhart
PRO-Analyste +IA
pour Windows, Mac, Linux

Registre des logiciels russes (entrée n° 18857 du 05/09/2023)

Acheter un logiciel

Apprentissage automatique (ML). Clustering BOULEAU, Mélange Gaussien

Bouton [Fonction d'apprentissage automatique - Clustering BIRCH]

Le clustering est une technique d'apprentissage automatique utilisée pour regrouper des instances similaires ou homogènes dans des clusters de données distincts. Cette méthode est utilisée dans les tâches d’apprentissage automatique non supervisées.

Vous pouvez télécharger un exemple de fichier de table structurée pour les algorithmes de clustering : XLSX .

Les données structurées des fichiers de tableaux peuvent être utilisées pour l'importation : classeur Excel (*.xlsx) ; Classeur binaire Excel (*.xlsb) ; Feuille de calcul OpenDocument (*.ods).

Où peut-il être appliqué

Exemple 1. Les données collectées par le service marketing sur les achats des clients permettent de comprendre s'il existe des similitudes entre les clients. Ces similitudes divisent les clients en groupes (clusters), et le fait d'avoir des groupes de clients aide à cibler les campagnes, les promotions, les conversions et à établir de meilleures relations clients.

Exemple 2. Identification des groupes les plus homogènes selon les indicateurs qualitatifs d'un mélange de composants à partir des indicateurs quantitatifs ou qualitatifs de chacun des composants du mélange.

Exemple 3. Identification des groupes les plus homogènes selon des indicateurs qualitatifs ou quantitatifs de produits finis basés sur différents modes technologiques de production.

Exemple 4. Identification d'objets atypiques qui ne peuvent être rattachés à aucun des clusters.

Regroupement BOULEAU
Bouton [Fonction d'apprentissage automatique - Clustering BIRCH]

Clustering BIRCH (réduction itérative équilibrée et clustering utilisant des hiérarchies) - réduction itérative équilibrée et clustering utilisant des hiérarchies.

L'analyse de cluster par l'algorithme BIRCH nécessite des données avec des attributs métriques. Un attribut métrique est un attribut dont les valeurs peuvent être représentées par des coordonnées explicites dans l'espace euclidien (sans variables catégorielles).

Fenêtre de fonctionnalité d'apprentissage automatique (ML) avec le bouton de fonction de clustering mis en surbrillance

Figure 1. Fenêtre des fonctions d'apprentissage automatique (ML). Une info-bulle s'affiche lorsque vous passez la souris sur le bouton permettant d'accéder aux fonctions de clustering utilisant les algorithmes BIRCH et Gaussian Mixture.

Fenêtre des fonctions d’apprentissage automatique (ML). Une info-bulle s'affiche lorsque vous passez la souris sur le bouton permettant d'accéder à la fonction de clustering par la méthode BIRCH.

Figure 2. Fenêtre des fonctions d'apprentissage automatique (ML). Une info-bulle s'affiche lorsque vous passez la souris sur le bouton permettant d'accéder à la fonction de clustering utilisant l'algorithme BIRCH.

Fenêtre des fonctions de Machine Learning (ML) - Clustering selon la méthode BIRCH. Les mesures des attributs métriques des points sont sélectionnées, les valeurs [Valeur seuil] et [Nombre de clusters] sont définies et la case [Enregistrer les résultats] est décochée.

Figure 3. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Les mesures des attributs métriques des points sont sélectionnées, les valeurs [Valeur seuil] et [Nombre de clusters] sont définies, les cases [Lignes entre centroïdes et points] et [Enregistrer les résultats] sont décochées. Les croix noires indiquent les centroïdes (centres de gravité des clusters) avec les numéros de cluster.

Fenêtre des fonctions de Machine Learning (ML) - Clustering selon la méthode BIRCH. Une liste déroulante de mesures s'affiche pour réflexion le long de l'axe [Y]. La case [Enregistrer les résultats] est cochée.

Figure 4. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Une liste déroulante de mesures s'affiche pour réflexion le long de l'axe [Y].

Fenêtre des fonctions de Machine Learning (ML) - Clustering selon la méthode BIRCH. Une liste déroulante de mesures s'affiche pour réflexion le long de l'axe [X].

Figure 5. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Une liste déroulante de mesures s'affiche pour réflexion le long de l'axe [X].

Fenêtre des fonctions de Machine Learning (ML) - Clustering avec l'algorithme BIRCH. La case [Lignes entre centroïdes et points] est cochée.

Figure 6. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Les cases [Lignes entre centroïdes et points] et [Enregistrer les résultats] sont cochées.

Fenêtre des fonctions de Machine Learning (ML) - Clustering selon la méthode BIRCH. Un message apparaît pour enregistrer les codes de cluster attribués aux paires de données (X et Y) dans le fichier source sur la feuille BIRCH.

Figure 7. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Un message apparaît concernant l'enregistrement des codes de cluster attribués aux paires de données (X et Y) dans le fichier source sur la feuille "BIRCH". Les noms des colonnes des clusters attribués conservent le nom de la méthode de clustering, de détection automatique des clusters ou définie par l'utilisateur, les noms du couple de mesures et d'indicateurs [Valeur seuil] et [Nombre de clusters] sélectionnés par l'utilisateur.

Fenêtre des fonctions de Machine Learning (ML) - Clustering avec l'algorithme BIRCH. Un indice s'affiche lorsque vous passez la souris sur le bouton pour accéder à la fonction de dessin de lignes verticales et horizontales sur des graphiques

Figure 8. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Un indice s'affiche lorsque vous passez la souris sur le bouton pour accéder à la fonction de dessin de lignes verticales et horizontales sur des graphiques.

Fenêtre de la fonction auxiliaire pour tracer des lignes verticales et horizontales sur des graphiques.

Figure 9. Fenêtre des fonctions d'apprentissage automatique (ML) - Clustering avec l'algorithme BIRCH. Fenêtre de la fonction auxiliaire pour tracer des lignes verticales et horizontales sur des graphiques. Deux lignes verticales avec des noms et une ligne horizontale ont été introduites. Vous pouvez afficher n'importe quel nombre de lignes avec des étiquettes (nom-valeur). Vous pouvez modifier la valeur de n'importe quelle ligne sélectionnée dans la liste. Vous pouvez supprimer n'importe quelle ligne sélectionnée dans la liste déroulante ou toutes les lignes à la fois.

Raisons pour lesquelles la qualité du modèle mathématique utilisant la méthode de clustering BIRCH peut être insuffisante
  1. Réglage des hyperparamètres sous-optimal : le clustering BIRCH comporte des hyperparamètres tels que des seuils et des rayons de cluster qui doivent être ajustés. Un mauvais choix d'hyperparamètres peut conduire à une mauvaise qualité du modèle.
  2. Inexactitude et incohérence des données : la qualité du clustering BIRCH peut être médiocre si les données contiennent du bruit ou des valeurs aberrantes qui peuvent perturber les limites et la structure des clusters.
  3. Critère de similarité non spécifié ou mal sélectionné : La qualité du clustering BIRCH peut dépendre du choix ou du paramétrage du critère de similarité. Un choix incorrect du critère de similarité peut conduire à un regroupement insuffisamment précis.
  4. Mise à l'échelle incorrecte des données : si les données ont des plages de valeurs différentes ou des unités de mesure différentes, une mise à l'échelle incorrecte peut entraîner un regroupement BIRCH de mauvaise qualité.
  5. Données insuffisantes : la qualité du clustering BIRCH peut être insuffisante si les données disponibles sont insuffisantes pour entraîner le modèle. Plus de données peuvent améliorer la qualité du clustering.
Regroupement de mélanges gaussiens
Bouton [Fonction d'apprentissage automatique - Clustering BIRCH]

Le modèle Mélange gaussien est un modèle probabiliste qui suppose que tous les points de données sont générés à partir d'un mélange d'un nombre fini de distributions gaussiennes avec des paramètres inconnus. Cet algorithme d'apprentissage automatique peut attribuer à chaque échantillon le diagramme de Gauss auquel il appartient le plus probablement. Dans notre analyse, le mélange gaussien introduit une variante pour contraindre la covariance des classes de différence estimées : la covariance complète.

Un modèle de maximisation des attentes (mélange gaussien) utilisera nécessairement le nombre de composants spécifié par l'utilisateur, tandis qu'un modèle d'inférence variationnelle (mélange gaussien bayésien) n'utilisera en réalité que le nombre de composants nécessaire pour un bon ajustement. Si le nombre de composants spécifié par l'utilisateur est inférieur au nombre effectif, le tracé du mélange bayésien gaussien affichera le nombre de composants spécifié par l'utilisateur.

Le clustering par l'algorithme de mélange gaussien est démontré dans deux graphiques correspondant aux algorithmes bayésien de mélange gaussien et de mélange gaussien.

Pour plus de clarté, des ellipsoïdes du modèle de mélange gaussien sont affichés sur les graphiques.

Fenêtre des fonctions d’apprentissage automatique (ML). Une info-bulle s'affiche lorsque vous passez votre souris sur le bouton permettant d'accéder à la fonction de clustering par la méthode Gaussian Mixture.

Figure 10. Fenêtre des fonctions d'apprentissage automatique (ML). Une info-bulle s'affiche lorsque vous passez la souris sur le bouton permettant d'accéder à la fonction de clustering utilisant l'algorithme Gaussian Mixture.

Fenêtre de fonction de clustering utilisant les méthodes Bayesian Gaussian Mixture et Gaussian Mixture. Le paramètre nombre de composants est réglé sur (3).

Figure 11. Fenêtre de fonction de clustering pour les algorithmes Bayesian Gaussian Mixture et Gaussian Mixture. Le paramètre nombre de composants est réglé sur (3).

Fenêtre de fonction de clustering utilisant les méthodes Bayesian Gaussian Mixture et Gaussian Mixture. Le paramètre nombre de composants est réglé sur (5).

Figure 12. Fenêtre de fonction de clustering pour les algorithmes Bayesian Gaussian Mixture et Gaussian Mixture. Le paramètre nombre de composants est réglé sur (5).

Fenêtre de fonction de clustering utilisant les méthodes Bayesian Gaussian Mixture et Gaussian Mixture. Le paramètre nombre de composants est réglé sur (10).

Figure 13. Fenêtre de fonction de clustering pour les algorithmes Bayesian Gaussian Mixture et Gaussian Mixture. Le paramètre nombre de composants est réglé sur (10).

L'exemple de la figure ci-dessous démontre les performances des algorithmes de clustering BIRCH et Gaussian Mixture sur des ensembles de données « intéressants ».

Algorithmes de clustering BIRCH et Gaussian Mixture pour des ensembles de données « intéressants ».

Figure 14. Démonstration comparative des performances des algorithmes de clustering BIRCH et Gaussian Mixture sur des ensembles de données « intéressants ». Le dernier ensemble de données (colonne de droite) est un exemple de situation « nulle » pour le clustering : les données sont homogènes et ne se regroupent pas bien.

Préparation pré-automatique des données

Avant l'application du clustering, les données importées sont automatiquement mises à l'échelle à l'aide de la standardisation.

La normalisation est le processus de mise à l'échelle des données afin qu'elles aient une moyenne de 0 et un écart type de 1.

Si les données importées contiennent une colonne catégorielle telle que [homme, femme], l'utilisateur sera invité à "coder à chaud" automatiquement la colonne pour convertir les données en nouvelles colonnes de code numérique [0, 1]. Les données codées à chaud seront enregistrées dans le fichier [xlsx] original dans une nouvelle feuille.

L'encodage à chaud est utilisé pour convertir les variables catégorielles dans un format pouvant être facilement utilisé par les algorithmes d'apprentissage automatique. L'idée de base du codage one-hot est de créer de nouvelles variables qui prennent les valeurs [0] et [1] pour représenter les valeurs catégorielles d'origine. En d'autres termes, chaque valeur unique d'une colonne non numérique est convertie en une nouvelle colonne binaire contenant les indicateurs [0] et [1]. Dans cette colonne, [1] indique la présence de cette valeur, et [0] indique son absence.

Raisons pour lesquelles la qualité d'un modèle mathématique utilisant la méthode de clustering Bayesian Gaussian Mixture et Gaussian Mixture peut être insuffisante
  1. Mauvais choix du nombre de composants : Les deux méthodes de clustering reposent sur le choix correct du nombre de composants dans le modèle. Si un nombre insuffisant de composants est sélectionné ou, à l'inverse, si un trop grand nombre de composants est sélectionné, cela peut conduire à un regroupement insuffisamment précis.
  2. Réglage des hyperparamètres sous-optimal : les deux méthodes comportent des hyperparamètres, tels que les paramètres de matrice de covariance et les distributions a priori, qui doivent être ajustés. Un mauvais choix ou un mauvais réglage des hyperparamètres peut conduire à une mauvaise qualité du modèle de clustering.
  3. Incohérence des hypothèses de distribution : les méthodes de mélange gaussien bayésien et de mélange gaussien supposent que les données sont distribuées gaussiennes. Si les données ne répondent pas à cette hypothèse, la qualité du regroupement peut alors être insuffisante.
  4. Gestion incorrecte des valeurs aberrantes et du bruit : la présence de valeurs aberrantes et de bruit dans les données peut affecter négativement la qualité du clustering. Si les méthodes ne sont pas adaptées pour gérer les valeurs aberrantes ou si les données ne sont pas prétraitées, cela peut conduire à une mauvaise qualité de clustering.
  5. Mise à l'échelle des données insuffisante ou incorrecte : si vos données ont des plages de valeurs différentes ou des unités de mesure différentes, vous devez mettre à l'échelle correctement les données avant de les regrouper. Une mise à l'échelle incorrecte peut affecter la qualité du clustering.