Identification des vins

 

Type de problématique : classification

Observations : 178

Variables explicatives : 13 (numériques)

Variable à prédire : discrète avec 3 modalités

Téléchargement des données : DataWine

 

Ces données correspondent à l’analyse chimique d’un échantillon de 178 vins provenant de 3 producteurs différents (d’une même région d’Italie). L’objectif est d’extraire des modèles permettant de retrouver le producteur d’origine à partir de la teneur des constituants suivants : Alcool, Acide malique, Cendre, Alcalinité des cendre, Magnésium, Phénols totaux, Flavanoïdes, Non Flavanoïdes, Proanthocyanins, Intensité de couleur, Hue, OD280/OD315 des vins dilués, Proline.

Sources : Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy. Données provenant du UCI Machine Learning Repository.

 

Modèle à 1 variable

* Si (Flavonoïdes est inférieur à 1) alors (Classe est plutôt 3)

* Si (Flavonoïdes est supérieur à 2,5) alors (Classe est plutôt 1)

* Sinon (Classe est plutôt 2)

 

Le modèle à une variable explicative le plus précis concerne la teneur en Flavonoïdes. Il permet de classer correctement 148 des 178 vins de l’échantillon (soit 83 %). On peut le représenter graphiquement (courbe en rouge) superposé aux données expérimentales (points en vert) :

 

Modèle à 2 variables

Ce modèle implique une deuxième variable : la longueur du pétale. Il est similaire au premier modèle, mais comporte une règle supplémentaire :

* Si (Flavonoïdes est inférieur à 1) alors (Classe est plutôt 3)

* Si (Proline est supérieur à 800) alors (Classe est plutôt 1)

* Sinon (Classe est plutôt 2)

 

Il permet de classer correctement 163 des 178 données de l’échantillon (soit 9& %). Le graphique suivant est obtenu avec Proline = 600± 200 :

 

Modèle à 3 variables

* Si (Flavonoïdes est inférieur à 1) alors (Classe est plutôt 3)

* Si (Proline est supérieur à 800) alors (Classe est plutôt 1)

* Si (Intensité de couleur est inférieur à 2) alors (Classe est plutôt 2)

 

Ce modèle permet de classer correctement 175 des 178 données de l’échantillon (soit 98 %). Le graphique suivant est obtenu avec Proline = 1000± 200 et Flavonoïdes = 2 ± 0,8 :

 

Modèle à 4 variables (permettant un classement complet)

Le modèle suivant permet de classer correctement la totalité des 178 données de l’échantillon :

 

* Si (Flavonoïdes est inférieur à 0,5) et (Intensité de couleur est supérieur à 4) alors (Classe est plutôt 3)

* Si (Alcool est supérieur à 12,5) et (Intensité de couleur est supérieur à 4) et (Proline est supérieur à 600) alors (Classe est plutôt 1)

* Si (Alcool diminue) alors (Classe est plutôt 2)

 

 

 
 

© 2007-2008 BLIASOLUTIONS - Tous droits réservés | Conditions d'utilisation | Contacts | Plan