|
Identification des vins
Type de problématique : classification
Observations : 178
Variables explicatives : 13 (numériques)
Variable à prédire : discrète avec 3 modalités
Téléchargement des données : DataWine
Ces données correspondent à l’analyse chimique d’un échantillon de 178 vins provenant de 3 producteurs différents (d’une même région d’Italie). L’objectif est d’extraire des modèles permettant de retrouver le producteur d’origine à partir de la teneur des constituants suivants : Alcool, Acide malique, Cendre, Alcalinité des cendre, Magnésium, Phénols totaux, Flavanoïdes, Non Flavanoïdes, Proanthocyanins, Intensité de couleur, Hue,
OD280/OD315 des vins dilués, Proline.
Sources : Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy. Données provenant du UCI Machine Learning Repository.
Modèle à 1 variable
* Si (Flavonoïdes est inférieur à 1) alors (Classe est plutôt 3)
* Si (Flavonoïdes est supérieur à 2,5) alors (Classe est plutôt 1)
* Sinon (Classe est plutôt 2)
Le modèle à une variable explicative le plus précis concerne la teneur en Flavonoïdes. Il permet de classer correctement 148 des 178 vins de l’échantillon (soit 83 %). On peut le représenter graphiquement (courbe en rouge) superposé aux données expérimentales (points en vert) :

Modèle à 2 variables
Ce modèle implique une deuxième variable : la teneur en Proline. Il est similaire au premier modèle, mais comporte une règle supplémentaire :
* Si (Flavonoïdes est inférieur à 1) alors (Classe est plutôt 3)
* Si (Proline est supérieur à 800) alors (Classe est plutôt 1)
* Sinon (Classe est plutôt 2)
Il permet de classer correctement 163 des 178 données de l’échantillon (soit 91 %). Le graphique suivant représente ce modèle (les données expérimentales étant les triangles blancs) :

Modèle à 3 variables
* Si (Flavonoïdes est inférieur à 1) alors (Classe est plutôt 3)
* Si (Proline est supérieur à 800) alors (Classe est plutôt 1)
* Si (Intensité de couleur est inférieur à 2) alors (Classe est plutôt 2)
Ce modèle permet de classer correctement 175 des 178 données de l’échantillon (soit 98 %). Le graphique suivant est une représentation "4D" de ce modèle :

Modèle à 4 variables (permettant un classement complet)
Le modèle suivant permet de classer correctement la totalité des 178 données de l’échantillon :
* Si (Flavonoïdes est inférieur à 0,5) et Intensité
de couleur
est supérieur à 4) alors (Classe est plutôt 3)
* Si (Alcool est supérieur à
12,5) et (Intensité
de couleur
est supérieur à 4) et (Proline est supérieur à
600) alors (Classe est plutôt 1)
* Si (Alcool diminue) alors (Classe est plutôt 2)
|