|
Champignons
Type de problématique : classification
Observations : 8124
Variables explicatives : 21 (nominales)
Variable à prédire : nominale avec 2 modalités
Téléchargement des données : Mushroom Dataset
La description suivante est une traduction tirée du site UCI Machine Learning Repository : cet échantillon de données correspond à 23 espèces de champignons à ailettes ... ;Chacune des espèces est identifiée comme "certainement comestible", "certainement toxique", ou "de comestibilité inconnue et non recommandée".
Cette dernière classe a été combinée avec la classe toxique. Le guide déclare clairement qu'il n'y a aucune règle simple pour déterminer la comestibilité d'un champignon ...
Sources : The Audubon Society Field Guide to North American Mushrooms (1981). G. H. Lincoff (Pres.), New York: Alfred A. Knopf.
Modèle à 1 variable
Le modèle le plus simple et le plus précis nécessite seulement une variable explicative, l'odeur :
* Si (odeur est a) alors (Classe
est plutôt comestible)
* Si (odeur n'est past n) alors (Class
est plutôt toxique)
* Si (odeur est l) alors (Classe
est plutôt comestible)
Ce modèle permet de classer correctement 8004 des 8124 données de l'échantillon (98.5%).
Modèle à 2 variables
D'avantage de précision est obtenue en faisant intervenir une seconde variable dans le modèle, la couleur des spores:
* Si (odeur n'est
pas l) alors (Classe
est plutôt toxique)
* Si (odeur est a) alors (Classe
est plutôt comestible)
* Si (odeur est n) et
(couleur des spores n'est pas r) alors (Classe
est plutôt comestible)
Ce modèle permet de classer correctement 8076 des 8124 données de l'échantillon (99.4%).
Modèle à 3 variables
La troisième variable qui améliore la précision du modèle est la surface de la tige au dessous de l'anneau. We can notice the similarity with the model with 2 variables.
* Si (odeur n'est
pas l) alors (Classe
est plutôt toxique)
* Si (odeur est a) alors (Classe
est plutôt comestible)
* Si (odeur est n) et
(surface de la tige au dessous de l'anneau n'est pas y) et
(couleur des spores n'est pas r) alors (Classe
est plutôt comestible)
Ce modèle permet de classer correctement 8100 des 8124 données de l'échantillon (99.7%).
Modèle permettant un classement total (5 variables)
Pour classer correctement 100% des 8124 données de l'échantillon, il est finalement nécessaire d'utiliser 5 variables:
* Si (meurtrissures ne sont pas f) et (odeur n'est pas l) et (taille des lamelles est n) alors (Classe
est plutôt toxique)
* Si (odeur est a) alors (Classe
est plutôt comestible)
* Si (odeur est n) et
(surface de la tige au dessous de l'anneau n'est pas y) et
(couleur des spores n'est pas r) alors (Classe
est plutôt comestible)
|