Détection du cancer avec l'intelligence artificielle
Utilisation des méthodes ensemblistes pour la détection du cancer pour améliorer la performance des modèles de détection.
La détection précoce du cancer est cruciale pour améliorer les taux de survie des patients. Notre projet explore l'utilisation de l'intelligence artificielle, et plus précisément des méthodes ensemblistes, pour améliorer la précision des diagnostics. Les techniques ensemblistes combinent les prédictions de plusieurs modèles d'apprentissage automatique pour surmonter les limitations des modèles individuels, offrant ainsi des diagnostics plus précis et robustes.
Contexte
Ce projet s'inscrit dans une initiative visant à intégrer les innovations technologiques dans la lutte contre le cancer. En mettant en avant les méthodes ensemblistes, nous cherchons à réduire les erreurs et à augmenter la précision des prédictions. Notre objectif est de démontrer comment ces techniques peuvent transformer les pratiques actuelles en fournissant des outils diagnostiques plus performants.
Méthodologie
Jeu de données
Nous avons utilisé le jeu de données "Breast Cancer Wisconsin (Original)", qui contient des mesures quantitatives de caractéristiques cellulaires permettant de classer les tumeurs en bénignes ou malignes. Le traitement des données a inclus la gestion des valeurs manquantes et la normalisation pour améliorer la performance des modèles.
Méthodes ensemblistes
Nous avons exploré trois principales méthodes ensemblistes : Boosting, Bagging, et Stacking.
- Boosting (accuracy 95%) :
- AdaBoost (Adaptive Boosting) : Ce modèle pondère les erreurs des prédictions précédentes pour améliorer la précision. AdaBoost a montré une précision de 94.15%.
- Gradient Boosting : En corrigeant les résidus à chaque étape, ce modèle atteint une précision de 95.61%, démontrant une capacité supérieure à gérer les données complexes.
- Bagging (accuracy 97%) :
- Random Forest, KNeighbors, et SVC (Support Vector Classifier) : En utilisant l'échantillonnage bootstrap, ces modèles agrègent les prédictions pour une meilleure robustesse. SVC a obtenu la meilleure précision avec 98%.
- Stacking (accuracy 96%) :
- Cette méthode combine les prédictions de plusieurs modèles de base(KNN, ANN et Decision Tree dans notre cas) pour entraîner un métamodèle(Naives Bayes Classifier dans notre cas), optimisant ainsi la précision globale.
Les méthodes ensemblistes se sont révélées extrêmement performantes pour la détection du cancer, offrant une précision et une robustesse accrues. L'intégration de ces techniques dans le dépistage et le diagnostic du cancer peut considérablement améliorer les résultats pour les patients, en fournissant aux professionnels de la santé des outils diagnostiques plus fiables.