Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Exploring explanations of machine learning models for data analysis and knowledge extraction

2024·0 Zitationen

Volltext beim Verlag öffnen

Zitationen

Autoren

2024

Jahr

Abstract

Exploration des explications de modèles d'apprentissage automatique pour l'analyse de données et l'extraction de connaissances L'augmentation importante de la quantité et de la qualité des données collectées et disponibles dans de nombreux domaines, ainsi que l'augmentation parallèle des capacités de calcul des machines, ont conduit à un véritable essor des techniques d'Intelligence Artificielle (IA) ces dernières décennies. En effet, dans ces conditions, les algorithmes d'IA peuvent surpasser les humains dans des tâches de prédiction, et surpasser les techniques statistiques traditionnelles pour l'analyse de données. Cependant, ces avantages s'obtiennent au prix d'une opacité grandissante des modèles d'apprentissage automatique supervisés. Ce phénomène "boîte noire" a de nombreuses conséquences indésirables : manque de confiance dans les modèles, biais potentiels, problèmes de généralisation, présence de failles, etc. Tout cela a un fort impact sur l'intégration de ces techniques dans de nombreux domaines où la décision est aussi importante que le processus, comme la biologie et la santé. Ainsi, le domaine de l'apprentissage automatique explicable a émergé pour faire face à ces enjeux, proposant des concepts et des méthodes permettant d'expliquer les modèles d'apprentissage, et leurs décisions. Parmi elles, les plus étudiées et utilisées sont les méthodes attributives : elles attribuent à chaque variable un poids dans la prédiction de chaque instance des données d'entrée. Il existe plusieurs façons de calculer ces attributions, donnant naissance à plusieurs familles de méthodes. Malgré leur popularité, ces méthodes ont rarement été rigoureusement comparées. Cela est dû, d'une part, à la difficulté de la communauté à se mettre d'accord sur des mesures précises de qualité, et d'autre part, à l'impossibilité d'une mesure objective de qualité de ce type d'explications, liée à l'absence de vérité terrain et à la présence de phénomènes de compensations entre différentes caractéristiques souhaitables pour les explications (comme la fidélité des explications au modèle, et leur concision). De plus, ce type d'explications constitue souvent la fin du processus d'analyse prédictive de données, alors que la richesse des explications attributives offre la possibilité d'une analyse plus approfondie. Ainsi, on pourrait être capable de mieux comprendre les relations qui existent au sein de la représentation du modèle d'apprentissage, ce qui permettrait d'en extraire de la connaissance pertinente pour les experts du domaine lié aux données, en particulier dans des domaines complexes telle que la biologie. Pour répondre à ces enjeux, dans cette thèse, nous contribuons à l'amélioration des connaissances et des méthodes concernant les explications attributives. Nous commençons par établir le cadre en analysant la littérature sur le sujet et en définissant les termes clés, du contexte général au cas plus particulier des explications attributives. Ensuite, nous présentons une comparaison rigoureuse des méthodes les plus populaires d'explications attributives, basée sur 6 métriques et évaluée sur plus de 300 jeux de données variés. Cela nous permet de mettre en évidence les contextes les plus favorables à l'utilisation de chaque méthode. Nous présentons ensuite une nouvelle méthode pour analyser l'espace des explications attributives. Elle consiste à approximer un clustering hiérarchique effectué sur les explications, à l'aide d'un arbre de décision utilisant les données. Ainsi, on bénéficie de l'efficacité du clustering d'explications, plus performant que le clustering de données, et de la simplicité d'un arbre de décision, duquel on peut extraire des règles hiérarchiques permettant de définir des sous-groupes de données considérées similairement par le modèle. Enfin, nous présentons l'utilisation de ces principes à travers l'étude complète de données liées à la biologie, ce qui nous permet de mettre en valeur les capacités d'extraction de connaissances et de génération d'hypothèses scientifiques de nos approches.

Autoren

Emmanuel Doumard

Institutionen

Université Fédérale de Toulouse Midi-Pyrénées(FR)

Themen

Explainable Artificial Intelligence (XAI)Artificial Intelligence in Healthcare and EducationMachine Learning and Data Classification

Volltext beim Verlag öffnen

Exploring explanations of machine learning models for data analysis and knowledge extraction

Abstract

Ähnliche Arbeiten

Autoren

Institutionen

Themen