ANR-LOGO (opens new window)

Planification et Apprentissage pour Agir dans des Systèmes Multi-Agents – plasma


Le Graal en Intelligence Artificielle (IA)—crée un agent (logiciel ou machine) qui se rapproche et éventuellement dépasse l’intelligence humaine—reste très éloigné. Ces dernières années ont été marquées par des avancées permettant à des agents artificiels de gagner en autonomie par l’interaction avec leur environnement. Ces avancées ont débouché sur des progrès significatifs dans la société et l’industrie, notamment dans les systèmes d’assistance médicale, de recommandation, et de conduite autonome. Elles sont en partie dues à l’apprentissage profond (DL) associé soit à l’apprentissage par renforcement (RL) soit à la recherche arborescente Monte-Carlo (MCTS), c’est-à-dire aux sous-champs de recherche en IA dans lesquels l’agent peut décrire son monde comme un processus décisionnel de Markov (PDM). Dans ce cadre, certains algorithmes de planification et RL convergent vers une stratégie comportementale optimale, tant que l’environnement dans lequel évolue l’agent est à la fois markovien et stationnaire, mais le passage à l’échelle reste un problème majeur. DL ainsi que les méthodes de RL et MCTS sont apparues comme une combinaison puissante pour briser le fléau de la dimension face à des problèmes de grande taille, à condition de pouvoir satisfaire leurs besoins astronomiques en données et en ressources de calcul. Au-delà du coût exorbitant de ces techniques, leur application s’est jusqu’ici limitée aux problèmes mono-agents et à ceux des jeux séquentiels.

Aujourd’hui, les applications réelles utilisent largement les systèmes multi-agents (SMA), c’est-à-dire des groupes d’agents autonomes en interaction, partageant un environnement, qu’ils perçoivent au travers de capteurs et sur lesquels ils agissent avec des actionneurs. À la maison, dans les villes et presque partout, un nombre croissant de capteurs et d’actionneurs nous entourent, parfois de façon très visible (robots, drones, voitures) mais souvent de manière imperceptible (smartphones, téléviseurs, aspirateurs). D’ici peu, à travers l’émergence d’une nouvelle génération de réseaux de communication, la plupart de ces machines interagiront les unes avec les autres via l’Internet des objets (IoT). Les SMAs en constante évolution affecteront tous les secteurs de la société et de l’industrie, y compris la sécurité, la médecine, les transports. Bien que les PDMs fournissent un cadre mathématique rigoureux pour la prise de décision mono-agent, ils n’offrent pas les mêmes guaranties pour les SMAs. Contrairement aux systèmes mono-agents, lorsque plusieurs agents interagissent, la façon dont l’environnement évolue dépend non seulement de l’action d’un agent, mais également des actions entreprises par les autres agents, ce qui rend invalide la propriété de Markov, et la stationnarité de l’environnement. En outre, une autorité de contrôle centralisée est souvent inadéquate car les agents ne peuvent pas (en raison des coûts de communication, de latence ou de bruit) ou ne veulent pas (dans des contextes concurrentiels ou stratégiques) partager en permanence toutes leurs informations.

La pénétration croissante des SMAs dans la société nécessitera un changement de paradigme— d’algorithmes de planification et RL mono-agent vers des algorithmes de planification et de RL multi-agents—en tirant parti des avancées récentes en IA. Cette observation conduit au défi fondamental qu’adresse cette proposition: la conception d’algorithmes génériques avec des garanties théoriques qui permettent de calculer efficacement des stratégies rationnelles pour un groupe d’agents coopératifs ou compétitifs, et cela dans l’incertain, mais en utilisant le même schéma algorithmique. Ces algorithmes devront s’adapter aux changements de l’environnement, s’appliquer à différentes tâches, et converger vers une solution rationnelle pour la tâche à accomplir. L’utilisation du même schéma algorithmique pour différents problèmes facilitera le transfert et la diffusion des connaissances au sein des communautés.