Vous aviez essuyé une goutte de sueur froide quand AlphaGo a battu le plus grand maître humain du Go. Vous étiez davantage inquiété quand la dernière IA de Deepmind avait maîtrisé seule échec, shogi et Go. Google se lance désormais dans un nouveau combat, apprendre à une intelligence à… surfer sur le Web.
Naviguer sur la Toile n’est pas si facile
Le propos et la tâche semblent dérisoires et pourtant, les progrès nécessaires pour y arriver sont énormes. Les équipes de Google (et pas de Deepmind, qui est une filiale d’Alphabet) ont publié un nouvel article scientifique intitulé Learning to navigate the Web, Apprendre à surfer sur le Web.
Ils y décrivent la manière dont ils ont entraîné un réseau neuronal grâce à l’apprentissage par renforcement afin qu’il comprenne le fonctionnement d’une page Web et puisse ensuite naviguer seul. Dans le reinforcement learning, un réseau neuronal cherche la solution à un problème. Il est « récompensé » quand il est fait un bon choix et continue ainsi par itération à chaque étape.
Ainsi, les chercheurs ont confronté leurs IA, QWeb et INET, à des instructions apparemment simples, comme réserver un billet d’avion ou interagir avec le site d’un réseau social.
L’IA fait alors face à un vaste champ d’interactions possibles, à de nombreuses options lexicales et à des successions d’opérations et d’étapes. Les auteurs de l’article indiquent ainsi que le nombre d’instructions et tâches possibles au cours de telles opérations peut s’établir à 14 millions, avec un vocable qui comporte environ 1 700 mots et appellations différents, ainsi que 100 éléments Web.
L’intelligence artificielle doit donc être capable de comprendre ce qu’elle est en mesure de faire sur la page, d’identifier les différents champs de saisie et leur objet pour savoir quoi y mettre. Par exemple, la ville de départ et d’arrivée pour un vol entre Paris et New York ainsi que la bonne date. Une fois que tout est bien complété, l’IA doit être capable de comprendre qu’il faut cliquer sur le bouton Valider. Elle devra ensuite pouvoir repérer et choisir l’option proposée la moins coûteuse.
Apprendre à décortiquer et apprendre
Des essais précédents ont recouru à des démonstrations faites par des humains pour entraîner l’algorithme et faciliter son processus d’apprentissage par l’erreur. Néanmoins, comme les chercheurs de Google le notent, il est difficile d’avoir des démonstrations qui correspondent à chaque type de site. Ils ont donc opté pour deux méthodes d’apprentissage par renforcement.
La première, quand des démonstrations sont disponibles, consiste en un entraînement qui commence avec des suites de tâches simplifiées qui gagnent en complexité peu à peu. La seconde recourt à une autre méthode, qui permet à l’algorithme d’aborder une navigation aléatoire comme si elle était décrite par des instructions.
Tout cela grâce à un meta trainer, baptisé INET. Un formateur artificiel qui est capable de générer des instructions et des démonstrations à partir d’une page Web aléatoire sous la forme d’un DOM (Document-Object Model). Car, selon les chercheurs, il est plus simple d’établir des instructions que de les suivre et d’interagir avec une page, par exemple.
Par ailleurs, les chercheurs utilisent une autre approche nouvelle, appelée curriculum learning, qui transforme les tâches complexes en plus petites étapes, afin de faciliter la vie du réseau neuronal. Une autre trouvaille, nommée shallow encoding, aide l’IA à avoir une meilleure compréhension de la page Web et des informations qui s’y trouvent.
Ces nouveaux travaux ont, semble-t-il, obtenu de meilleurs résultats que les tentatives précédentes. Ils sont sortis victorieux d’épreuves où d’autres IA avaient échoué jusque-là.
L’objectif de cette recherche n’est pas forcément de faire en sorte qu’une IA soit réellement capable de réserver un billet d’avion seul. Encore, qu’au vu de ce que propose Duplex, son autre outil d’IA, avec les réservations de restaurant, cela pourrait être un débouché. Pour Google, c’est davantage une expérimentation qui vise à améliorer la capacité des intelligences artificielles à apprendre par elles-mêmes quand le nombre de variables est trop important et quand la supervision humaine est impossible ou difficile. Un enjeu essentiel pour, à l’avenir, permettre à des algorithmes d’apprendre seuls pour ensuite répondre à des tâches simples ou complexes. Une révolution potentielle bien amorcée.
Source :
Publication de Google (PDF)