Views
1 year ago

ICTjournal avril 2020

  • Text
  • Chez
  • Technologies
  • Notamment
  • Suisse
  • Ainsi
  • Entreprises
  • Selon
  • Netzmedien
  • Avril
  • Chatbots

28 chatbots réseaux

28 chatbots réseaux neuronaux Google crée Meena, un chatbot qui papote comme un humain Les chercheurs de Google mettent au point Meena, un chatbot capable de mener des conversations «humaines» sur une diversité de sujets. Le modèle de réseau neuronal au cœur de Meena a ingurgité 341 Go de texte provenant des médias sociaux. Yannick Chavanne Meena va-t-elle pouvoir papoter à la façon de l’assistante intelligente du film «Her», incarnée par la voix sexy de Scarlett Johansson? C’est du moins l’objectif des chercheurs de Google, qui développent ce chatbot pour qu’il puisse dialoguer à propos de n’importe quel sujet et offrir une expérience proche d’une interaction avec un humain. Un chatbot moins spécialisé Développé par la Brain Team de Google Research, Meena vise à s’affranchir des limitations inhérentes aux agents conversationnels actuels qui ont tendance à être très spécialisés. Leurs réponses s’avèrent ainsi uniquement pertinentes dans le domaine spécifique pour lequel ils sont entraînés. Un chatbot moins spécialisé mais capable de parler de sujets variés pourrait déboucher sur de nombreuses applications intéressantes, assurent les chercheurs de Google. Dont l’humanisation des interactions homme-machine, de même que l’amélioration de l’apprentissage de langues étrangères ou encore la création de personnages de films et de jeux vidéo interactifs toujours plus crédibles. Degré d’incertitude réduit Selon ses concepteurs, Meena est d’ores et déjà en mesure de mener de réelles conversations (c’est-à-dire audelà d’une question-réponse) qui font sens. Elle est basée sur l’architecture «Evolved Transformer seq2seq», un modèle de réseau neuronal mis au point chez Google dans le but de réduire le degré d’incertitude dans la prédiction du prochain mot utilisé dans une conversation. Cette valeur est d’ailleurs mesurable automatiquement dans le cadre des modèles seq2seq en tant que «métrique de perplexité», expliquent les chercheurs. Comprenant 2,6 milliards paramètres, Meena a ingurgité 341 Go de texte provenant des médias sociaux. Selon ses développeurs, l’IA au cœur de leur chatbot serait nettement plus performante que le générateur de texte GPT-2 d’OpenAI (pourtant jugé trop dangereux pour être publié). Brain Team a élaboré son propre système d’évaluation, baptisé «Sensibleness and Specificity Average (SSA)». Des évaluateurs ont jugé des conversations homme-chatbot en indiquant si les énoncés de l’agent faisaient sens et s’ils étaient spécifiques. Par exemple, à la remarque «J’aime le tennis», si le chatbot ajoute «C’est bien», cette réponse est jugée sensée mais non spécifique. Alors que «Moi aussi, je ne me lasse pas de Roger Federer!» est labellisé comme spécifique car étroitement lié au sujet de la discussion. La métrique de perplexité corrélée avec le jugement humain L’idéal pour améliorer ces modèles de chatbot et affiner leur capacité à bavarder de façon humaine serait de pouvoir disposer d’une métrique d’évaluation automatique corrélée avec le jugement humain. Les chercheurs de Google ont, dans cette optique, trouvé une piste plus qu’intéressante, en observant que le score attribué avec leur système SSA est fortement corrélé avec le degré de perplexité calculé à l’aide d’une formule. Il apparaît que plus la perplexité est faible, meilleur est le score SSA du modèle. Les développeurs de Meena comptent désormais poursuivre leurs recherches en s’appliquant à améliorer les algorithmes, les architectures, les données et les capacités de calcul, avec l’objectif de réduire la perplexité des réseaux neuronaux conversationnels. Les développeurs de Meena vont poursuivre leurs recherches en s’appliquant à réduire le sentiment de perplexité des réseaux neuronaux conversationnels. Image: Kerkez / iStock.com Une IA mieux notée si elle aime Federer Afin d’évaluer les capacités conversationnelles «humaines» de Meena et de les comparer à d’autres IA, la avril 2020 www.ictjournal.ch © netzmedien ag

chatbots limites 29 L’IA peine toujours à traiter les ambiguïtés du langage humain Des chercheurs ont élaboré un challenge pour tester la capacité réelle des systèmes de Natural Language Processing. Leurs recherches montrent que les réponses correctes fournies par l’IA ne signifient pas forcément qu’elle a compris. Des progrès restent à faire… Rodolphe Koller Grâce aux techniques de deep learning, le traitement automatisé du langage humain (Natural Language Processing ou NLP) a fait des progrès importants et rapides ces dernières années. Les performances d’outils de traduction en ligne tels que DeepL sont là pour le prouver. Restent que les outils NLP peinent encore à comprendre toutes les subtilités du langage humain, comme le montre une étude¹ publiée par des chercheurs de l’Allen Institute for Artificial Intelligence de l’Université de Washington. Tester le sens commun Les auteurs de la recherche ont pris pour point de départ le Winograd Schema Challenge, une alternative au test de Turing employée pour évaluer la capacité des modèles neuronaux à résoudre les ambiguïtés d’une phrase avec la même justesse qu’un humain. Un test du raisonnement de sens commun de l’IA en quelque sorte… Ainsi, par exemple, le test demande à l’algorithme de déterminer dans cette paire de phrases celles où le pronom «ils» se réfère aux lions et celle ou il se réfère aux zèbres: produit un nombre considérablement plus grand de paires de phrases tests. D’autre part, ils ont développé un outil algorithmique pour retirer les paires de phrases où des associations permettraient à l’IA de répondre sans vraiment comprendre – comme dans le cas des lions et des zèbres. Avec ce test plus ardu, les résultats sont bien moins bons indiquent les chercheurs. Ainsi, alors que l’humain répond correctement aux challenges dans 94% des cas, les systèmes neuronaux qu’ils ont utilisés n’y parviennent qu’entre 60% et 80% des cas. Et si on testait sur DeepL? Notre rédaction s’est essayée à tester comment le traducteur DeepL se comporte face à une phrase ambiguë issue du Winograd Schema Challenge: (*) Référence 1 WINOGRANDE: An Adversarial Winograd Schema Challenge at Scaleg Les lions ont mangé les zèbres parce qu’ils sont des prédateurs. Les lions ont mangé les zèbres parce qu’ils sont bien en chair. Avec les progrès du NLP, les modèles neuronaux sont aujourd’hui capables de répondre correctement aux 273 problèmes similaires du test. Selon les chercheurs, cette performance ne signifie pas nécessairement que le système comprend la phrase, mais plutôt qu’il fait une déduction correcte, car il sait que le terme «lion» est souvent associé à celui de «prédateur». Il trouve la bonne réponse mais peut-être pas pour la bonne raison, avertissent les chercheurs. Test refaçonné pour éviter les réponses faciles Ainsi, pour tester si les systèmes de NLP comprennent vraiment le sens des phrases qui leur sont proposées, les chercheurs ont développé un test plus compliqué baptisé WinoGrande. D’une part, via le crowdsourcing, ils ont Le pronom anglais «it» étant traduit soit «il» soit «elle» en français, on constate que l’algorithme se trompe dans le deuxième cas… www.ictjournal.ch © netzmedien ag avril 2020