Back to Blog

Les LLMs se perdent en conversation : pourquoi les performances multi-tours sont essentielles

LLMConversationAI ResearchPerformance

Une étude menée par des chercheurs de Microsoft et Salesforce a mis en évidence une faille critique dans la façon dont nous évaluons les grands modèles de langage (LLMs) : leurs performances se dégradent significativement dans les conversations multi-tours par rapport aux requêtes isolées.

À retenir : les LLMs perdent en moyenne 39 % de leurs performances sur les conversations multi-tours. Les benchmarks qui ne testent que les requêtes isolées mesurent le mauvais indicateur. Les systèmes IA en production doivent être conçus en tenant compte de cette limite, pas en l'ignorant.

Le problème est réel

La recherche révèle que les LLMs accusent en moyenne une baisse de performance de 39 % dans les conversations multi-tours. Ce n'est pas un détail mineur. C'est un problème fondamental qui affecte le comportement de ces modèles dans des situations réelles.

Ce qui ne fonctionne pas

L'étude identifie plusieurs causes :

  • Hypothèses prématurées : les LLMs tirent des conclusions hâtives en début de conversation et s'y accrochent même quand elles sont fausses
  • Absence de correction : une fois désorientés, ils se corrigent rarement d'eux-mêmes
  • La température n'aide pas : même réglée à zéro, elle ne résout pas le problème
  • Recommencer fonctionne mieux : relancer une conversation donne souvent de meilleurs résultats que la poursuivre

Le problème des benchmarks

Les benchmarks actuels se concentrent principalement sur des tâches à tour unique, entièrement spécifiées. Les évaluations multi-tours sont rares et ne reflètent pas la façon dont les utilisateurs interagissent réellement avec les systèmes IA. Cela crée un angle mort dangereux dans le développement des modèles.

Ce que cela implique pour le développement de l'IA

Cette recherche souligne le besoin de :

  • De meilleurs cadres d'évaluation multi-tours
  • Des modèles conçus spécifiquement pour la robustesse conversationnelle
  • Des scénarios de test plus réalistes, proches du comportement réel des utilisateurs

Ce que cela signifie en pratique

Pour les équipes qui déploient des agents IA en production, ce constat a des conséquences directes. Un chatbot qui gère correctement une FAQ en un seul tour peut se dégrader silencieusement quand la conversation s'étend sur plusieurs échanges, ce qui correspond exactement à la situation vécue par la majorité des utilisateurs.

La solution n'est pas d'espérer que le modèle reste sur la bonne trajectoire. C'est de concevoir autour de cette limite : workflows structurés, périmètres de conversation bornés, et points de contrôle humains aux bons moments. Cela explique aussi pourquoi les échecs de déploiement chatbot les plus fréquents surviennent non pas au lancement, mais lors d'interactions multi-tours en dehors des cas prévus.

Chez BotiqueAI, nous concevons des architectures d'agents qui intègrent cette limite dès le départ : flux de conversation structurés, chemins de repli clairs, et escalade humaine quand le système atteint ses bornes.

✔ Audit gratuit de votre déploiement actuel ou prévu
✔ Architecture conçue pour la fiabilité en production
✔ Suivi et monitoring inclus

Réserver un créneau gratuit →

Source

Laban, P., Hayashi, H., Zhou, Y., & Neville, J. (2025). LLMs Get Lost in Multi-Turn Conversation. arXiv:2505.06120. Lire l'article