Microsoft « Invites » corrige les invites de l’IA qui ne parviennent pas à être livrées

Microsoft pense avoir trouvé un correctif pour les invites de l’IA, la réponse manquante et la répétition du cycle.

Cette inefficacité épuise les ressources. La « boucle d’essais et d’erreurs peut sembler imprévisible et décourageante », transformant ce qui devrait être un stimulant de productivité en une perte de temps. Les travailleurs du savoir passent souvent plus de temps à gérer l’interaction elle-même qu’à comprendre la matière qu’ils espéraient apprendre.

Microsoft a publié Promptions (invite + options), un cadre d’interface utilisateur conçu pour résoudre ces frictions en remplaçant les vagues requêtes en langage naturel par des contrôles d’interface précis et dynamiques. L’outil open source offre une méthode pour standardiser la façon dont les employés interagissent avec les grands modèles de langage (LLM), en s’éloignant du chat non structuré vers des flux de travail guidés et fiables.

Le goulot d’étranglement de la compréhension

L’attention du public se concentre souvent sur l’IA produisant du texte ou des images, mais une part importante de l’utilisation en entreprise implique la compréhension – demander à l’IA d’expliquer, de clarifier ou d’enseigner. Cette distinction est vitale pour l’outillage interne.

Considérons une formule de feuille de calcul : un utilisateur peut souhaiter une simple explication de la syntaxe, un autre un guide de débogage et un autre une explication adaptée aux collègues enseignants. La même formule peut nécessiter des explications totalement différentes selon le rôle, l’expertise et les objectifs de l’utilisateur.

Les interfaces de chat actuelles capturent rarement cette intention de manière efficace. Les utilisateurs constatent souvent que la façon dont ils formulent une question ne correspond pas au niveau de détail dont l’IA a besoin. « Clarifier ce qu’ils veulent vraiment peut nécessiter des invites longues et soigneusement formulées qui sont fatigantes à produire », explique Microsoft.

Les invites fonctionnent comme une couche middleware pour résoudre ce problème familier avec les invites IA. Au lieu d’obliger les utilisateurs à saisir de longues spécifications, le système analyse l’intention et l’historique de la conversation pour générer des options cliquables, telles que la longueur de l’explication, le ton ou des domaines d’intervention spécifiques, en temps réel.

Efficacité vs complexité

Les chercheurs de Microsoft ont testé cette approche en comparant les contrôles statiques au nouveau système dynamique. Les résultats offrent une vision réaliste de la manière dont ces outils fonctionnent dans un environnement réel.

Les participants ont systématiquement signalé que les contrôles dynamiques permettaient d’exprimer plus facilement les détails de leurs tâches sans reformuler leurs invites à plusieurs reprises. Cela a réduit l’effort d’ingénierie rapide et a permis aux utilisateurs de se concentrer davantage sur la compréhension du contenu que sur la gestion des mécanismes de formulation. En faisant apparaître des options telles que « Objectif d’apprentissage » et « Format de réponse », le système a incité les participants à réfléchir plus délibérément à leurs objectifs.

Pourtant, l’adoption entraîne des compromis. Les participants ont apprécié l’adaptabilité mais ont également trouvé le système plus difficile à interpréter. Certains ont eu du mal à anticiper comment une option sélectionnée influencerait la réponse, notant que les contrôles semblaient opaques parce que l’effet n’est devenu évident qu’après l’apparition du résultat.

Cela met en évidence un équilibre à trouver. Les interfaces dynamiques peuvent rationaliser des tâches complexes mais peuvent introduire une courbe d’apprentissage où la connexion entre une case à cocher et le résultat final nécessite une adaptation de l’utilisateur.

Invites : la solution pour corriger les invites de l’IA ?

Les invites sont conçues pour être légères, fonctionnant comme une couche middleware située entre l’utilisateur et le modèle de langage sous-jacent.

L’architecture se compose de deux composants principaux :

  • Modules optionnels : Examine l’invite de l’utilisateur et l’historique des conversations pour générer des éléments d’interface utilisateur pertinents.
  • Module de discussion : Intègre ces sélections pour produire la réponse de l’IA.

Il convient particulièrement aux équipes de sécurité de noter qu’« il n’est pas nécessaire de stocker des données entre les sessions, ce qui simplifie la mise en œuvre ». Cette conception sans état atténue les problèmes de gouvernance des données généralement associés aux superpositions d’IA complexes.

Passer de « l’ingénierie rapide » à la « sélection rapide » ouvre la voie à des résultats d’IA plus cohérents au sein d’une organisation. En mettant en œuvre des cadres d’interface utilisateur qui guident les intentions des utilisateurs, les leaders technologiques peuvent réduire la variabilité des réponses de l’IA et améliorer l’efficacité de la main-d’œuvre.

Le succès dépend de l’étalonnage. Des défis d’utilisabilité subsistent concernant la façon dont les options dynamiques affectent la sortie de l’IA et la gestion de la complexité de plusieurs contrôles. Les dirigeants ne devraient pas considérer cela comme une solution complète pour corriger les résultats des invites de l’IA, mais comme un modèle de conception à tester au sein de leurs plates-formes de développement internes et de leurs outils de support.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.