Blog

Les design patterns pour les interfaces vocales

Catégories

Ce texte est une réécriture de l'article Design patterns in voice interfaces.

En design d’interface graphique, les designers utilisent des gabarits de conception qui sont, comme en couture, des modèles qui aident à produire plus vite et de manière plus efficace des interfaces, modélisant ainsi des standards de conception.

En anglais on parle beaucoup de design patterns, et avec l’arrivée des interfaces vocales, une question se pose : qu’en est-il de ces design patterns pour la conception des VUI (Voice User Interface) ?

Avant de vous donner la réponse à cette question, commençons par le commencement…

Qu’est-ce qu’un “design pattern” ?

Le terme de design pattern peut se traduire de différentes façons : gabarit de conception, patron de conception, modèle de conception, ou encore motif de conception. Dans la vie de tous les jours, nous en avons d’innombrables exemples. Il peut s’agir du simple carrelage de votre cuisine, ou des interactions que vous rencontrez sur les pages web.

De plus, un gabarit est une structure que nous pouvons reproduire, et qui permet d’obtenir un résultat prévisible. Cette prédictibilité est une aide pour les designers, qui ne repartent pas de zéro à chaque fois, comme pour les utilisateurs, qui saisissent intuitivement comment les choses fonctionnent lorsqu’ils sont confrontés à une nouvelle interface

Il existe même des “librairies”, comme par exemple ui-patterns.com, où la plupart des gabarits sont documentés et peuvent être consultés gratuitement 😉

Où peut-on trouver des design patterns ?

Sur les interfaces graphiques (GUI : Graphical Users Interface), ce sont des conventions que les utilisateurs et les designers ont inventé et adopté depuis plusieurs années. Puisque les interfaces graphiques ont été créées par l’homme, on peut dire qu’elles sont nées de toutes pièces.

Toutefois, ces gabarits s’appuient sur la compréhension du fonctionnement du cerveau et de la façon dont il interprète le monde qui nous entoure. D’une certaine manière, les design patterns jouent avec les biais cognitifs du cerveau des utilisateurs afin que ceux-ci puissent mieux comprendre comment interagir avec un écran.

A l’heure actuelle, plusieurs études expliquent comment le cerveau fonctionne en matière de perception, comme les lois de la Gestalt, qui ont été étendues à d’autres lois, comme celles de Hick, Fitts ou Zeigarnik. Tout ceci aide les créateurs à concevoir des interactions avec un résultat prévisible.

Parmi ces design patterns, il existe des modèles qui gagnent et perdent en popularité avec le temps. Ces fluctuations sont le résultat des évolutions techniques, des tendances sociales et des résultats factuels démontrant les performances positives et négatives d’un modèle.

D’où proviennent les design patterns des interfaces vocales ?

Comme pour l’interface graphique, l’interface vocale nécessite de comprendre le fonctionnement du cerveau humain afin de créer des interactions optimisées et de répondre aux objectifs fixés.

Contrairement aux interfaces graphiques, les interactions conversationnelles ne sont pas des artefacts technologiques créés par les humains au cours des dernières années. En effet, la conversation est une interaction humaine fondamentale que nous apprenons dès nos premiers jours.

C’est pourquoi la technologie vocale essaie de reproduire ces schémas d’interaction déjà existants.

Le travail des concepteurs consiste à définir les différents éléments qui constituent une interface vocale, à comprendre comment ils fonctionnent en dehors de la technologie et à les adapter dans les interactions.

Quels design patterns peut-on trouver dans les interfaces vocales ?

Dans les interfaces vocales, on peut être confrontés à trois types de motifs interactionnels :

les motifs narratifs,
les motifs linguistiques,
les motifs sonores.

Pour chacun d’entre eux, nous allons trouver différentes structures pouvant être répliquées, avec un résultat prédictible.

Les motifs narratifs

Les motifs narratifs se rapportent à la structure de l’ensemble de l’expérience conversationnelle.

Grâce à eux, nous savons que, quel que soit le cas d’usage, dans chaque interaction vocale nous trouvons une section d’accueil, une délimitation du périmètre de recherche, la conversation en tant que telle, et enfin un message de fin.

Si nous nous intéressons de plus près à ces motifs narratifs, nous voyons que certains cas d’usage sont déjà pleinement définis. Par exemple, nous avons le format du jeu de culture générale, dont les éléments sont reproduits sur toutes les plateformes logicielles et dans tous les pays presque intégralement. Prenez n’importe quel jeu de culture générale, vous trouverez quelque chose comme ce qui suit :

Message de bienvenue et domaine de connaissance : « Merci d’utiliser GeoTivia, le quizz sur la géographie mondiale. »

L’explication des règles : « Je vais vous poser des questions et vous donner X points pour chaque bonne réponse. »

Les paramètres du jeu (facultatif) : nombre de joueurs, de tours, durée, etc.

La partie : « Première question, où se situe… ? »

Le résultat final : « Vous avez obtenu Y points / Z réponses corrects. »

Classement final (facultatif) : « Vous êtes 5 points en dessous de votre meilleur score ! »

Nouvelle partie (facultatif) : « Voulez-vous jouer de nouveau ? »

Le message de fin : « A demain pour une nouvelle partie ! »

Les motifs linguistiques

A une échelle plus réduite, on trouve ce qu’on appelle les micro-motifs ou motifs linguistiques. Ils se rapportent aux éléments que nous mobilisons spécifiquement lors d’une conversation. Dans cette catégorie, nous pouvons ranger des aspects tels que les différents types de questions, comment gérer des listes d’éléments, mais aussi où placer une question dans un message-guide.

Ces structures sont bien connues et étudiées par les linguistes, puis adaptées aux interfaces vocales. Savoir comment l’homme comprend le langage aide les concepteurs à prévoir comment les utilisateurs vont réagir aux différents messages que nous allons leur envoyer.

Grâce aux linguistes, nous savons notamment que les locuteurs réagissent de trois façons lorsqu’ils reçoivent un message : la confirmation explicite, la confirmation implicite, et l’absence de confirmation. A partir de cette connaissance, nous pouvons déterminer lequel fonctionnera le mieux dans notre cas d’usage et notre situation :

La confirmation explicite : – L’utilisateur : « Je veux aller à New-York », – L’assistant : « Avez-vous dit New-York ? », – L’utilisateur : « Oui », – L’assistant : « Quand souhaitez-vous voyager ? »

La confirmation implicite : – L’utilisateur : « Je veux aller à New-York », – L’assistant : « Très bien, New-York. Quand souhaitez-vous voyager ? ».

L’absence de confirmation : – L’utilisateur : « Je veux aller à New-York », – L’assistant : « Quand souhaitez-vous voyager ? ».

Les motifs sonores

Les motifs sonores, eux, permettent l’interaction et l’écoute des messages vocaux. Ils se rapportent à la façon dont notre cerveau comprend les sons et à la manière dont nous pouvons en tirer profit. Nous pouvons ainsi utiliser cette connaissance et ajuster le ton de nos messages, la vitesse, les pauses, les effets sonores, l’emphase, par exemple.

La plupart des motifs que nous utilisons sont déjà très répandus dans les conversations traditionnelles. Ceux-ci sont employés tous les jours dans les séries télévisées, au cinéma, à la radio ou dans les discours politiques. A l’instar de ce qui existe sur les interfaces graphiques, des lois les expliquent et il y a des adaptations depuis celles de la Gestalt qui expliquent comment les mêmes concepts fonctionnent en conception audio.

Voyons quelques exemples de la façon dont nous pouvons faire usage des motifs sonores dans la conception de l’interface vocale :

Cas n°1. Les questions fermées à deux options ( c’est-à-dire : Souhaitez-vous A ou B ?) reçoivent des réponses comme les questions de type « Oui ou Non ». Nous pouvons travailler sur la formulation et aider les utilisateurs à comprendre qu’ils doivent choisir l’une des options, mais nous pouvons aussi utiliser un motif sonore. Par le simple placement d’une courte pause entre les deux éléments, nous créons un espace vide qui aide le cerveau à comprendre qu’une seule option peut être choisie.

Cas n°2. Nous sommes parfois confronté à de longs messages ou à différentes idées d’un coup. Dans tous les cas, la surcharge mentale s’en retrouve influencée et les utilisateurs peuvent finir par ne pas comprendre la plus grande partie du message. Dans un telle situation, il suffit d’employer des séparateurs sonores entre les sujets afin que les utilisateurs saisir la structure de la conversation et accroître leur compréhension : « Il était une fois, dans un château… (longue histoire) » <séparateur audio> « Désirez-vous une autre histoire ? ».

En bref, il existe aussi des design patterns dans les interfaces vocales qui permettent aux utilisateurs de mieux interagir face à leur écran, et aux designer d’atteindre leurs objectifs sans réinventer la roue !

Si cet article vous a plu, vous pouvez aller consulter mon retour d’expérience sur l’assistant Google de l’application Carrefour via mon thread Twitter 😉

Les design patterns pour les interfaces vocales

Qu’est-ce qu’un “design pattern” ?

Où peut-on trouver des design patterns ?

D’où proviennent les design patterns des interfaces vocales ?

Quels design patterns peut-on trouver dans les interfaces vocales ?

Les motifs narratifs

Les motifs linguistiques

Les motifs sonores

Nouveaux articles

Site du jour : Elle & Riley

2026 arrive ! Comment se préparer au IA-commerce ?

Best-of 2025 : le top 10 de nos articles UX