Blog

Les assistants doivent faire encore beaucoup de progrès, selon Norman Nielsen Group

Catégories

La célèbre agence d’UX américaine dresse un verdict sans appel des assistants vocaux

Les assistants vocaux sont un peu la hype de l’année depuis que Amazon a lancé sur le marché français Echo, son fameux assistant vocal. Pour rappel, le géant américain a déjà vendu au moins 20 millions d’unité de son enceinte intelligente aux Etats-Unis. Fera-t-il aussi bien en France ?

Mais Norman Nielsen Group, sans doute la plus célèbre agence d’UX au monde, vient de jeter un pavé dans la mare en dévoilant une étude sur l’utilisabilité de ces assistants. Et le résultat est sans appel : elle est très mauvaise ! Tous leurs tests ont montré que ces appareils, faisant une utilisation extensive de l’IA, peinent à remplir leur rôle, même pour comprendre et exécuter de simples tâches. Quand à avoir “une véritable conversation” avec eux, il ne faut même pas y penser.

Amazon Echo, Google Home et Apple Homepod, les enceintes intelligentes des trois géants de l’internet américiains

Sommes-nous en face d’une mystification des GAFA ?

Alors, sommes-nous en face d’une véritable mystification des GAFA ? Et y a-t-il tout à jeter dans ces assistants vocaux ? Ou bien n’en sommes-nous qu’à la préhistoire de ce qui sera dans quelques années notre manière principale d’interagir avec les machines ?

Pour répondre à cette question, NNG a réalisé un test utilisateur sur 17 personnes aux Etats-Unis. Cela peut sembler peu, mais en ergonomie, cela est largement suffisant pour porter un jugement global sur une interface.

Pour mieux évaluer les choses, NNG a décomposé les critères d’évaluation des assistants en 5 dimensions, chacune d’entre elles, hormis pour la première, n’a fourni de résultats satisfaisant, même pas à un faible niveau, faisant dire à NNG que nous en sommes retourné à “l’ère sombre des années 70”, aube de la microinformatique. Ce qui n’est pas bien gentil.

Les différentes dimensions de l’UX vocale et les potentialités d’amélioration

Technique d’interface	Utilisabilité	Potentiel
Entrées vocales	Bonne	Devrait progresser rapidement et être capable de prendre en compte les accents	La plupart des entrées sont correctement retranscrites, hormis pour, occasionnellement, pour les noms propres.
Langage naturel	Mauvaise	Améliorations possibles, mais peu probables rapidement	Les phrases à plusieurs prorpositions sont incomprises : les résultats différent selon les tournures. La compréhension des pronoms est limitée.
Sorties vocales	Mauvaise	Utilisabilité fondamentalement limitée, sauf pour des informations très simples. Devrait s’améliorer.	En dehors de certaines tâches (navigation, météo, etc.), les assistants ne sont pas capables de proposer systématiquement des réponses
Interprétation	Mauvaise	Pourrait devenir meilleure, mais sera très difficile à accomplir	Hormis de simples informations contextuelles comme la géolocalisation, les données de contact ou les lieux fréquemment visités, les assistant ne sont pas capables de retenir des informations contextuelles
Utilisation de données externes	Mauvaise	Peut nettement s’améliorer	Les assistants n’utilisent qu’un nombre très limités de ressources extérieures (comme le calendrier ou l’email) pour en déduire des nouvelles actions intéressants l’utilisateur
Intégration	Nulle	Peut s’améliorer, mais nécessitera un travail acharné	Les assistants ne s’interfacent pas bien avec les autres apps présentes sur un appareil et les interactions, permises par les “skills” et les “actions” (mini applications sur Alexa ou Google Home) tirent mal partie des autres environnements d’interactions

Des utilisateurs bluffés, mais qui n’attendent pas de miracles

Malgré ce sombre tableau, les usages, même s’ils restent très limités, selon NNG, demeurent tout à fait possibles. En réalité, d’ailleurs, les utilisateurs des assistants, même s’ils ont cru aux promesses des constructeurs, n’attendent pas des miracles et savent ou apprennent très vite qu’ils n’arriveront pas à avoir de réels dialogues avec la machine, ni même d’interactions aussi évoluées qu’on peut en avoir avec un écran, une souris et un clavier. La plupart des échanges se font sous la forme de phrase/question <-> réponse simple. Seul un domaine échappe à ce relatif désastre : la dictée. Très appréciée et relativement performante dans de nombreux cas.

Parler aux assistants : fastidieux, mais possible

Parler aux assistants est sans doute le seul point de satisfaction relevé dans l’étude de NNG, même si très rapidement, les utilisateurs prennent conscience qu’il va leur être impossible de s’adresser à eux comme des êtres humains. Faire une phrase complexe n’aboutit à rien, et très rapidement, ils apprennent à prononcer les phrases lentement, sans émotions et en les découpant en petits lots d’informations afin que la machine puisse les digérer.

Recevoir de l’information de la part des assistants : très compliqué

C’est dans la capacité à restituer de l’information que les assistants s’avèrent très mauvais.

Premier point : les utilisateurs se plaignent de ce que les assistants parlent trop vite et renvoient souvent beaucoup trop d’informations pour la mémoire humaine. Phénomène aggravé par le fait qu’il est difficile d’arrêter un assistant dans sa logorrhée. C’est le cas, trop souvent, lorsque l’assistant fait une énumération. Le résultat est souvent irritant et impatiente l’utilisateur.

Deuxième point : lorsque l’assistant n’est pas équipé d’un écran, les résultats restent très limités. En toute logique, les utilisateurs d’assistants attendent de ne pouvoir échanger avec lui qu’en vocal. Mais les cas sont nombreux où la réponse vocale est très nettement inférieure à la réponse visuelle : pour une liste de produit, une énumération, ou même une phrase complexe. Certains assistants (ou téléphones) permettent donc d’afficher une réponse sur un écran, mais souvent le résultat est déceptif. L’utilisateur ne souhaite pas recourir à l’écran. Il n’a pas envie de scroller dans une liste. Et pire, les listes, comme c’est souvent le cas sur Siri, font sortir l’utilisateur de l’application où il était.

Troisième point : l’incapacité des assistants à donner des réponses pertinentes ou simplement bonnes à l’utilisateur. Le nombre de réponses “à côté” semble faramineux à tel point que les utilisateurs prennent comme un miracle une réponse correcte ou approchante (“It felt like magic”).

Quatrième point : la confiance manque. Le fait que les assistants peinent à donner des informations claires tendent à rendre méfiants les utilisateurs. NNG donne plusieurs exemples de réponses, considérées comme correctes par l’assistant, mais que l’utilisateur voudra vérifier tout de même. Dans ce cas, tout l’avantage de l’assistant vocal est perdu. Comme l’affirme un des répondants de l’étude : “I don’t trust Siri will give me an answer that is good for me.” (En gros : je n’ai pas confiance dans les réponses de Siri). Ce qu’une utilisation courante de Siri peut assez facilement confirmer.

Enfin dernier point, les assistants vocaux ne sont vraiment pas doués pour le shopping. Leur principal défaut étant de ne pouvoir permettre facilement la comparaison entre produits.

Nous avons déjà vu que l’énumération de liste était un problème, qui est encore plus pregnant lorsqu’un utilisateur fait une recherche produit (et les tests que nous, Wexperience, menons en ce moment en France tendent à le confirmer). Cette première constatation vient renforcer le fait que la comparaison de produit est difficile sans pouvoir visualiser l’information. Imaginez un tableau de caractéristiques : même un être humain essayant de vous le décrire vous barberait rapidement et votre cerveau même serait incapable de retenir toute l’information qu’il vous envoie. C’est exactement la même chose pour les assistants vocaux.

L’article de NNG cite les nombreux cas où les utilisateurs devaient écouter les listes produits sans pouvoir les interrompre. Où il n’était pas possible de revenir en arrière ou d’aller en avant dans une liste. Où l’assistant leur demandait de retenir, comme un vieux serveur vocal d’antan, des numéros d’items dans une liste pour pouvoir les retrouver ensuite.

Pire, tous les testeurs de l’étude ont fini par admettre que le shopping sans écran était une mauvaise idée et que les assistants vocaux (même avec un écran, comme nous même à Wexperience, l’avons tenté) n’étaient pas fait pour ça.

Et les skills dans tout ça ?

A l’instar des app stores, Google Home et Amazon Echo offrent tous deux un ecosystème qui permet à des tierces parties de développer des applications pour les enceintes intelligentes. Appelées “Skills” chez Amazon et “Action” chez Google, ces programment donnent aux entreprises le moyen (comme c’est déjà le cas en France) de donner accès à leurs services et à leurs offres via les assistants vocaux.

Le fait même de trouver et déclencher une application tierce est un problème

Hélas, d’après NNG, le résultat, à l’heure actuelle, même pour Amazon qui a pourtant déjà plus de 2 ans d’expérience dans le domaine, est catastrophique. Les skills ou actions sont la plupart du temps très difficiles à prendre en main par les utilisateurs.

Ainsi, Amazon Echo aurait deux problèmes majeurs :

Les utilisateurs doivent apprendre à mémoriser le nom précis d’un skill pour l’utiliser, ce dont il ne sont pas capables la plupart du temps (imaginez devoir retenir le nom de toutes les apps installées sur votre smartphone)
Les utilisateurs doivent retenir la “phrase magique” pour déclencher le skill, ce que les utilisateurs n’arrivent pas à faire non plus.

Google Home n’est pas épargné non plus par ce travers, mais en pire, selon NNG. Les actions n’arrivent pas à être déclenchées ou alors elles sont déclenchées par inadvertance. L’article cite un utilisateur qui cherchait des informations de guidage pour se rendre à la plage et se retrouva, sans comprendre pourquoi, avec l’indice UV de cette plage (via une application tierce).

Des applications tierces extrêmement mal programmées

Sans réelle surprise, et comme on pouvait s’y attendre, les applications tierces (les skills et les actions donc) se sont révélées être de véritables catastrophes ergonomiques. Pour une simple et bonne raison : la plupart des utilisateurs pensaient pouvoir utiliser leurs propres mots pour leur adresser la parole, alors qu’en réalité, seules des phrases précises permettent de les utiliser (à se demander à quoi sert vraiment l’IA dans tout ça). Ce fut l’écueil principal.

Ce n’est pourtant pas faute de les aider, mais là encore les applications tierces scient elles même la branche qui auraient pu les rendre facile à utiliser.

Afin d’aider les utilisateurs, beaucoup d’entre elles tentent d’aider l’utilisateur en leur énumérant, à la première utilisation, l’ensemble des phrases clés à utiliser pour un bon usage. Mais le résultat fut pire que mieux. Comme pour une notice d’utilisation, les utilisateurs sautaient systématiquement, pendant l’étude, cette étape pour utiliser directement l’application tierce.

Seul le cas où l’application tierce pose des questions et demande à l’utilisateur de répondre brièvement permettait parfois d’aboutir à ce que l’on pourrait appeler un usage satisfaisant (et encore, avec beaucoup de réserves comme l’explique NNG).

Enfin, un autre écueil est également rapidement apparu : la plupart des utilisateurs ne savaient jamais quand ils parlaient à une application tierce ou à Google Home ou Alexa (les deux programmes de parole principaux de Google et d’Amazon), rendant souvent les situations encore plus confuses.

Des interactions bancales avec le reste de l’écosystème

Dans l’étude de NNG, non seulement les enceintes intelligentes étaient testées, mais également les assistants vocaux sur smartphone (qui sont en fait les mêmes programmes).

Les tests sur ces types de terminaux se sont aussi montrés extrêmement décevants pour les utilisateurs quand aux interactions avec les autres fonctionnalités et applications des téléphones.

Ainsi, parmi les nombreux reproches exprimés par les utilisateurs à ce sujet, fut celui de l’enfermement dans les écosystèmes des GAFA. Pour écouter de la musique, par exemple, impossible de passer par une application tierce n’appartenant pas à la même entreprise que celle du propriétaire de l’assistant vocal. Demandez à Siri (d’Apple) d’écouter de la musique vous forcera à aller vers Apple Music, même si vous êtes abonné à Spotify.

Conclusion : il va falloir sortir de l’ère préhistorique

NNG est considéré comme une agence très sérieuse et il n’est nul doute que les résultats présentés représentent exactement la réalité des usages quotidiens avec les enceintes intelligentes. De ce fait, on peut s’étonner du succès d’Amazon Echo pourtant déjà vendu à plus de 20 millions de foyers américains. Et aussi de la guerre commerciale qui est en train de se livrer en Europe avec ces terminaux.

Oui, en réalité, leur usage est encore très limité, voire très déceptif par rapport à la promesse. Mais oui aussi, il y a certainement un “marché du vocal” et aucun doute sur le fait que dans les années à venir les conversations vocales seront un des moyens d’accéder à Internet et à ses nombreux services (voir mon long article à ce sujet).

Prendre une place sur les plateformes d’agents conversationnels n’est donc pas une farce et devrait être une préoccupation véritable des directions digitales des grandes entreprises, même si les résultats et les apports sont encore très embryonnaires.

Et même si NNG dit que nous en sommes au même niveau que les usages mobiles en l’an 2000 (oui, vous avez bien lu)), il est probable que les progrès des interfaces vocales vont être plus rapide que pour le smartphone. Je suis prêt à prendre le pari que d’ici 1 an, il existera de très bons services BtoC dans le vocal et des usages évolués dans le domaines des applications métiers et encore d’autres services non commerciaux.

S’y investir maintenant n’est donc pas prématuré, mais comme je l’avais déjà dit, sans en espérer un ROI sérieux avant quelques temps.

Et je le répéterai encore : devant la difficulté à construire des dialogues et une qualité de service de haut niveau, des développeurs de talent ne suffiront pas pour construire des skills ou des actions. Une véritable démarche UX devra également être mise en place. Notamment à l’aide de tests utilisateurs réguliers et d’un suivi permanent des interactions entre les utilisateurs et votre applications tierces.

Via NNGroup

Photo principale de l’article par Andres Urena sur Unsplash

Les assistants doivent faire encore beaucoup de progrès, selon Norman Nielsen Group

La célèbre agence d’UX américaine dresse un verdict sans appel des assistants vocaux

Sommes-nous en face d’une mystification des GAFA ?

Les différentes dimensions de l’UX vocale et les potentialités d’amélioration

Des utilisateurs bluffés, mais qui n’attendent pas de miracles

Parler aux assistants : fastidieux, mais possible

Recevoir de l’information de la part des assistants : très compliqué

Et les skills dans tout ça ?

Le fait même de trouver et déclencher une application tierce est un problème

Des applications tierces extrêmement mal programmées

Des interactions bancales avec le reste de l’écosystème

Conclusion : il va falloir sortir de l’ère préhistorique

Nouveaux articles

Best-practices UX de la page d’accueil de Canva

Best-practices UX de la page d’accueil de Google Chrome

Best-practices UX de la page d’accueil de Figma