Les applications vocales interactives, quel avenir ?

15 février 2018 Par Posté dans Services Connectés

Voilà quelques années, les analystes prévoyaient que la voix remplacerait le toucher dans quelques années pour devenir le mode privilégié d’interaction avec les terminaux intelligents.

C’est ce qui s’est dit dans le passé. A présent, on peut dire sans se tromper que la parole n’a pas encore remplacé le tactile.

En effet, l’engouement pour les services et appareils dotés de capacités vocales accroît rapidement. Pour nous aider à nous repérer dans les nombreux produits disponibles, des articles de fond comparent apps et services – moteurs de recherche vocaux, VoIP, appareils à commandes vocales, reconnaissance vocale, fonctionnalités texte-parole (text-to-speech), etc.

Le mois dernier, les analystes prévoyaient de nouveau que la voix deviendrait le mode principal d’interaction avec des services intelligents, cette fois parmi les ‘clients’ (c’est-à-dire les cadres aisés occidentaux de 30 à 45 ans) qui utilisent de plus en plus les assistants virtuels plutôt que de se déplacer pour aller à la banque ou de faire leurs courses. En même temps, les essais des 4 nouveaux assistants les plus importants (Alexa d’Amazon, Siri d’Apple, Google Assistant, et Cortana de Microsoft) trouvent qu’ils ne sont pas à la hauteur des défis de la vie réelle actuelle.

 

Un catalyseur de l’innovation en interactivité vocale

Et à l’avenir ? Un développement récent stimule l’imagination : il s’agit de la mise à disposition par Mozilla fin novembre 2017 de son modèle open-source de reconnaissance vocale et de son ensemble de données vocales (de langue anglaise, pour commencer). Qu’est-ce qui rend si fascinant l’ouverture au public de ce type de technologie et de ses données ?

Un aperçu du fonctionnement de la plupart des services vocaux aidera à répondre à cette question.

 

Comment fonctionnent les capacités vocales d’un appareil ou d’un service ?

Afin de communiquer avec ses utilisateurs, une application vocale doit pouvoir écouter et répondre, comme dans n’importe quelle conversation. Elle doit avoir la capacité d’« écouter » les informations d’entrée (reconnaissance vocale) et de « dire » les informations de sortie (synthèse vocale).

A ces capacités, ajoutez voix-texte (cf. DeepSpeech de Mozilla qui traduit la voix en texte) et texte-parole. En d’autres termes, une application vocale devrait pouvoir produire des paroles parlées à partir d’un texte (e.g. lire un texte à haute voix), produire du texte à partir des paroles (écrire un e-mail sous la dictée), et reconnaître des commandes ou questions orales et y répondre correctement (serveurs vocaux, GPS, assistant virtuel).

L’application pourrait avoir à « apprendre » à reconnaître le parler de son utilisateur. Mais souvent un ensemble de données voix peut être utilisé pour « former » les algorithmes d’apprentissage automatique. Meilleures sont les données, mieux l’application reconnait les paroles parlées. Voilà pourquoi les données Common Voice de Mozilla sont si pertinentes pour l’innovation.

Pour conclure avec une prévision à nous, on peut s’attendre à une forte augmentation dans les années à venir du nombre de produits et services dotés de capacités vocales et de nouvelles interfaces vocales.

 

Mesurer l’expérience utilisateur sur les applications vocales

Tous ces produits et services futurs seront testés par les équipes R&D et Intégration avant leur sortie. Mais que se passe-t-il lorsque ces produits entrent dans le monde réel ? Seront-ils performants pour leurs utilisateurs ? Aujourd’hui, on répond à de telles questions sur des technologies vocales courantes, et nous pouvons nous attendre à ce que ce soit fait de même pour les technologies vocales émergentes et futures.

Les applications vocales courantes de nos jours sont surveillées par des transactions vocales qui vérifient à la fois les flux « écoute » et les flux « réponse » — par exemple, si l’interface cliente d’une banque reconnait correctement ce qu’on lui demande à haute voix et génère correctement les informations de sortie (une réponse vocale, une action, or un texte). On mesure également le temps qu’il faut pour se connecter au service, obtenir une réponse du serveur, et ainsi de suite, parce que les outils de monitoring d’applications vocales vérifient la qualité de l’expérience utilisateur d’un bout à l’autre du système.

Des diagnostics sont générés à partir des résultats du monitoring proactif de tous types d’interfaces et de services vocaux, tels que les softphones, centres d’appel, serveurs vocaux, et d’autres applications vocales courantes. Les mêmes approches devraient s’appliquer aux technologies vocales à l’avenir, parce que le ressenti favorable de l’utilisateur finale continuera à être un objectif primordial des produits et services vocaux de demain.

Laisser un commentaire

Votre adresse email ne sera pas publié