Mesure de la qualité vocale

12 juin 2019 Par Posté dans Expertise
L’Union Internationale des Télécommunications (UIT), en anglais International Telecommunication Union ou ITU) a établi une recommandation pour évaluer la qualité perçue de la voix des communications vocales.

 

Mesure de la qualité d’une communication vocale

Parmi les différentes méthodes, la méthode Full Reference (ou FR) est la plus utilisée. Cette méthode est celle qui donne les résultats les plus fiables, mais sa principale contrainte est toutefois la nécessité de disposer d’un fichier de référence exempt de distorsions à des fins de comparaison.

En effet, les méthodes Full Reference utilisent des algorithmes qui font le processus d’un modèle de l’oreille humaine sur les fichiers audio de référence et de test, ceci afin de faire une estimation des composants audibles. Ensuite ils réalisent une comparaison de ces composants afin d’obtenir la différence audible.  Après, ces informations sont soumises à un processus comparable à celui d’un cerveau humain appelé modèle cognitif. Et enfin une image de la qualité totale est générée.

Le schéma ci-dessous présente le modèle Full Reference :
 
 Au cours des dernières années, plusieurs modèles de mesures de la qualité de la voix sur IP ont été proposés, dont le PSQM (Perceptual Speech Quality Measure) qui a été recommandé par l’ITU entre 1996 et 2001, le PAMS (Perceptual Analysis Measurement system), et le PESQ (Perceptual Evaluation of Speech Quality) qui est actuellement recommandé et qui est une combinaison optimisée du PAMS et du PSQM.

 

Méthode d’évaluation chez ip-label

Chez ip-label, la principale méthode d’évaluation utilisée est le PESQ. Cette méthode combine principalement le modèle psycho acoustique et cognitive du PSQM avec un algorithme d’alignement temporel.

L’algorithme du PESQ est présenté dans la figure ci-dessous :

L’algorithme fournit une note d’opinion moyenne connue sous l’acronyme MOS en anglais (Mean Opinion Score) qui varie de 1 (mauvais) à 5 (excellent).

 

Le tableau ci-dessous montre l’échelle définit par l’ITU :
 

 

La méthode permet de récupérer aussi les indicateurs voix secondaires suivants :
• l‘indice de bruit correspond à la quantité d’information supplémentaire en fréquence lorsque le fichier dégradé présente un offset,
• l‘indice d’omission correspond à la quantité de données manquantes lorsqu’il y a un offset par rapport au fichier de référence,
• l’indice de décalage correspond au délai entre les différentes séquences de parole.
Ces trois indicateurs sont exprimés en pourcentage par rapport au fichier de référence.

 

Le calcul du MOS peut se faire avec :
• un robot Newtest for Voice simulant les appels d’utilisateurs réels sur tout type de réseau voix:
– Réseau Téléphonique Commuté (RTC)
– Réseau Numérique à Intégration de Services (RNIS)
– Global System pour Communications Mobiles (GSM)
– Voix sur protocole IP (VoIP)
• un robot Newtest classique équipé d’un softphone comme Skype ou X-Lite.

 

Le tableau de bord pour un test MOS est présenté ci-dessous :

 

Laisser un commentaire

Votre adresse email ne sera pas publié