Google reconnaissance vocale et réseau de neurones
Google déploie une technologie de reconnaissance vocale de bout en bout entièrement pilotée par des réseaux de neurones pour la saisie vocale dans son application clavier virtuel Gboard.
Dans un article, Google présente un nouveau modèle formé avec un transducteur de réseau neuronal récurrent (RNN-T) suffisamment compact pour fonctionner sur un smartphone. Selon la fonction de reconnaissance vocale de bout en bout en continu pour les appareils mobiles, les modèles de bout en bout prédisent directement la sortie de caractères en fonction de l’entrée vocale, et sont de bons candidats pour l’exécution de la reconnaissance vocale sur les périphériques. L’équipe de recherche de Google a découvert dans ses expériences que l’approche par RNN-T surpassait un modèle conventionnel basé sur la classification temporelle connectionniste (CTC) en termes de latence et de précision.
Les systèmes traditionnels de reconnaissance vocale identifient les phonèmes (unités sonores) à partir de segments audio, un modèle pour relier les phonèmes en mots, et un modèle de langage pour analyser la probabilité d’une phrase donnée, selon l’article. Les chercheurs ont commencé à essayer de passer directement de la forme d’onde d’entrée à la phrase de sortie en formant un seul réseau de neurones vers 2014, ce qui a conduit à l’élaboration de modèles » basés sur l’attention » et » l’écoute ». Bien que ces systèmes aient une précision prometteuse, ils nécessitent généralement l’analyse complète de l’ensemble de la séquence d’entrée, de sorte qu’ils ne peuvent pas prendre en charge la transcription en temps réel. Des techniques de CTC ont également été développées, réduisant la latence des systèmes de reconnaissance vocale.
« Cela s’est avéré être une étape importante dans la création de l’architecture de RNN-T adoptée dans cette dernière version, ce qui peut être considéré comme une généralisation de la CTC », écrit Johan Schalkwyk, un Google Fellow de l’équipe Speech de la société.
Les modèles RNN-T émettent des caractères un par un, en utilisant une boucle de rétroaction qui renvoie les symboles prédits (généralement des lettres) dans le modèle pour prédire le suivant. Les premières versions réduisaient le taux d’erreurs des mots, mais la formation était intensive en calcul.
Les chercheurs ont mis au point une implémentation parallèle permettant de gérer efficacement de grande quantité sur le matériel cloud haute performance de l’unité de traitement du tenseur (Tensor Processing Unit : TPU v2) de Google, ce qui a accéléré la formation.
Les graphiques de recherche utilisés par les moteurs de reconnaissance vocale traditionnels sont encore trop volumineux pour fonctionner sur des appareils mobiles. Cependant, les modèles de production de Google atteignaient presque 2 Go malgré des techniques de décodage sophistiquées. Les chercheurs ont mis au point une méthode de décodage avec recherche de faisceau sur un réseau de neurones unique pour obtenir la même précision avec un modèle de 450 Mo. Puis ils ont réduit la taille avec la quantification des paramètres et les techniques de noyau hybride, pour finalement réduire le modèle final à 80 Mo.
Le nouveau système de reconnaissance vocale Gboard sera initialement lancé sur les téléphones Pixel en anglais américain, mais les chercheurs sont optimistes quant à la possibilité d’ajouter plus de langues et de domaines d’application grâce à des améliorations matérielles et algorithmiques spécialisées.
Les marchés de la reconnaissance vocale et de la parole devraient atteindre 6,9 milliards de dollars d’ici 2025.