Nvidia vise à résoudre les problèmes de l'IA avec de nombreuses langues - Actualité sur le financement de l'innovation

Bien que l’IA puisse se sentir omniprésente, il opère principalement dans une infime fraction des 7 000 langues du monde, laissant une énorme partie de la population mondiale derrière. Nvidia vise à réparer ce angle mort flagrant, en particulier en Europe.

La société vient de publier un nouvel ensemble puissant d’outils open source visant à donner aux développeurs le pouvoir de construire une IA de discours de haute qualité pour 25 langues européennes différentes. Cela comprend des langues majeures, mais plus important encore, il offre une bouée de sauvetage à ceux souvent négligés par les grandes technologies, comme Croate, Estonien et Maltais.

L’objectif est de permettre aux développeurs de créer le type d’outils alimentés par la voix que beaucoup d’entre nous tiennent pour acquis, à partir de chatbots multilingues qui vous comprennent réellement vers des robots de service client et des services de traduction qui fonctionnent en un clin d’œil.

La pièce maîtresse de cette initiative est Grenierune énorme bibliothèque de discours humain. Il contient environ un million d’heures d’audio, tous organisés pour aider à enseigner à l’IA les nuances de la reconnaissance et de la traduction de la parole.

Pour utiliser ces données de parole, NVIDIA fournit également deux nouveaux modèles d’IA conçus pour les tâches linguistiques:

Canary-1b-v2un grand modèle construit pour une grande précision sur les travaux de transcription et de traduction complexes.
Parkeet-TDT-0.6b-V3qui est conçu pour des applications en temps réel où la vitesse est tout.

Si vous souhaitez plonger dans la science derrière elle, le document sur Granary sera présenté à la conférence IntellePech aux Pays-Bas ce mois-ci. Pour les développeurs désireux de se salir les mains, l’ensemble de données et les deux modèles sont déjà disponibles sur un visage étreint.

La vraie magie, cependant, réside dans la façon dont ces données ont été créées. Nous savons tous que la formation IA nécessite de grandes quantités de données, mais l’obtenir est généralement un processus lent, coûteux et franchement fastidieux d’annotation humaine.

Pour contourner cela, l’équipe de discours de Nvidia – en collaboration avec des chercheurs de l’Université Carnegie Mellon et de Fondazione Bruno Kessler – a construit un pipeline automatisé. En utilisant leur propre boîte à outils NEMO, ils ont pu prendre un audio brut et non étiqueté et les fouetter en données structurées de haute qualité dont une IA peut apprendre.

Ce n’est pas seulement une réalisation technique; C’est un énorme saut pour l’inclusivité numérique. Cela signifie qu’un développeur à Riga ou Zagreb peut enfin créer des outils d’IA à propulsion vocale qui comprennent correctement leurs langues locales. Et ils peuvent le faire plus efficacement. L’équipe de recherche a constaté que leurs données sur le canari sont si efficaces qu’elles en prennent environ la moitié pour atteindre un niveau de précision cible par rapport à d’autres ensembles de données populaires.

Les deux nouveaux modèles démontrent ce pouvoir. Canary est franchement une bête, offrant une qualité de traduction et de transcription qui rivalise trois fois sa taille, mais avec jusqu’à dix fois la vitesse. La perruche, quant à elle, peut mâcher un enregistrement de la réunion de 24 minutes en une seule fois, déterminant automatiquement quelle langue est parlée. Les deux modèles sont suffisamment intelligents pour gérer la ponctuation, la capitalisation et fournir des horodatages au niveau des mots, qui est requis pour créer des applications de qualité professionnelle.

En mettant ces outils puissants et les méthodes derrière eux entre les mains de la communauté mondiale des développeurs, Nvidia ne publie pas seulement un produit. Il s’agit d’une nouvelle vague d’innovation, dans l’espoir de créer un monde où l’IA parle votre langue, peu importe d’où vous venez.

(Photo d’Aedrian Salazar)