Soundhound donne à son Ai le pouvoir de la vue - Actualité sur le financement de l'innovation

Soundhound AI, déjà un acteur majeur des assistants vocaux, donne maintenant à sa technologie une paire d’yeux.

Imaginez passer devant un point de repère et, sans retirer votre téléphone, demander à votre voiture: «Qu’est-ce que ce bâtiment là-bas?» et obtenir une réponse instantanée. C’est ce que Soundhound Ai construit.

Avec le lancement de Vision AI, le nouveau système de Soundhound combine la vue avec le son pour créer un moyen beaucoup plus intelligent et plus naturel d’interagir avec la technologie. L’idée est d’imiter comment nous, les humains, opérons; Nous n’écoutons pas simplement quelqu’un, nous voyons aussi leurs gestes et ce qu’ils regardent.

En apportant cette même compréhension contextuelle à l’IA, Soundhound espère lisser l’expérience maladroite et souvent frustrante que nous avons avec de nombreux appareils intelligents d’aujourd’hui. La société cible les applications du monde réel où ce sens combiné pourrait faire une énorme différence, que ce soit dans votre prochaine voiture, au restaurant Drive-Thru, ou dans un plancher d’usine.

Keyvan Mohajer, PDG de Soundhound AI, a déclaré: «Chez Soundhound, nous pensons que l’avenir de l’IA n’est pas seulement multimodal – il est profondément intégré, réactif et conçu pour un impact réel.

«Avec Vision IA, nous étendons notre leadership dans la voix et l’IA conversationnelle pour redéfinir la façon dont les humains interagissent avec les produits et services offerts et utilisés par les entreprises.»

Alors, comment ça marche? Vision AI prend un flux en direct d’une caméra et le fusionne avec la technologie vocale de l’entreprise, qui excelle déjà à comprendre la parole naturelle. En traitant ce qu’il voit et ce qu’il entend en même temps, le système peut saisir la véritable intention de l’utilisateur d’une manière qu’un simple assistant vocal n’a jamais pu.

Pensez à un mécanicien portant des lunettes intelligentes qui peuvent simplement regarder une partie du moteur et demander des instructions, recevoir des conseils visuels et audio instantanés sans jamais déposer leurs outils. Dans un magasin, un membre du personnel pourrait faire des étagères simplement en les regardant pour obtenir un décompte des stocks en temps réel. Pour le reste d’entre nous, cela pourrait signifier un kiosque au volant qui confirme visuellement notre commande à l’écran au moment où nous le disons.

L’un des plus grands problèmes techniques pour créer un tel système est de s’assurer que les éléments audio et visuels sont parfaitement synchronisés. Tout décalage briser l’illusion d’une conversation naturelle.

Pranav Singh, vice-président de l’ingénierie à Soundhound AI, a commenté: «Avec Vision AI, nous fudons la reconnaissance visuelle et l’intelligence conversationnelle en un seul flux synchronisé. Chaque cadre, chaque énoncé, chaque intention est interprétée dans le même écosystème – en infirmiant des expériences d’utilisateurs plus rapides et plus naturelles qui évoluent à travers les surfaces des kiosques à intégrer.

«C’est l’innovation à l’intersection de l’intelligence et de l’exécution, en fournissant l’IA qui voit ce que vous voyez, entend ce que vous dites et répond dans l’instant.»

Pour les entreprises qui adoptent cette technologie, la promesse est de fournir un service plus rapide, moins d’erreurs et des clients plus heureux. Il s’agit de supprimer les frictions et de faire en sorte que la technologie ressemble moins à un outil que vous devez utiliser et plus comme un partenaire qui vous aide à faire avancer les choses.

Cette nouvelle capacité visuelle n’est pas la seule mise à niveau de Soundhound est déployée. La société a également récemment amélioré le «cerveau» de son système avec une nouvelle mise à jour, Amelia 7.1. Cette amélioration rend ses agents d’IA plus rapides, plus précis et donne aux entreprises plus de contrôle et de transparence sur leur fonctionnement.

En combinant la vue et le son, Soundhound vise à nous rapprocher d’un monde où l’interaction avec l’IA se sent aussi facile et intuitive que de parler à une autre personne.

(Photo de Christian Lue)