SARAH et Microsoft Oxford

Jean-Philippe Encausse

juin 27, 2015

Voici un petit test du projet Oxford qui propose un ensemble de service web Azure dont:

Reconnaissance faciale
Reconnaissance vocale
Reconnaissance d’image
Sémantique dans l’Audio

Pour le moment l’API de reconnaissance vocale est en version beta comme celle de Google. Mais je trouve que la qualité de l’audio est meilleur avec des microphones de bureau.

Si j’ai bien compris c’est cette API qui sera présente dans Windows 10 et Cortana ?

[mom_video type= »youtube » id= »MPm7EBqBDrI »]

J’aimerai intégrer cette API à SARAH si je réussi à comprendre comment ne pas spammer les serveurs de Microsoft avec tout l’audio. Il faudrait finement intégrer les commandes vocales avec l’API d’Oxford. Par exemple comme fallback si la commande n’est pas reconnue.

Si vous avez des idées… un avis … faites moi signe !

Note: Ce sont des algorithms de deep learning exécutés sur un serveur distant donc oui ça pourrait marcher (tout comme les API de Google) depuis NodeJS et un RaspberryPi mais il faudrait alors gérer en offline le trigger et la sémantique.

FMUNIER

juillet 6, 2015 at 12:01

c’est l’idée que je me suis fait en voyant Cortana fonctionner la première fois: extraire la partie reconnaissance à notre usage qui fonctionne plutôt bien, en revanche je ne savais pas que son moteur Oxford Vision utilisait un serveur distant snif.

J’aimeJ’aime

Réponse
Jean-Philippe Encausse

juillet 6, 2015 at 12:45

Toute reconnaissance vocale « Speech2Text » qui marche utilise des Convolutions Network donc des machines puissantes qui ont appris donc du SaaS

J’aimeJ’aime

Réponse
Nicolas

juillet 29, 2015 at 8:09

J’ai eu une petite idée, faisable ou non je ne sais pas, mais ça pourrai permettre de ne pas bourrer les serveurs Azure.
Au lieu de laisser les lignes de codes aller vers les serveurs, pourquoi ne pas les enregistrer en local (par ex: C:/sarah/Speech2Text/temp), faire en sorte que Oxford les traite malgré tout en direct d’un point de vu sémantique, puis. créer un .exe vidant le cache régulièrement (toutes les heures par exemple).
Après à voir si c’est jouable, mais après tout les serveurs ont bien une adresse, il « suffirait » de modifier cette adresse, le plus dur serait certainement d’effectuer le traitement sémantique en local.

J’aimeJ’aime

Réponse
1. Jean-Philippe Encausse
  
  juillet 29, 2015 at 8:16
  
  Je n’ai pas compris ce que tu souhaite faire
  
  Les gens de Microsoft Oxford m’ont précisé qu’il y avait un threshold pour éviter de spammer leur serveur. Donc on ne peut faire que X requête par minute.
  
  Au niveau de l’API on peut faire un Speech2Text d’un fichier audio ou d’un flux audio. Ce qui permettrait de temporiser les choses.
  
  Mais dans tous les cas il faudrait localement un moyen de décider si l’on interroge Oxford. Donc détecter super finement localement « SARAH bla bla bla ».
  
  Une piste que j’avais ‘mais pas vraiment eu le temps de plus la tester. Etait de laisser tourner le moteur local de SARAH et SI ça ne catchais aucune phrase balancer le tout à Oxford (+ peut etre un ptit filtre supplémentaire localement).
  
  J’aimeJ’aime
  
  Réponse

SARAH et Microsoft Oxford

Partager :

Répondre à Nicolas Annuler la réponse.