SARAH et Microsoft Oxford

Voici un petit test du projet Oxford qui propose un ensemble de service web Azure dont:

  • Reconnaissance faciale
  • Reconnaissance vocale
  • Reconnaissance d’image
  • Sémantique dans l’Audio

Pour le moment l’API de reconnaissance vocale est en version beta comme celle de Google. Mais je trouve que la qualité de l’audio est meilleur avec des microphones de bureau.

Si j’ai bien compris c’est cette API qui sera présente dans Windows 10 et Cortana ?

[mom_video type= »youtube » id= »MPm7EBqBDrI »]

J’aimerai intégrer cette API à SARAH si je réussi à comprendre comment ne pas spammer les serveurs de Microsoft avec tout l’audio. Il faudrait finement intégrer les commandes vocales avec l’API d’Oxford. Par exemple comme fallback si la commande n’est pas reconnue.

Si vous avez des idées… un avis … faites moi signe !

Note: Ce sont des algorithms de deep learning exécutés sur un serveur distant donc oui ça pourrait marcher (tout comme les API de Google) depuis NodeJS et un RaspberryPi mais il faudrait alors gérer en offline le trigger et la sémantique.

4 pensées sur “SARAH et Microsoft Oxford

  • 6 juillet 2015 à 12 h 01 min
    Permalink

    c’est l’idée que je me suis fait en voyant Cortana fonctionner la première fois: extraire la partie reconnaissance à notre usage qui fonctionne plutôt bien, en revanche je ne savais pas que son moteur Oxford Vision utilisait un serveur distant snif.

    Répondre
  • 6 juillet 2015 à 12 h 45 min
    Permalink

    Toute reconnaissance vocale « Speech2Text » qui marche utilise des Convolutions Network donc des machines puissantes qui ont appris donc du SaaS

    Répondre
  • 29 juillet 2015 à 20 h 09 min
    Permalink

    J’ai eu une petite idée, faisable ou non je ne sais pas, mais ça pourrai permettre de ne pas bourrer les serveurs Azure.
    Au lieu de laisser les lignes de codes aller vers les serveurs, pourquoi ne pas les enregistrer en local (par ex: C:/sarah/Speech2Text/temp), faire en sorte que Oxford les traite malgré tout en direct d’un point de vu sémantique, puis. créer un .exe vidant le cache régulièrement (toutes les heures par exemple).
    Après à voir si c’est jouable, mais après tout les serveurs ont bien une adresse, il « suffirait » de modifier cette adresse, le plus dur serait certainement d’effectuer le traitement sémantique en local.

    Répondre
    • 29 juillet 2015 à 20 h 16 min
      Permalink

      Je n’ai pas compris ce que tu souhaite faire

      Les gens de Microsoft Oxford m’ont précisé qu’il y avait un threshold pour éviter de spammer leur serveur. Donc on ne peut faire que X requête par minute.

      Au niveau de l’API on peut faire un Speech2Text d’un fichier audio ou d’un flux audio. Ce qui permettrait de temporiser les choses.

      Mais dans tous les cas il faudrait localement un moyen de décider si l’on interroge Oxford. Donc détecter super finement localement « SARAH bla bla bla ».

      Une piste que j’avais ‘mais pas vraiment eu le temps de plus la tester. Etait de laisser tourner le moteur local de SARAH et SI ça ne catchais aucune phrase balancer le tout à Oxford (+ peut etre un ptit filtre supplémentaire localement).

      Répondre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *