Voici un petit test du projet Oxford qui propose un ensemble de service web Azure dont:
- Reconnaissance faciale
- Reconnaissance vocale
- Reconnaissance d’image
- Sémantique dans l’Audio
Pour le moment l’API de reconnaissance vocale est en version beta comme celle de Google. Mais je trouve que la qualité de l’audio est meilleur avec des microphones de bureau.
Si j’ai bien compris c’est cette API qui sera présente dans Windows 10 et Cortana ?
[mom_video type= »youtube » id= »MPm7EBqBDrI »]
J’aimerai intégrer cette API à SARAH si je réussi à comprendre comment ne pas spammer les serveurs de Microsoft avec tout l’audio. Il faudrait finement intégrer les commandes vocales avec l’API d’Oxford. Par exemple comme fallback si la commande n’est pas reconnue.
Si vous avez des idées… un avis … faites moi signe !
Note: Ce sont des algorithms de deep learning exécutés sur un serveur distant donc oui ça pourrait marcher (tout comme les API de Google) depuis NodeJS et un RaspberryPi mais il faudrait alors gérer en offline le trigger et la sémantique.



Répondre à Nicolas Annuler la réponse.