Poster un commentaire

SARAH: Reconnaissance Vocale

Je n’ai pas eu le temps de faire une nouvelle release de SARAH ce week-end. Mais j’ai trouvé une astuce pour améliorer la reconnaissance vocale et surtout limiter les faux positifs.

L’idée est de tester que le premier mot « SARAH » a une confidence de 0.90. J’ai testé tout le week-end :

  • Sur 2 machines avec 2 Kinects
  • Avec différentes configurations (echo reduction, noise suppression, gain)
  • Télévision et PC allumé faisant du son…

Le résultat semble meilleur même si j’ai encore beaucoup trop de faux positifs sur des phrases courtes: « SARAH bonjour ».

Je met en ligne les dumps (wav + xml) des faux positifs, si une bonne âme de Microsoft, expert Speech / Kinect peut me renseigner… car j’ai des résultats très étranges parfois …

Je pense que l’algo se base sur la modulation du son sans tenir compte du volume. Donc si l’on fait du « tam tam » sur un bureau éloigné ça peut mieux marcher que dire « SARAH » devant le micro …

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 1 262 autres abonnés