SARAH: Reconnaissance Vocale

Je n’ai pas eu le temps de faire une nouvelle release de SARAH ce week-end. Mais j’ai trouvé une astuce pour améliorer la reconnaissance vocale et surtout limiter les faux positifs.

L’idée est de tester que le premier mot « SARAH » a une confidence de 0.90. J’ai testé tout le week-end :

  • Sur 2 machines avec 2 Kinects
  • Avec différentes configurations (echo reduction, noise suppression, gain)
  • Télévision et PC allumé faisant du son…

Le résultat semble meilleur même si j’ai encore beaucoup trop de faux positifs sur des phrases courtes: « SARAH bonjour ».

Je met en ligne les dumps (wav + xml) des faux positifs, si une bonne âme de Microsoft, expert Speech / Kinect peut me renseigner… car j’ai des résultats très étranges parfois …

Je pense que l’algo se base sur la modulation du son sans tenir compte du volume. Donc si l’on fait du « tam tam » sur un bureau éloigné ça peut mieux marcher que dire « SARAH » devant le micro …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *