SARAH: Reconnaissance Vocale

Jean-Philippe Encausse

décembre 17, 2012

Je n’ai pas eu le temps de faire une nouvelle release de SARAH ce week-end. Mais j’ai trouvé une astuce pour améliorer la reconnaissance vocale et surtout limiter les faux positifs.

L’idée est de tester que le premier mot « SARAH » a une confidence de 0.90. J’ai testé tout le week-end :

Sur 2 machines avec 2 Kinects
Avec différentes configurations (echo reduction, noise suppression, gain)
Télévision et PC allumé faisant du son…

Le résultat semble meilleur même si j’ai encore beaucoup trop de faux positifs sur des phrases courtes: « SARAH bonjour ».

Je met en ligne les dumps (wav + xml) des faux positifs, si une bonne âme de Microsoft, expert Speech / Kinect peut me renseigner… car j’ai des résultats très étranges parfois …

Je pense que l’algo se base sur la modulation du son sans tenir compte du volume. Donc si l’on fait du « tam tam » sur un bureau éloigné ça peut mieux marcher que dire « SARAH » devant le micro …

SARAH: Reconnaissance Vocale

Partager :

Laisser un commentaire Annuler la réponse.