SARAH: Reconnaissance Vocale
Je n’ai pas eu le temps de faire une nouvelle release de SARAH ce week-end. Mais j’ai trouvé une astuce pour améliorer la reconnaissance vocale et surtout limiter les faux positifs.
L’idée est de tester que le premier mot « SARAH » a une confidence de 0.90. J’ai testé tout le week-end :
- Sur 2 machines avec 2 Kinects
- Avec différentes configurations (echo reduction, noise suppression, gain)
- Télévision et PC allumé faisant du son…
Le résultat semble meilleur même si j’ai encore beaucoup trop de faux positifs sur des phrases courtes: « SARAH bonjour ».
Je met en ligne les dumps (wav + xml) des faux positifs, si une bonne âme de Microsoft, expert Speech / Kinect peut me renseigner… car j’ai des résultats très étranges parfois …
Je pense que l’algo se base sur la modulation du son sans tenir compte du volume. Donc si l’on fait du « tam tam » sur un bureau éloigné ça peut mieux marcher que dire « SARAH » devant le micro …