La guerre des bots
En 2016, lors de la BUILD, Microsoft annonçait son « Microsoft Bot Framework« . Ce service était une petite révolution permettant la conception ChatBot compatibles avec de nombreux canaux de communication tel que Slack, Facebook, Skype, etc …
La v5 de SARAH complètement réécrite en VISEO Bot Maker sur une base de IBM Node-RED a fondé sa stratégie sur le Bot Framework afin de passer à l’échelle en interagissant avec un maximum d’assistants.
2ans et plus d’une 20aine de projets plus tard, c’est l’arrivée des assistants vocaux qui viennent en concurrence direct avec Microsoft. Mais où est Cortana qui devait aussi s’intégrer aux voitures ? C’est plutôt Ford qui fait des annonces …
Lors du CES 2018 Google était présent partout malgré la pluie. Depuis quelques mois on ressent l’énorme investissement que fait Google pour rattraper son retard face à Alexa qui était plutôt discrète, (même si elle était aussi intégré à tous les produits).
Le peu de hardware côté Microsoft est une explication possible de la timidité de Cortana malgré ses 140 Millions d’utilisateur par mois. Le partenariat entre Amazon et Microsoft semble aussi avoir beaucoup plus profité à Alexa. De son côté SIRI était totalement absent !
Par contre le marché Chinois s’est grandement développé. D’une part avec l’assistant de Samsung qui fait sa place doucement. Et d’autre part avec le rachat de Kitt.ai (et donc Snowboy) par Baidu. Nous avons pu discuter avec la société qui fait Dueros leur brique de hardware.
Bref la guerre est ouverte ! Aux US même les seniors utilisent des assistants ! Nous sommes vraiment en retard en Europe. J’espère avoir l’occasion d’intégrer les Français Snips à SARAH !
Bonjour,
Il est en effet impressionnant de voir comment google rattrape son retard dans ce domaine depuis l’année dernière.
J’ai réussi à créer une app pour mon google home mini (59€ !) qui me donne le solde de mon compte bancaire et cela en quelques heures.
Ce qui manque encore au google home c’est un système de notifications mais grâce à ça (https://github.com/noelportugal/google-home-notifier)
installé sur mon rasp pi ce n’est plus un problème et tout fonctionne bien avec ifttt et node-red. Bon mon nabaztag/Karotz qui date de 10 ans le faisait
déjà mais bon c’est comme ça…
Ce qui me frappe par contre c’est le manque d’ouverture de certaine entreprises chez nous pour l’accès à leurs APIs afin « de nourrir » encore plus ces assistants.
Par exemple, j’avais dans l’idée de créer une application pour pronote qui se trouve être le système que la plupart des collèges et lycées utilisent pour dialoguer avec les parent, renseigner les notes de son enfant, son emploi du temps, etc…
J’ai donc modélisé la discussion dans dialogFlow et créé un webhook dans heroku mais les API pronote ne sont pas dispo au public alors que cela pourrait être une killer app. Le parent qui rentre le soir et qui demande à son google home, les devoirs du lendemain ou bien les notes de la journée ce serait top.
Quoi qu’il en soit, j’ai vraiment hâte de voir ce que les GAFAMs et autres nous préparent pour l’avenir !
C’est amusant, Igor Carron m’avait parlé de Pronote pour SARAH il y a quelques années.
Mais comme tu l’évoques c’est trèèèèsss lent, avec l’application Sephora sur Google Home on a appris plein de choses ce qui nous a permis d’améliorer Node-RED.
En plus / avec la notification il manque aussi le multi-message. Sur MSBotFramework il est possible d’envoyer des messages/réponses indépendamment des questions. Alors que sur les autres Alexa, Cortana, GoogleHome c’est forcément du HTTP request/response. Alors on ruse dans la v5 de SARAH mais ce serait plus clean si ils l’implémentait.
Et l’on parle QUE de la voix, arrive en force le computer vision ! Je jouait il y a quelques jours avec Echo Look qui reste TRES limité en comparaison de tout ce qu’on pourrait faire …
Ajouter la vision (et l’intelligence qui va avec) à un assistant c’est en effet l’étape d’après sachant qu’une grande partie de ce qu’un personne peu exprimer passe par son attitude. Je fais souvent le parallèle entre une réunion ou tous les intervenants sont dans la même pièce et une réunion en conf call. Dans le second cas, il y a une perte d’information très importante car il manque l’aspect visuel et tout ce que cela génère mais aussi la plus grande emphatie qu’apporte la proximité.
Un assistant numérique deviendra vraiment performant et pertinent lorsque tous ces aspects auront été numérisés et nous en sommes encore loin même si les progrès en deep learning sont conséquent en ce moment.
Une chose que je trouve un peu étonnant concerne l’offre des gafam (et les autres comme IBM watson ou salesforce einstein) dans le domaine de la reconnaissance visuelle. J’ai testé l’offre de facebook, microsoft, ibm et actuellement salesforce pour un projet dans ma boite de reco de produits dans des vitrines et finalement l’offre est identique; à la fois en ce qui concerne la pertinence du résultat mais aussi l’utilisation des outils et des étapes à suivre. C’est le cas aussi pour la modélisation de dialogues entre dialogFlow, WIT.AI, watson, Ms LUI, etc…
J’ai l’impression qu’ils se copient entre eux. La seule offre alternative c’est TensorFlow de google car le niveau d’abstraction est très bas par rapport aux autres offres bien plus simple d’accès.
Effectivement pour des clients on a fait un bench de toutes ces solutions qui sont assez proche. Au final ce n’est pas forcément la techno qui tranche.
Côté Computer Vision tu as aussi CnTK qui est l’équivalent de Tensorflow côté Microsoft pour toucher aux couches basses. On a joué avec custom vision (Microsoft et Google) et c’est pas mal.
Niveau OCR sur du manuscrit il y a encore du taf à faire.
Sur la reco d’objet en magasin je suis curieux de savoir ce que tu as obtenu.
– Je n’ai pas trouvé de vrai service ouvert à la Pinterest qui trouve le produit le plus proche
– Pour du matching exact Bear était pas mal sur du packaging
Bonjour,
Je ne connaissais pas CNTK, je vais regarder merci.
Mon use case c’est la reconnaissance de nos produits dans les vitrines réfrigérées et les linéaires dans les supermarchés afin de déterminer les actions à mener par nos commerciaux lors des prochaines visites.
J’utilise https://github.com/tzutalin/labelImg pour tagger toute une série de photos qui sert ensuite à entrainer le moteur d’IA (salesforce einstein -https://developer.salesforce.com/blogs/2017/10/use-einstein-object-detection.html- en l’occurence). Cette phase est fastidieuse mais nécessaire.
J’essaye de déterminer si l’ajout d’une couche plus bas niveaux genre tenserflow pourrait être bénéfique pour afiner le résultat final mais c’est encore trop tôt pour moi pour le dire.