Réaliser un projet de 24 millions d’euros en quelques jours

L'état Français vient de dépenser 24 millions d'euros dans un outil de détection de piscine pour permettre au FISC de traquer les constructions non déclarées. C'est un montant totalement délirant que je n'arrive pas à m'expliquer tant sur le fond que sur la forme. J'ai donc tenté de refaire ce projet en quelques jours …

Oui j'assume ce titre "Pute à clic" dont le but est surtout d'avoir votre avis sur ce type de projet.

Petit coup de gueule

Il est difficile de savoir ce qui a été chiffré dans ces 24 millions d'euros facturés par CapGemini. Mais ce qui m'énerve profondément c'est que tous les journalistes répètent bêtement le discours de l'état "c'est moins cher que les recettes espérées". Non non non ! Depuis quand les boulangers donnent toute leur marge aux vendeurs de farine ?!

Soyons pragmatique

Essayons de raisonner sur de grandes échelles pour mieux comprendre.

  • 5-10 ingénieurs confirmés, pendant 1an coute 1M€ (reste 23 à trouver)
  • Les projets d'IA de ce type sur lesquels j'ai travaillé était plutôt autour des 500K€ max
  • Ce ne sont pas les requêtes cloud, machine learning ou cartographie qui chargeraient autant la mule :
    • Geocoding : 2000$ = 500K requêtes
    • StaticMap: 838$ = 500K requêtes
  • Peut-être que le SI du FISC est catastrophique, necessitant une surcouche d'API ?

Alors oui si le cahier des charges stipule une précision de 99%, le rédacteur n'a rien compris au fonctionnement de l'IA. Surtout qu'avec cette approche sattélitaire on perd déjà toutes les piscines sous arbre, en intérrieur, l'ambiguité avec les bassins, etc … (30% de taux d'erreur d'après les syndicats)

Il y aurait d'autres manières de faire :

  • Imposer aux Piscinistes de déclarer leurs clients
  • Proposer une aide de l'état sur la sécurité des piscines (et donc de les déclarer)

En étant un peu créatif il y aurait plein d'autres manière de faire, mais jouons le jeu de l'IA.

Récupérer les données cartographiques

Hier soir j'ai pris 2 heures pour voir comment récupérer l'image d'un terrain sur GoogleMaps. Merci à Laurent CAVALLINI dont l'article était un bon point de départ.

Geocoding

Etant donné une adresse je souhaite obtenir les coordonnées GPS. Les API de Google et du Gouvernement fonctionnent très bien et pratiquement gratuitement.

Il suffit de faire une bête requête HTTP. J'ai eu quelques petit soucis avec celle du gouvernement qui me retournait par moment des coordonnées GPS arrondies.

Cadastre et Parcelle

Etant donné une coordonnée GPS, je souhaite obtenir le/les polygone(s) correspondant à une parcelle déclarée au cadastre. L'API du gouvernement fonctionne très bien !

Son temps de réponse est de quelques secondes par moment, mais on ne va pas se plaindre, c'est gratuit et anonyme ! En faisant quelques tests je me suis rendu compte que certaines parcelles n'était probablement pas à jour.

Image Satélitaire

Etant donné les coordonées d'une adresse, je souhaite obtenir l'image correspondant sur GoogleMaps. Pour se faire nous allons calculer le centroide du polygon puis intérroger Google Static Map avec le tracé.

Les cartes font 640×640 en Zoom 20 mais il est possible de contacter Google pour obtenir une meilleur définition et donc une amélioration de la reconnaissance par la suite.

Nettoyage

L'objectif est de mettre en avant la zone qui nous intéresse sans être perturbé par une piscine qui serait dans l'image mais chez le voisin.

Encore une optimisation possible à cette étape en faisant de la datascience à l'ancienne:

  • saturer la couleur bleu intelligement
  • détecter les amas de couleur

Je n'ai pas eu le temps de creuser mais ce serait une étape indispensable pour améliorer le dataset même si les outils d'AutoML font déjà un peu ce travail à l'aveugle.

Machine Learning

Maintenant, il faut produire un certain nombre d'image positive (avec piscine) et négative pour les injecter dans un outil d'intelligence artificielle tel que Microsoft Custom Vision ou Google AutoML

Le truc chouette avec CustomVision est qu'en plus de l'API il y a une interface visuelle pour déclencher des entrainements ou recatégoriser des contenus.

Aller plus loin

Voilà ce qu'il est possible de faire en 3-4h de temps. Pour le moment, le projet marchouille pour aller plus loin il faudrait :

  • Avoir une petite interface web pour donner une adresse et répondre Piscine / Pas Piscine
  • Recartégoriser les résutlats en branchant un outil de Mechanical Turk
  • Améliorer le DataSet en essayant de pré-identifier les piscine. Ou à l'inverse virer tout ce qui n'est pas piscine
  • Utiliser des données satélitaire custom de Google (ou d'un autre)
  • Se brancher au SI du FISC et itérer sur toutes les habitations françaises.

Pour moi ça ne peut pas couter 24 millions d'euros, ou sinon il faut m'expliquer. Car, au pire du pire du pire, il faudrait juste brancher ce petit projet à un Mechanical Turk pour obtenir l'avis d'Humain (vous savez les captchas de Google).

Les Mechanical Turk coutent quelques centimes d'euros et, pour être certain du résultat, vous pouvez interroger 10x chaque image on restera extrêmement loin des 24 millions d'euros. Et il n'y a pas de contrainte de temps de réponse.

Enfin la beauté de l'exercice, c'est que ça alimentera l'IA qui sera de plus en plus performante.

EDIT 12/09/2022 : La Démo !

C'est tombé pile le week-end de maintenance de l'IGN mais j'ai tout de même pu filmer une petite démo 🙂

Conclusion

Je serais vraiment curieux d'avoir vos retours ! Qu'est ce que j'ai raté dans l'exercice ? Si j'ai le temps, je ferais les 2 petites pages web pour partager ce service.

Il y a clairement des cas tordus liés au cadastre qui n'est pas à jour, à la taille des piscines, à la qualité des images satelitaires et plein d'autres problèmes de la vrai vie. C'est la loi des 80/20, mais avec plus de 20 millions d'euros de marge il y a de quoi faire 😉

Bon et sinon je peux vous faire la gestion de projet pour quelques millions si besoin 😉 et si vous avez des besoin d'un sparing partner tech sur vos projets d'innovation faites moi signe j'aurais peut-être quelques idées (ou pas).

Merci à Ari Kouts pour la relecture !

4 réflexions sur “Réaliser un projet de 24 millions d’euros en quelques jours

  • 6 septembre 2022 à 14 h 37 min
    Permalien

    Vous n’avez pas compté que donner du travail a tant de personnes qualifiées leur permettra de se faire construire des piscines qu’ils déclareront ou non, mais dans ce cas ils se feront rattrapés par l’IA. 🙂
    Sinon, une piscine ne pourrait-elle pas se déduire des pics de consolation d’eau?

    Répondre
    • 8 septembre 2022 à 16 h 06 min
      Permalien

      Oui effectivement le premier remplissage pourrait être aussi un indicateur. Mais avec bcp d’aléas (QUID du remplissage en 3fois vs un SPA, etc …)
      Je vais faire une petite UI pour valider que le mixte humain + tech sera la bonne réponse.

      Répondre
  • 17 octobre 2022 à 17 h 15 min
    Permalien

    Les photos utilisées ne sont pas celles de google, mais celle de l’IGN que l’on peut retrouver sur géoportail (résolution un pixel =20cm). Elles sont mises à jour tous les 4 ans. Et le fisc a utilisé des malgaches pour dessiner les piscines et entrainer l’ia. La validation finale dvait etre faite par des agents du fisc.

    Répondre
    • 13 novembre 2022 à 12 h 43 min
      Permalien

      Ah bah c’est pire que ce que j’imaginais, merci pour ces précisions !

      Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.