Veille 3.0 avec Azure GPT4, NeuroVoice, AirTable, Node-RED et Midjourney

Jean-Philippe Encausse

août 28, 2023

Je pratique la veille depuis plus de 25 ans, car c'est le point de départ du processus d'innovation. Ce processus consiste à ouvrir son imagination au champ des possibilités, pour ensuite laisser le cerveau établir des liens intellectuels entre les sujets. Ainsi, on peut inventer…

Collecte

La première étape consiste à collecter des données. Pour ma newsletter hebdomadaire, je suis avide de signaux faibles et inspirants qui permettent de comprendre les dessous des cartes. Cependant, il est extrêmement chronophage de creuser des centaines de nouvelles à travers de nombreuses sources d'information. J'ai donc fait évoluer ma méthodologie en incorporant un peu d'intelligence artificielle.

Configuration

Je travaille sur un environnement de bureau avec 3 écrans pour lire efficacement les articles. Chrome est mon navigateur de prédilection avec plusieurs extensions:

uBLock Origin (pour vire les pubs et les traqueurs d'URL)
Airtable WebCliper (pour collectger dans AirTable)
Live Stream Downloader (pour récupérer les flux videos)

TheOldReader

J'ai plus de 700 flux dans TheOldReader que je peux parcourir en un clin d'oeil sans être pollué par toute sorte de pub car l'outil ne présente le contenu du flux RSS. La touche 'N' permet de passer au suivant.

En ca d'intérrêt je peux ouvrir la page d'origine ou directement déclencher une action de partage. TheOldReader est un lecteur de flux collaboratif, il créé un flux RSS de ses partages.

Bookmarklet

AirTable propose une Bookmarklet générique permettant de capturer efficacement le contenu d'une page dans une table.

Dans cet exemple, certain champs sont automatiquement renseignés à partir de règles CSS ou en allant lire la meta desccription. Il est possible de piocher une image ou directement faire une capture d'écran. Enfin je renseigne les autres champs manuellement en quelques secondes.

Organisation

Toute ma veille est structurée autour de AirTable avec à minima 3 tables pivots extensibles à d'autres usages :

Les TAGS une arborescence de thèmes qui se pointes
Les SOURCES une liste de flux, newsletter, podcast, réseaux sociaux qui m'inspirent
Le RADAR qui contient mes bookmarks enrichis de contenu aditionnel intelligent.

De nombreuses vues permettent de filtrer et rechercher ces contenus sous différent angles. Les tags sont des objets a part entière pour les réutiliser de manière cohérente avec d'autres usages (prise de notes, projes, clients, etc …)

Interfaces

Airtable propose une mécanique d'interface permettant de présenter les contenus sous la forme de tableau de bord interractifs. Cela me permet de passer en revu chaque contenu pour décider

Si je le pousse sur WordPress ou dans la Newsletter XYZ
Si je corrige certains champs ou génère du contenu avec ChatGPT pour traduire dans d'autres langues
Si je place les images à la une our si je génère des visuels avec MidJourney.

Automatisation

Airtable propose une mécanique d'automatisation permettant le déclenchement de règles pour modifier des contenus unitairement ou massivement. Une intégration native avec des services connus est déjà présente sinon il est possible de carrément exécuter du JavaScript ! (Adieu les IFTTT, Zapier et autres services parasites)

J'ai mis en place plusieurs logiques qui sont déportée vers un Node-RED (pour faciliter la maintenance)

Scrapper le contenu depuis son URL dans le cas ou il a été injecter autrement que par une bookmarklet (Mail, Flux RSS, Outils tiers, …)
Résumer le contenu avec Azure ChatGPT 4 pour obtenir un titre, un résumé, un lien intéressant (vidéo) et un prompt pour une image
Créer une image sur Midjourney à partir du Prompt (il faut encore que je découpe un des 4 résultats)
Publier sur WordPress, Recatégoriser, etc …

Azure OpenAI à introduit récemment les Azure Fonctions GPT-4 qui permettent de structurer la réponse pour obtenir en une requête le titre, résumé, etc …

Pour MidJourney, le hack consiste à inviter le Bot sur son serveur Discord qui lui pourra être piloté via une API.

Pour le Scrapping, j'ai mis en place un Puppeteer dans azure avec une extension Chrome pour virer toutes les fenêtres cookies afin de pouvoir capturer le contenus des articles. Ca marche relativement bien en nettoyant drastiquement le HTML de différentes manières.

Restitution

L'idée est d'être capable de restituer ce travail de collecte sous différent format que ce soit en alimentant un WordPress, LinkedIn ou autre jusqu'a structurer une Newsletter

WordPress

C'est le CMS gratuit et leader du marché depuis des années. Il existe en version OpenSource (hébergé sur un serveur) ou en SaaS. Les APIs sont différentes mais la logique reste la même et en SaaS il n'y a presque rien à faire !

Mon flow va publier ou mettre à jour le contenu provenant de AirTable. Certaines colonnes de AirTable supportent le format Markdown que je convertis en HTML. J'ai mis en place un mapping des catégories entre les deux outils et une syntaxe markdown spéciale pour les images en provenance de airtable.

Substack

Avant j'utilisait MailChimp (qui est une catastrophe) puis je suis passé à Substack qui est simple et beau avec une volonté de se transformer en réseau social. Malheureusement il n'y a pas d'API et les templates sont TRES limités (on a dit simple …)

Donc mon Node-RED génère un template HTML que je vais manuellement copier/coller dans Substack. Je pense que je ferais la même chose pour LinkedIn Newsletter dans l'avenir…

Podcast

Pour la partie audio et vidéo j'avais numérisé ma voix avec les Custom Neuro Voice de Microsoft qui évoluent très très vite (des surprise en cours).

J'ai demandé à ChatGPT de me faire un résumé de ma newsletter en français avec des répliques de film. Le problème est qu'il hallucine complètement les répliques et les films.

Commençons notre voyage à travers cette newsletter bourrée d'informations. En parlant de voyage, on dirait que la Lune ne porte pas chance à tout le monde, n'est-ce pas Luna-25? (Le Grand Blond avec une chaussure noire - Il a eu un petit accident). Du côté des technologies, une ligne humaine inconnue a été découverte en Chine, et de grands espoirs pour résoudre la pénurie d'organes grâce à une transplantation réussie de rein porcin-humain.

Côté Intelligence Artificielle, Google fait du bruit avec Brain2Music, reproduisant la musique basée sur les signaux du cerveau. (Intouchables - Pas mal le petit). Les réalités alternatives ne sont pas en reste, avec un regard détaillé sur le nouveau casque VR Meta Quest 3 et l'incroyable augmentation des ventes en ligne grâce à l'optimisation SEO. (Le Dîner de cons - Ah ben, ça alors, c'est étonnant !).

Dans le monde de l'IoT, Microsoft nous invite à un 'événement spécial' le 21 septembre et Samsung présente The Sero QLED 4K, un téléviseur à l'aspect ratio d'un téléphone mobile. (Astérix & Obélix: Mission Cléopâtre - Ça, c'est une idée qu'elle est bonne!).

Le monde des affaires tourne à plein régime, avec Walmart qui développe un vérificateur de symptômes basé sur l'IA et Leia Inc. qui acquiert Dimenco pour booster la technologie d'affichage 3D. (OSS 117 - J'aime quand ça bouge).

Et pour finir, que diriez-vous d'un peu d'inspiration et de DIY? De la création d'un lecteur virtuel soutenu par la RAM GPU à la découverte de codes QR invisibles à haut contraste, il y a de quoi s'émerveiller. (Amélie Poulain - Les temps sont durs pour les rêveurs). Allez, on se retrouve la semaine prochaine pour plus d'infos tech et digitales! (La Cité de la peur - À la revoyure).

Impossible de retrouver les références sur le site ZoneSons dont le moteur de recherche est catastrophique (il faudrait indexer le site dans Azure Cognitive Search). Et les extraits audio sont tous a retravailler dans Audacity…

L'API de Microsoft Speech permet via les SSML de combiner parole et audio (si l'on ne fait pas de LipSync …) malheureusement le contenu GPT-4 comporte pas mal d'érreur de Franglais à corriger manuellement. Vous pouvez écouter un test de minuit sur la newsletter 124.

Bref, encore du boulot pour intégrer tout cela avec de la vidéo (qui ne sera probablement pas compatibles avec le design sonore)

Conclusions

C'est un "side project" que j'ai sous le coude depuis 6 mois. J'ai pu implementer de manière élégante et pragmatique tout ce que je souhaitais. MAIS cela reste encore du bricollage tellement il y a d'incohérence sur les sites web …

Le juge sera donc l'UX qui devra faire gagner beaucoup de temps. C'est la bookmarklet AirTable qui doit permettre à l'humain de saisir du contenu plus pertinent que ce que ferait l'IA.

Ensuite il reste de nombreuses questions en suspens :

Comment répliquer ce projet pour un tiers ? Sachant qu'il y a beaucoup d'IT et d'Urbanisation donc de maintenance.
Comment faire collaborer plusieurs personne sur ce type de projet ? Sachant qu'il faut gérer la redondance des news et le cout de AirTable (par user).

Une approche serait de créer un AirTable "gratuit" dans lequel les gens vont contribuer, avec la possibilité de tout casser. Puis de faire répliquer ces données vers mon AirTable "SaaS" qui se chargera de la publication.

Enfin, je dois améliorer la génération de contenu audio et vidéo avec des services qui bougent très très vites … pour publier sur Youtube, TikTok et les autres …

Moralité l'IA Générative c'est vraiment cool MAIS il faut encore un humain pour controller, décider et ajuster à postériori … cela reste un outil peu automatisable (les yeux fermés).

2 réponses à « Veille 3.0 avec Azure GPT4, NeuroVoice, AirTable, Node-RED et Midjourney »

Johnny B.

août 29, 2023 at 1:08

Fascinant et véritablement inspirant. J’apprécie particulièrement la manière dont les services sont interconnectés, souvent orchestrés par Node-RED. Actuellement, je me trouve moi aussi pris dans l’engouement général pour les LLMS (Large Language Models), et mon objectif est désormais de les intégrer de manière novatrice en utilisant l’outil https://github.com/FlowiseAI/Flowise. Cette interface visuelle dédiée à Langchain ouvre de nouvelles perspectives captivantes.

J’aimeJ’aime

Réponse
JpEncausse

août 29, 2023 at 1:28

AirTable et Node-RED sont vraiment au centre de tous mes projets depuis 2015 c’est tellement élégant et extensible. La limite de AirTable est le prix (45$/mois/user) et la scalabilité. Il existe des alternative OpenScource mais du coup on perds la souplesse du SaaS.

Par contre je n’utilise pas directement de LLM (il faut que j’installe un StableDiffusion quand même) seulement les services au dessus car ça bouge tellement vite que je n’arrive plus à suivre avec tous mes autres sujets.

J’aimeJ’aime

Réponse