Vous avez dit "agent IA" à votre COMEX. Ils ont dit oui. Personne ne sait ce qu'on construit.
Lenny Rachitsky vient de publier la grille que tout le monde cherchait. Je l'ai décortiquée pour vous.
Vous traitez tous vos projets agents comme un seul. C’est pour ça que rien ne passe en production.
J’ai décortiqué le dernier article de Lenny Rachitsky, Hamza Farooq et Jaya Rajwani pour vous en extraire le framework complet. Tout le crédit leur revient. Je ne fais que passer le contenu au filtre qui m’intéresse : comment un directeur de l’innovation peut utiliser ça dès lundi matin.
La plupart des cellules d’innovation ont entre 5 et 10 “initiatives agents” au backlog.
Un assistant PM. Un copilot RAG. Un agent de support client. Un code reviewer. Un assistant shopping vocal.
Elles les traitent toutes de la même façon. Même colonne de backlog. Même grille impact/effort. Même sprint planning.
C’est la raison pour laquelle rien n’avance.
Parce que comparer un agent de triage email et un assistant shopping vocal sur la même grille, c’est comme comparer la construction d’une étagère IKEA et la rénovation d’un immeuble sur la même to-do list. L’un prend un samedi. L’autre prend un an. Les deux sont des “projets”, mais ils n’ont rien en commun.
Le framework que Lenny publie résout exactement ce problème. Voici le playbook complet.
Le déclic à avoir avant de commencer
Retirez le mot “agent” de la conversation.
Remplacez-le par trois questions :
Est-ce que je peux dessiner le workflow entier sur un tableau blanc ?
Est-ce que le même input peut déclencher des actions différentes à chaque fois ?
Est-ce que j’ai besoin de plusieurs systèmes spécialisés qui se parlent entre eux ?
La réponse à ces trois questions détermine tout : l’architecture, l’équipe, le budget, le timeline, et les chances de succès.
Si vous répondez oui à la première et non aux deux autres, vous avez un projet catégorie 1. C’est 60 à 70% des cas. Et c’est probablement là que vous devriez commencer.
Les 3 catégories, ce que votre backlog ne vous dit pas
Catégorie 1 : l’automation déterministe
Vous définissez le flow entier. Chaque étape, chaque branche, chaque point de décision. L’IA gère le contenu à des nœuds spécifiques (classifier un email, générer une réponse, extraire des données), mais c’est vous qui contrôlez le chemin.
Comment la reconnaître :
Le process tient sur un flowchart de moins de 15-20 branches
La complétion se fait en secondes ou minutes
La valeur est dans l’automatisation d’un process connu, pas dans la découverte
Le même input produit toujours le même parcours
Profil concret :
Exemple réel tiré de l’article : un agent de triage email pour une entreprise SaaS. L’email arrive. L’agent le classe par intent (question technique, demande de remboursement, réclamation). Il génère un brouillon de réponse. Il route vers l’agent humain approprié. Chaque étape est prévisible. La “intelligence” est dans la compréhension de l’email et la génération de la réponse, pas dans le choix de ce qu’il faut faire ensuite.
Résultat mesuré : 52% de taux de complétion en semaine 1, 87% en semaine 8. 3 000 emails par mois automatisés. 2,5 heures libérées par jour. 18 000 $ d’économies mensuelles.
🎯 Micro-action : Prenez votre backlog d’agents. Pour chaque initiative, posez la question : “est-ce que je peux dessiner le workflow entier sur un tableau blanc ?” Si oui, c’est du catégorie 1. Mettez-le en haut de la pile.
Catégorie 2 : l’agent raisonneur
Vous ne définissez plus le flow. Vous définissez les outils disponibles. L’IA décide quoi faire ensuite. L’agent opère en boucle : observer, raisonner, agir, observer le résultat, recommencer.
La différence avec le catégorie 1 : vous contrôlez les outils, l’IA contrôle le raisonnement.
Comment la reconnaître :
Le même input peut déclencher des séquences d’actions différentes à chaque fois
Vous avez 5 à 15 capacités distinctes et la bonne dépend du contexte
L’intention de l’utilisateur est ambiguë
Décomposer des requêtes complexes en sous-tâches fait partie de la valeur
Le process ne PEUT PAS être dessiné comme un flowchart fixe
Profil concret :
Exemple réel tiré de l’article : un assistant shopping vocal. Le client uploade une photo de chaussures et dit “elles sont trop petites, je veux une taille au-dessus, livrées avant jeudi”. L’agent doit identifier le produit sur la photo, chercher les tailles disponibles, vérifier les options de livraison, et confirmer la commande. Si l’article est en rupture, il suggère des alternatives. Si la livraison jeudi n’est pas possible, il propose un retrait en magasin. La séquence change à chaque fois parce que le contexte change à chaque fois.
Résultat mesuré : 71% de complétion en mois 1, 86% en mois 4. Précision d’identification image passée de 76% à 91%. Conversion augmentée de 22%.
🎯 Micro-action : Pour les initiatives de votre backlog que vous ne pouvez pas dessiner sur un tableau blanc, demandez-vous : “est-ce qu’un seul agent avec les bons outils peut gérer ?” Si oui, c’est du catégorie 2. Si vous avez besoin de plusieurs systèmes spécialisés qui se délèguent des tâches, c’est du catégorie 3.
Catégorie 3 : le réseau multi-agent
Plusieurs agents spécialisés se coordonnent entre eux. Chacun gère son propre domaine. Ils peuvent se déléguer des tâches mutuellement. Un orchestrateur coordonne mais ne contrôle pas chaque décision.
Comment la reconnaître :
Un agent unique gère trop de domaines et la performance se dégrade
Les agents doivent se déléguer des tâches entre eux, pas juste appeler des APIs
Les tâches prennent des heures ou des jours, pas des minutes
Vous avez besoin de centaines d’instances en parallèle
Différentes équipes veulent posséder leurs agents spécialisés mais ils doivent coopérer
Profil concret :
Le warning de l’article que je retiens : la catégorie 3 ne devrait presque jamais être le point de départ. Jamais. Si votre premier projet agent est un réseau multi-agent, vous êtes en train de construire un avion avant d’avoir appris à faire du vélo.
🎯 Micro-action : Si vous avez un projet catégorie 3 au backlog, identifiez quelle partie peut être extraite en catégorie 1 et mise en production en 6 semaines. Cette partie-là est votre vrai point de départ.
Le triage en 5 minutes
Voici la grille que je recommande d’appliquer à votre backlog cette semaine.
Question 1 : est-ce que je peux dessiner le flowchart entier du process ?
Oui → Catégorie 1. Construisez-le en 6 semaines avec n8n ou Make. 1-2 personnes suffisent.
Non → Question 2
Question 2 : est-ce qu’un seul agent avec les bons outils peut gérer toutes les variations ?
Oui → Catégorie 2. Prévoyez 3 mois et une petite équipe avec un ML engineer.
Non → Catégorie 3. Ne commencez pas par là. Extrayez un sous-ensemble catégorie 1 d’abord.
La règle de séquençage : si vous avez des catégorie 3 en haut de votre backlog et zéro catégorie 1 en production, votre séquençage est inversé. Corrigez ça avant tout.
Testez votre projet en 2 minutes. J'ai construit l'Agent Classifier sur la base du framework de Lenny : un outil qui analyse votre use case et vous dit dans quelle catégorie il tombe réellement. Il débunke les ambitions gonflées et projette ce à quoi ressembleraient les versions supérieures pour ouvrir les possibilités.
Essayez-le ici → Agent Classifier
Les signaux qui vous disent de passer au niveau suivant
Ne planifiez pas la catégorie 2 avant d’avoir épuisé la catégorie 1. Voici les signaux qui vous disent que c’est le moment.
Vous avez outgrown la catégorie 1 quand :
Votre flowchart a 30+ nœuds et vous ajoutez des branches chaque semaine
Les utilisateurs formulent des choses de façons que vous n’aviez pas anticipées
L’agent doit décider quelle source de données utiliser selon le contexte
Les requêtes sont ambiguës et nécessitent de l’exploration, pas du routing
Vous avez outgrown la catégorie 2 quand :
Votre agent unique gère trop de domaines et la performance se dégrade
Des agents doivent déléguer des tâches à d’autres agents
Les tâches prennent des heures ou des jours
Vous avez besoin de centaines d’instances en parallèle
Différentes équipes veulent posséder leurs agents spécialisés
Si vous ne voyez aucun de ces signaux, restez où vous êtes. La catégorie supérieure n’est pas un upgrade. C’est une complexité supplémentaire qui ne se justifie que par un besoin réel.
Comment évaluer si ça marche
Chaque catégorie a ses propres métriques. Ne mesurez pas un catégorie 1 avec les KPIs d’un catégorie 2.
Catégorie 1, les métriques workflow :
Taux de complétion du workflow (% d’exécutions qui finissent sans erreur)
Taux d’automatisation (% de requêtes sans intervention humaine)
Coût par exécution
Taux d’erreur
Catégorie 2, les métriques raisonnement :
Taux de complétion de tâche (% de sessions où l’utilisateur atteint son objectif)
Précision du raisonnement (l’agent choisit-il les bons outils dans le bon ordre ?)
Nombre moyen de tool calls par session
Coût par session
Satisfaction utilisateur
Catégorie 3, les métriques système :
Throughput (combien de tâches le réseau traite en parallèle)
Qualité de coordination (les agents se délèguent-ils les bonnes tâches ?)
Coût par output final
Résilience (que se passe-t-il quand un agent tombe ?)
🎯 Micro-action : Pour chaque initiative agent en production ou en POC, vérifiez que vous mesurez les KPIs de la bonne catégorie. Si vous mesurez le “taux de complétion de tâche” sur un catégorie 1, vous mesurez la mauvaise chose. Le bon KPI est le taux de complétion du workflow.
📋 Récap : la grille complète
Ce que j’en retiens pour le management de l’innovation
Trois choses.
1. Votre backlog d’agents a besoin d’une colonne “catégorie” avant la colonne “priorité”. Tant que vous n’avez pas classé vos initiatives en 1, 2 ou 3, votre priorisation est du bruit. Vous comparez des choses incomparables.
2. 60 à 70% de vos use cases sont probablement du catégorie 1. Ce qui veut dire qu’ils pourraient être en production dans 6 semaines avec 1-2 personnes et un budget minimal. Si aucun de vos agents n’est en production aujourd’hui, c’est probablement parce que vous traitez des projets catégorie 1 comme des projets catégorie 2 ou 3.
3. Le passage en production sur un catégorie 1 vous apprend plus en 6 semaines que 6 mois de POC sur un catégorie 3. Les apprentissages concrets (les edge cases, les taux de complétion, les patterns utilisateur) ne viennent que de la production. Un catégorie 1 en production génère de l’intelligence que vous pouvez réinvestir dans un catégorie 2 plus tard. Un catégorie 3 en POC ne génère que des slides.
Cet article est basé sur le guide publié par Hamza Farooq, Jaya Rajwani et Lenny Rachitsky dans Lenny’s Newsletter le 14 avril 2026. L’article complet est disponible ici.
Better Shaping, Airparty







