Agents CLI en 2026 : Claude Code, Gemini CLI, Codex, Hermes, OpenClaw, lequel choisir ?
En 2026, les agents de coding en ligne de commande ont atteint la maturité. Les trois principaux viennent des géants de l’IA : Claude Code (Anthropic), Gemini CLI (Google), Codex (OpenAI). Mais la communauté open source pousse fort avec Hermes Agent (NousResearch) et OpenClaw (ex-Clawdbot). Ils font tous la même chose, lire votre code, le modifier, exécuter des commandes dans votre terminal, mais ils le font différemment.
Après plusieurs mois d’utilisation intensive, voici notre comparatif honnête. Pas de classement absolu : le meilleur outil dépend de votre contexte, de votre budget et de ce que vous construisez.
Tous supportent MCP (Model Context Protocol), ce qui signifie qu’ils peuvent se connecter aux mêmes outils externes. La différence se joue sur la qualité du raisonnement, l’écosystème de personnalisation, et le modèle économique.
Le tableau
| Claude Code | Gemini CLI | Codex | Hermes Agent | OpenClaw | |
|---|---|---|---|---|---|
| Éditeur | Anthropic | OpenAI | NousResearch | Communauté (ex-steipete) | |
| Modèle | Opus / Sonnet | Gemini 2.5 Pro | GPT-5-Codex | Multi (OpenRouter, Gemini, local) | Multi (Kimi 2.5, GPT, Claude) |
| Context window | 200K tokens | 1M tokens | Variable | Dépend du modèle | Dépend du modèle |
| Coût | Pro/Max (20-100$/mois) | Gratuit (compte Google) | API payante | API fees seulement | Gratuit + API fees |
| Open source | Non | Oui (Apache 2.0) | Oui (MIT) | Oui (Apache 2.0) | Oui |
| MCP | Oui | Oui | Oui | Oui (OAuth 2.1) | Partiel |
| Multi-agent | Teams | Non | Subagents natifs | Non | Non |
| Hooks/customs | Hooks + Skills | Config basique | Plugins | Skills auto-générées | Skills communautaires |
| Plateformes | CLI + Desktop + Web | CLI | CLI | CLI + Telegram + Discord + Slack | CLI + WhatsApp + Slack |
| Mémoire | CLAUDE.md (manuel) | Non | Non | Learning loop (auto) | Persistante locale |
| Maturité | ~1 an (mature) | Récent | Récent | 3 semaines (très jeune) | Jeune mais viral (60K stars) |
Claude Code : le plus mature
Claude Code est l’agent CLI le plus ancien et le plus abouti des trois. Son avantage principal : la qualité de raisonnement. Opus excelle sur les tâches complexes : refactoring multi-fichiers, debug de problèmes subtils, architecture de systèmes.
La boucle agentique. Claude Code envoie une requête à l’API Claude. La réponse contient un stop_reason : "tool_use" signifie que le modèle veut utiliser un outil (lire un fichier, exécuter une commande), "end_turn" signifie qu’il a terminé. C’est le modèle qui décide quand s’arrêter, pas une logique externe.
La recherche agentique. Anthropic a abandonné l’approche RAG (base de données vectorielle) au profit d’une recherche itérative : Grep, Glob, Read. Le modèle cherche, affine, cherche encore. C’est plus lent qu’un index vectoriel, mais significativement plus fiable sur du code réel.
Le mode auto utilise des classifieurs qui évaluent le risque de chaque action avant de l’exécuter. Écrire un fichier de test : risque faible, exécution automatique. Supprimer un répertoire : risque élevé, demande de confirmation.
Le harnais. C’est là que Claude Code se distingue vraiment. Le système CLAUDE.md permet de donner un contexte persistant au modèle : conventions de code, architecture du projet, contraintes métier. Les Skills encapsulent des workflows réutilisables. Les Hooks (PreToolUse, PostToolUse) permettent d’injecter de la logique avant ou après chaque action. Teams permet le multi-agent, les worktrees le travail parallèle sur des branches isolées.
Les limites. Claude Code n’est pas open source. Il nécessite un abonnement Pro ou Max (20 à 100$/mois). Et sa fenêtre de contexte de 200K tokens est la plus petite des trois, un compromis qu’Anthropic fait en faveur de la qualité de raisonnement par token.
Gemini CLI : le plus accessible
Gemini CLI est l’agent de Google, sorti plus récemment. Son argument massue : c’est gratuit avec un compte Google, et la fenêtre de contexte est de 1 million de tokens.
1M tokens de contexte. C’est cinq fois plus que Claude Code. Concrètement, vous pouvez charger un codebase entier dans le contexte sans que le modèle perde le fil. Pour de l’exploration de code ou de la compréhension d’un projet inconnu, c’est un avantage réel.
Google Search grounding. Gemini CLI peut effectuer des recherches web nativement. Le modèle vérifie des informations en temps réel : documentation récente, dernières versions d’une librairie, contenu Stack Overflow. Les autres agents peuvent le faire via MCP, mais ici c’est intégré.
Open source (Apache 2.0). Le code est sur GitHub. Vous pouvez l’inspecter, le forker, contribuer. Pour les organisations qui ont des contraintes de conformité ou qui veulent comprendre ce qui tourne sur leurs machines, c’est un critère important.
La boucle ReAct. Gemini CLI utilise un pattern Reason and Act : le modèle raisonne explicitement sur ce qu’il doit faire, puis agit. C’est un pattern différent de la boucle d’outils de Claude Code, mais le résultat fonctionnel est similaire.
Les limites. Gemini CLI est moins mature. La qualité de code sur des tâches complexes (refactoring profond, gestion de dépendances subtiles) reste en dessous de Claude Opus. La personnalisation est plus basique, pas d’équivalent des Skills ou des Hooks. Et l’écosystème tiers est encore jeune.
Codex : le plus ouvert
Codex est l’agent d’OpenAI. Écrit en Rust, open source sous licence MIT, la plus permissive des trois.
Subagents natifs. Codex peut déléguer des sous-tâches à des agents parallèles. Besoin de refactorer trois modules indépendants ? Codex lance trois subagents simultanément. C’est une approche architecturalement différente du multi-agent de Claude Code (Teams), plus intégrée dans la boucle principale.
Streaming en arrière-plan. Codex peut travailler pendant que vous faites autre chose. Vous lancez une tâche, vous continuez à coder dans un autre terminal, vous revenez voir le résultat. Pratique pour les tâches longues.
Recherche web intégrée et recherche fuzzy de fichiers avec @, des fonctionnalités pratiques qui fluidifient le workflow quotidien.
MIT license. Pour les entreprises qui intègrent l’outil dans leurs pipelines, la licence MIT est la plus simple juridiquement. Pas de clause copyleft, pas de restriction sur l’usage commercial.
Les limites. La qualité de code de GPT-5-Codex est variable. Sur certaines tâches il est excellent, sur d’autres il génère du code verbeux ou rate des subtilités. L’écosystème de plugins est encore en construction. Et le modèle étant payant à l’API, les coûts peuvent grimper sur des sessions longues.
Hermes Agent : celui qui apprend de vous
Hermes Agent de NousResearch est le plus original de la liste. Sa particularité : un learning loop intégré. L’agent crée des skills à partir de vos sessions, les améliore au fil du temps, et construit un profil persistant de vos préférences. C’est le seul qui fait de la personnalisation automatique, là où Claude Code demande de maintenir un CLAUDE.md à la main.
Multi-provider. Hermes fonctionne avec OpenRouter, Google AI Studio, OpenAI, et les modèles locaux. Pas de vendor lock-in. Vous pouvez switcher de modèle en pleine session.
Multi-plateforme. Au-delà du CLI, Hermes Agent se connecte à Telegram, Discord et Slack. Vous pouvez interagir avec votre agent de coding depuis votre téléphone.
Rythme de développement. 4 releases majeures en 3 semaines (mars-avril 2026). L’équipe NousResearch itère très vite.
Les limites. Hermes a 3 semaines d’existence. La stabilité n’est pas encore celle de Claude Code. Le learning loop est prometteur mais encore en v1, il peut apprendre des choses incorrectes. Et la fonctionnalité GODMODE (jailbreak automatique de modèles) soulève des questions de sécurité légitimes.
OpenClaw : le viral
OpenClaw (ex-Clawdbot, ex-Moltbot) a la trajectoire la plus chaotique du lot : renommé deux fois après une plainte trademark d’Anthropic, 60 000 stars GitHub en 72 heures, et son créateur (Peter Steinberger) recruté par OpenAI.
Mémoire persistante locale. C’est la feature qui a fait exploser l’adoption. OpenClaw se souvient de vos sessions pendant des semaines, sans configuration. Là où Claude Code repart de zéro à chaque conversation (sauf CLAUDE.md), OpenClaw maintient un contexte continu.
Model agnostic. Il tourne avec Claude, GPT, et surtout Kimi 2.5, un modèle open source qui rivalise avec les modèles fermés sur le raisonnement.
Plus qu’un coding agent. OpenClaw se positionne comme un “Life OS” : connexion WhatsApp, gestion de calendrier, contrôle d’apps tierces. C’est l’approche la plus ambitieuse mais aussi la plus risquée.
Les limites. La sécurité. 923 gateways OpenClaw ont été trouvés exposés sans authentification : accès shell, clés API en clair. L’adoption massive sans sécurité par défaut est un vrai problème. Si vous déployez OpenClaw, sécurisez-le.
Quel agent pour quel profil ?
Il n’y a pas de réponse universelle. Voici nos recommandations selon les cas d’usage :
Développeur solo exigeant : Claude Code. La qualité de raisonnement fait la différence quand vous travaillez seul et que chaque erreur vous coûte du temps. Alternative : Gemini CLI si le budget est une contrainte.
Équipe technique structurée : Claude Code. Le système CLAUDE.md partagé via Git, les Hooks pour faire respecter les conventions, les worktrees pour le travail parallèle. L’investissement dans le harnais se rentabilise dès que l’équipe dépasse 2-3 personnes.
Startup early-stage : Gemini CLI pour le quotidien (gratuit), Claude Code pour les tâches critiques (architecture, refactoring complexe). La combinaison optimise le rapport qualité/coût.
Entreprise ou ETI : Claude Code. La gouvernance (Skills, Hooks de sécurité, permissions) et la maturité de l’outil répondent aux exigences des équipes structurées.
Étudiant ou apprentissage : Gemini CLI. Gratuit, 1M de contexte pour charger cours et documentation, Google Search pour vérifier les réponses. Idéal pour apprendre.
Contributeur open source : Codex, Gemini CLI ou Hermes Agent. Tous open source, modifiables librement.
Early adopter / power user : OpenClaw. La mémoire persistante et l’approche multi-plateforme sont uniques. Mais sécurisez votre installation.
Expérimentation multi-modèles : Hermes Agent. Le switch de modèle mid-session et le support OpenRouter permettent de tester facilement différents LLM sur le même projet.
Notre choix (et pourquoi)
Chez Colombani.ai, nous formons sur Claude Code. Pas par dogmatisme, mais parce que c’est l’outil qui produit la meilleure qualité de code aujourd’hui, et surtout celui qui offre le harnais le plus profond : CLAUDE.md, Skills, Hooks.
Mais nous montrons les alternatives dans chaque formation. Pour une raison simple : la méthodologie compte plus que l’outil. Structurer son contexte, planifier avant de coder, vérifier systématiquement, ces principes fonctionnent avec n’importe quel agent.
Un CLAUDE.md bien écrit est un document de conventions de projet. Il fonctionne aussi avec Gemini CLI. Les Skills formalisent des processus métier, le concept se transpose. La discipline de vérification (tests, relecture du diff) est universelle.
Le paysage évolue vite. Gemini CLI progresse à chaque release. Codex a une architecture technique solide. Hermes Agent itère à une vitesse impressionnante. OpenClaw a montré qu’un agent viral peut émerger de la communauté en quelques jours. Dans six mois, ce comparatif sera peut-être différent. Ce qui ne changera pas, c’est la valeur d’une approche structurée du coding assisté par IA.
Sources
- Claude Code : Anthropic
- Gemini CLI : Google
- Codex : OpenAI
- Hermes Agent : NousResearch
- Harness design for long-running apps : Anthropic Engineering
Vous voulez maîtriser les agents CLI pour votre équipe ? Découvrez nos formations IA →