Claude Opus 4.8 : le million de tokens devient la norme
Le 28 mai, Anthropic a poussé Claude Opus 4.8, qui succède à Opus 4.7 dont on parlait à peine il y a quelques semaines. Le rythme commence à donner le tournis, mais cette release a de quoi retenir l'attention. Le contexte d'1 million de tokens est désormais activé par défaut sur l'API Claude, Amazon Bedrock et Vertex AI. Plus besoin de header magique ou de flag beta, ça marche.
Côté perf, Anthropic met l'accent sur le codage, le raisonnement et les compétences agentiques. Les benchmarks marketing classiques, donc, mais avec un détail intéressant : le mode rapide tourne maintenant 2,5 fois plus vite qu'avant, à un tiers du prix précédent. Pour les workflows où vous tapiez sur Sonnet faute de budget pour Opus, ça change l'arbitrage.
Deux nouveautés API valent le coup d'œil. D'abord, vous pouvez injecter des system messages en cours de conversation, pas seulement au début. Pratique pour faire pivoter le comportement d'un agent en plein dialogue sans tout reconstruire. Ensuite, le champ stop_details donne enfin une raison structurée quand le modèle refuse de répondre, ce qui simplifie le debug côté client.
À noter aussi, le mode rapide pour Opus 4.6 est déprécié. Si vous aviez pinné cette version dans un pipeline de prod, c'est le moment de migrer. Détails complets dans les release notes API et l'annonce officielle.
Claude Code : les workflows dynamiques arrivent
Pour les utilisateurs de Claude Code, la sortie d'Opus 4.8 s'accompagne d'une commande nouvelle : /workflows. L'idée, c'est de définir des workflows dynamiques que l'agent peut suivre pour des tâches complexes plutôt que de tout improviser à chaque tour. Concrètement, vous décrivez les étapes, l'agent les exécute en gardant le contexte, et il peut adapter le plan si quelque chose dérape.
Autre changement utile : Claude pose désormais des questions à choix multiples quand il n'a pas assez de contexte pour décider seul. Fini les agents qui partent dans le décor parce qu'ils ont halluciné une intention. C'est le genre de friction qu'on accepte volontiers quand ça évite trois heures de rollback. Le changelog GitHub détaille le reste.
Plateforme Claude sur AWS : webhooks et multi-agents
Le 29 mai, Anthropic a aussi musclé sa plateforme côté AWS. Les Claude Managed Agents supportent maintenant les webhooks, ce qui veut dire que vous pouvez déclencher du code externe quand un agent atteint un certain état. Couplé à l'orchestration multi-agents introduite dans la même release, ça devient réaliste de monter des architectures où plusieurs agents Claude se coordonnent sans glue code maison.
Les sandboxes auto-hébergées arrivent aussi sur AWS. La semaine dernière, on parlait des sandboxes auto-hébergées via la plateforme Claude, là c'est l'extension naturelle pour les boîtes qui veulent garder l'exécution dans leur VPC. Pour les équipes infra qui ont une roadmap agentique sérieuse, l'écosystème commence à ressembler à quelque chose d'opérable. Les détails sont dans les release notes.
Google : Gemini 3.1 Image passe en GA, et il regarde vos vidéos
Du côté de Google, la grosse annonce de la semaine concerne les modèles visuels. Gemini 3.1 Flash Image et Gemini 3 Pro Image sont passés en disponibilité générale le 28 mai. Pas une preview, pas un waitlist, c'est utilisable en prod via l'API Gemini.
La feature qui sort du lot : la génération d'images à partir d'une vidéo. Vous balancez un fichier vidéo ou directement une URL YouTube, et le modèle vous sort une image cohérente : vignette, affiche de film, frame stylisée. Cette capacité est exclusive à gemini-3.1-flash-image, pas au Pro. Pour les boîtes qui produisent du contenu vidéo et qui en avaient marre de payer des designers pour faire trois miniatures par jour, c'est concrètement utile.
Le workflow est simple : un appel API avec le binaire de la vidéo ou l'URL YouTube en input, un prompt texte pour décrire ce que vous voulez, et l'image sort en réponse. La doc complète est dans le changelog Gemini.
Petite dépréciation au passage, gemini-3.1-flash-lite-preview a été retiré le 25 mai. Si vous l'utilisiez, migrez sur gemini-3.1-flash-lite, l'API est compatible mais le nom du modèle change. Rien de dramatique, mais ça casse les intégrations qui n'ont pas update.
Ce qu'il faut retenir
La semaine confirme deux tendances. D'abord, le million de tokens devient la baseline chez les frontier labs. Après GPT-5.5 il y a quinze jours, Anthropic emboîte le pas. La vraie question, ce n'est plus la taille du contexte, c'est ce que les modèles arrivent à en faire sans se perdre. Ensuite, le mouvement vers les agents managés en prod s'accélère, avec webhooks, orchestration et sandboxes qui sortent en parallèle. On n'est plus dans la démo, on est dans l'outillage. Reste à voir qui aura le premier vrai post-mortem d'un agent qui a coûté cher.