Anthropic tire le rideau sur Sonnet 4 et Opus 4
C'était attendu depuis l'arrivée d'Opus 4.8 il y a trois semaines, c'est désormais acté. Depuis le 15 juin, toute requête vers claude-sonnet-4 ou claude-opus-4 renvoie une erreur. Pas de période de grâce, pas de réponse dégradée, juste un mur.
Si vous avez encore des appels en prod qui pointent là-dessus, c'est le moment de migrer. Anthropic recommande claude-sonnet-4.6 et claude-opus-4.8 comme remplacements directs. Sur le papier la compatibilité est bonne, mais comme toujours avec un changement de modèle, refaites tourner vos évals avant de pousser.
Dans la foulée, les SDK Python et TypeScript passent en v0.109.2 et v0.104.2 respectivement, avec retrait des constantes des modèles obsolètes. Si vous utilisiez les enums fournis par le SDK plutôt que des chaînes en dur, votre build va casser. Les détails sont dans les release notes Python et la page changelog de l'API.
On note quand même la trajectoire : Opus 4 a vécu environ huit mois, Sonnet 4 à peine plus. Le cycle de vie des modèles se raccourcit, et c'est une charge mentale supplémentaire pour les équipes qui maintiennent des intégrations. À méditer pour vos contrats SLA.
GPT-5.5 Instant, la version qui parle médecine
OpenAI a sorti mercredi GPT-5.5 Instant, présenté comme une mise à jour de ChatGPT spécifiquement travaillée sur les questions de santé et bien-être. L'annonce insiste sur trois points : un raisonnement renforcé sur les sujets médicaux, un meilleur contexte conversationnel, et des évaluations menées avec des médecins.
Concrètement, ça veut dire quoi pour vous ? Si vous construisez un produit qui touche de près ou de loin à la santé (apps de coaching, télémédecine, assistants pour pros de santé), gpt-5.5-instant est censé mieux gérer les nuances. Comprendre quand renvoyer vers un professionnel, éviter les conseils dangereux, expliquer un diagnostic en termes accessibles.
OpenAI parle de "communication plus claire" et d'évaluations "informées par des médecins". Le détail technique manque encore (pas de benchmark public sur des datasets type MedQA dans l'annonce), donc on attend les tests indépendants. Mais l'orientation est claire : OpenAI veut être présent sur les verticales sensibles plutôt que de tout miser sur le modèle généraliste. La page d'annonce donne les grandes lignes.
La simulation de déploiement, l'idée maline d'OpenAI
Plus discrète mais sans doute plus intéressante pour les équipes IA, OpenAI a aussi présenté sa méthode de Deployment Simulation. L'idée : prédire comment un modèle va se comporter en prod avant de réellement le déployer, en rejouant des conversations réelles issues du trafic existant.
Pourquoi c'est intéressant ? Parce que les évals classiques (MMLU, HumanEval, etc.) ne ressemblent pas à ce que voient vraiment vos utilisateurs. Quand vous passez de gpt-4o à gpt-5.5, le vrai test c'est sur votre distribution de prompts, pas sur des QCM. La simulation rejoue le trafic réel et compare les comportements.
OpenAI utilise apparemment cette méthode en interne pour ses propres déploiements de sécurité. Pas de SDK public dédié pour l'instant, mais la méthodologie est documentée et reproductible. Si vous gérez un système en prod avec des appels LLM, c'est l'angle d'attaque à creuser pour vos process de release. Détails sur la page dédiée.
Google : streaming TTS et nettoyage côté image/vidéo
Côté Google, deux annonces. La plus utile au quotidien : la Gemini API supporte désormais le streaming pour la génération vocale via gemini-3.1-flash-tts-preview. Vous passez stream: true dans votre appel à streamGenerateContent et vous récupérez l'audio par chunks au fil de la génération.
Pour qui construit du vocal temps réel (assistants vocaux, narration dynamique, dubbing live), c'est un game-changer. Plus besoin d'attendre que la phrase entière soit générée pour commencer à la jouer. La latence perçue passe de quelques secondes à quelques centaines de millisecondes. Les détails dans le changelog du 17 juin.
L'autre annonce est moins joyeuse mais à prendre au sérieux : Google déprécie ses anciens modèles de génération d'image et vidéo. imagen-4.0-generate-001, imagen-4.0-ultra-generate-001 et imagen-4.0-fast-generate-001 s'arrêtent le 17 août 2026. Côté vidéo, veo-2.0-generate-001, veo-3.0-generate-001 et veo-3.0-fast-generate-001 partent le 30 août.
Le successeur côté vidéo s'appelle veo-3.1-generate-preview (ou la variante fast). Deux mois pour migrer, c'est gérable mais ne traînez pas, surtout si vous avez des pipelines de génération en batch. Le détail des modèles concernés est listé dans le changelog.
Ce qu'il faut retenir
Une semaine qui sent le grand nettoyage. Anthropic ferme Sonnet 4 et Opus 4, Google planifie la mise à mort d'Imagen 4 et Veo 3, et même OpenAI s'organise pour mieux tester ses propres remplacements avant de basculer. Le message implicite : préparez vos pipelines à des migrations de modèles tous les six à huit mois, c'est le nouveau rythme.
La vraie pépite cette semaine, c'est probablement la simulation de déploiement d'OpenAI. Pas le buzz le plus bruyant, mais l'outillage méthodologique dont les équipes sérieuses ont besoin pour ne plus déployer à l'aveugle. À surveiller de près.