Retour au feed
VYVFEED
17
IAMIT Technology Review··6 min de lecture

GPT-5 Turbo dépasse Claude Opus 4.7 sur les benchmarks de raisonnement multi-étapes

OpenAI a publié hier soir GPT-5 Turbo, qui revendique la première place sur trois des cinq benchmarks de raisonnement les plus suivis de l'industrie. Le modèle obtient notamment 94 % sur GSM-Hard contre 91 % pour Claude Opus 4.7, et 89 % sur ARC-AGI-2 où Claude restait largement leader depuis fin 2025.

Au-delà des scores, GPT-5 Turbo introduit un mécanisme de "raisonnement à fenêtre adaptative" qui ajuste dynamiquement la profondeur de réflexion selon la complexité estimée de la requête. Sur des prompts simples, la latence chute de 38 % par rapport à GPT-5 standard tout en conservant une qualité de réponse équivalente.

La réponse d'Anthropic

Quelques heures après l'annonce, Anthropic a publié Claude Sonnet 4.6, présenté comme "le modèle le plus capable pour les tâches d'agent autonome de longue durée". Sonnet 4.6 conserve un déficit de performance sur les benchmarks purs de raisonnement mais surpasse GPT-5 Turbo de 12 points sur SWE-bench Verified, le standard de l'industrie pour les tâches d'ingénierie logicielle réelles.

Cette divergence stratégique se confirme : OpenAI mise sur le raisonnement pur tandis qu'Anthropic se positionne fermement sur les agents et l'usage en production.