Six mois après le choc DeepSeek-R1, l'écart entre les laboratoires d'IA chinois et leurs homologues occidentaux s'est réduit à presque rien. DeepSeek-R3, publié la semaine dernière, atteint 91 % sur MMLU et 87 % sur HumanEval, soit la parité avec Claude Opus 4.7 sur la plupart des benchmarks publics.
L'équipe DeepSeek revendique un coût d'entraînement total inférieur à 8 millions de dollars — un ordre de grandeur en dessous des chiffres communément cités pour GPT-4 ou Claude Opus 4.7. Si ce chiffre était confirmé, il remettrait sérieusement en cause les hypothèses économiques du secteur.
De son côté, Alibaba a publié Qwen 4 en open-weights sous licence permissive et revendique le leadership sur les benchmarks multilingues couvrant 119 langues. Pour les entreprises européennes cherchant à éviter la dépendance américaine sans pour autant renoncer à la qualité, Qwen 4 commence à émerger comme une alternative crédible aux côtés de Mistral.