L’IA progresse à toute vitesse : comment les modèles accomplissent des tâches de plus en plus longues

4 avril 2025

L’intelligence artificielle (IA) avance à un rythme vertigineux. Loin des prouesses spectaculaires uniquement visibles dans les labos ou les films de science-fiction, ces progrès se manifestent désormais dans des tâches concrètes, parfois longues et complexes, que les IA accomplissent avec une efficacité croissante. Une étude publiée en mars 2025 par METR (Model Evaluation and Training Research) jette une lumière fascinante sur ce phénomène : la capacité des IA à accomplir des tâches longues double environ tous les six à dix mois.

Alors, que signifie cette croissance ? Que mesure-t-on exactement ? Et quelles en sont les implications pour le monde du travail, les entreprises et les utilisateurs ? Plongeons ensemble dans cette avancée qui redéfinit les frontières de ce que l’IA peut accomplir.


Une métrique nouvelle pour mesurer la « durée de tâche » des IA

L’équipe de METR a développé une méthode originale pour quantifier les capacités des modèles d’IA : l’horizon de complétion à 50 %. Cette métrique mesure la durée moyenne qu’un humain mettrait pour accomplir une tâche qu’un modèle d’IA réussit dans 50 % des cas.

En d’autres termes, si une IA peut effectuer avec succès une tâche qu’un expert humain mettrait une heure à compléter, alors son horizon de complétion est d’environ 60 minutes.

Et la tendance observée est saisissante : cet horizon double tous les 7 mois environ depuis 2019. Cela signifie que les modèles deviennent capables de gérer des tâches deux fois plus longues en moins d’un an. En mars 2025, Claude 3.0 Sonnet — l’un des modèles les plus performants testés — présente un horizon de complétion de 50 minutes, une véritable prouesse.


Pourquoi cette capacité progresse si vite ?

Le rapport identifie plusieurs facteurs expliquant cette amélioration rapide :

Meilleure gestion de l’attention : les modèles sont capables de se concentrer plus longtemps et plus précisément sur des tâches complexes sans se « disperser ».

Stabilité dans les réponses : les IA deviennent plus cohérentes et moins sujettes à des dérapages logiques ou syntaxiques en cours de tâche.

Usage intelligent des outils : intégrés à des environnements dotés de plugins ou d’API, les modèles utilisent des outils externes pour accomplir des étapes spécialisées.

Amélioration du raisonnement : ils sont meilleurs pour structurer des réponses, planifier des actions et corriger leurs erreurs en autonomie.

En somme, les modèles ne font pas qu’« apprendre plus » : ils deviennent plus stratégiques, plus patients et plus compétents sur des séquences d’actions prolongées.


Des cas concrets de tâches longues

Les chercheurs ont testé les IA sur des tâches « open-ended » telles que :

• Rédiger un document long avec des contraintes précises (ton, style, structure).

• Déboguer un programme avec plusieurs couches d’interdépendance.

• Simuler une conversation commerciale avec plusieurs rebondissements.

• Gérer une enquête ou un projet fictif sur plusieurs étapes.

La majorité des modèles testés échouent encore au-delà d’un certain seuil de complexité ou de durée. Mais la performance monte en flèche sur des tâches de 5 à 50 minutes, zone où les modèles dépassent de plus en plus fréquemment la barre des 50 % de réussite.


Quelles implications pour le monde professionnel ?

Si cette tendance se poursuit, on pourrait bientôt voir des IA capables de réaliser, de manière autonome ou semi-autonome, des tâches équivalentes à plusieurs jours de travail humain.

Cela ouvre la voie à de nombreuses évolutions :

Automatisation élargie dans les métiers cognitifs : rédaction, support client, développement logiciel, reporting, etc.

Accélération des cycles de production : moins de temps perdu sur les itérations intermédiaires.

Nouveaux rôles de supervision : les humains deviennent chefs d’orchestre plutôt qu’exécutants.

Formation de binômes IA-humain : pour la planification, l’analyse ou la validation de tâches complexes.

Il ne s’agit pas d’un remplacement total des humains, mais plutôt d’une extension massive de leurs capacités grâce à des assistants numériques ultra-puissants.


Limites et prudence

Il faut toutefois nuancer l’enthousiasme :

• Les modèles n’ont pas encore de mémoire longue efficace entre sessions ou projets.

• Ils restent vulnérables à des erreurs subtiles ou à des failles logiques invisibles.

• Leur performance dépend fortement du cadre de test, des données et des outils disponibles.

L’étude METR insiste sur le fait que même les meilleurs modèles testés échouent encore à accomplir de manière fiable des projets qui s’étendent sur plusieurs jours ou semaines.


Ce que les entreprises peuvent en tirer dès aujourd’hui

Même si l’IA n’est pas encore apte à « prendre le lead » sur des projets longs, elle peut déjà :

Accélérer les tâches de fond (synthèse, rédaction, vérification, amélioration).

Suggérer des plans ou des améliorations sur des projets existants.

Assister les collaborateurs dans la phase exploratoire ou le prototypage.

Automatiser les micro-tâches chronophages de façon sécurisée.

Les entreprises les plus agiles tirent déjà parti de ces évolutions pour réduire leurs cycles projets, optimiser leurs coûts et gagner en réactivité.


Conclusion : anticiper pour ne pas subir

L’évolution de l’IA n’est pas linéaire, elle est exponentielle. En doublant leur capacité à gérer des tâches longues tous les quelques mois, les modèles actuels bouleversent les normes professionnelles et organisationnelles.

Chez Tamento, nous pensons que l’innovation ne se subit pas — elle se prépare. C’est pourquoi nous accompagnons les entreprises dans leur transformation digitale avec l’IA : formation, stratégie, intégration, éthique et performance.

Envie de mettre en place une stratégie IA efficace et responsable dans votre entreprise ? Contactez nos experts pour un diagnostic personnalisé.


Sources

Measuring AI Ability to Complete Long Tasks – METR Blog

ArXiv – METR Research Paper

Forum Effective Altruism – Discussion sur METR

Create your account