Helix, un modèle révolutionnaire Vision-Langage-Action

22 février 2025

Le 20 février 2025, la startup américaine Figure AI a dévoilé Helix, un modèle révolutionnaire de Vision-Langage-Action (VLA) destiné à transformer le contrôle des robots humanoïdes. Cette innovation marque une avancée majeure dans le domaine de la robotique, en permettant aux robots de comprendre et d’exécuter des tâches complexes à partir de simples commandes en langage naturel.

Helix : Une Fusion Inédite de la Vision, du Langage et de l’Action

Helix se distingue par sa capacité à intégrer la perception visuelle, la compréhension du langage et le contrôle moteur en un seul modèle cohérent. Cette approche unifiée permet aux robots équipés de Helix de :

  • Contrôler l’ensemble du haut du corps : Helix est le premier modèle VLA capable de générer un contrôle continu et précis de toutes les parties supérieures du corps d’un humanoïde, y compris les poignets, le torse, la tête et les doigts.
  • Collaborer entre plusieurs robots : Helix permet à deux robots de travailler ensemble de manière synchronisée pour accomplir des tâches complexes nécessitant une coordination étroite.
  • Manipuler des objets inconnus : Grâce à Helix, les robots peuvent saisir et manipuler une vaste gamme d’objets domestiques qu’ils n’ont jamais rencontrés auparavant, simplement en suivant des instructions en langage naturel.
  • Utiliser un réseau neuronal unique : Contrairement aux approches précédentes nécessitant des ajustements spécifiques pour chaque tâche, Helix apprend toutes les compétences requises à partir d’un seul ensemble de poids neuronaux, sans nécessiter de fine-tuning pour des tâches particulières.
  • Être prêt pour une utilisation commerciale : Helix fonctionne entièrement sur des GPU embarqués à faible consommation d’énergie, ce qui le rend immédiatement déployable dans des applications commerciales.

Une Architecture Innovante : Systèmes 1 et 2

Pour surmonter les limitations des modèles précédents, Helix adopte une architecture duale inspirée des systèmes cognitifs humains :

  • Système 2 (S2) : Un modèle de vision-langage préentraîné sur des données internet, opérant à une fréquence de 7 à 9 Hz. Il est responsable de la compréhension de la scène et de l’interprétation des commandes en langage naturel, offrant une généralisation étendue à divers objets et contextes.
  • Système 1 (S1) : Une politique visuomotrice réactive et rapide, fonctionnant à 200 Hz. Elle traduit les représentations sémantiques fournies par S2 en actions robotiques précises et continues.

Cette séparation permet à chaque système de fonctionner à son rythme optimal : S2 analyse les objectifs à un niveau élevé, tandis que S1 exécute et ajuste les actions en temps réel. Par exemple, lors d’une collaboration entre robots, S1 adapte rapidement les mouvements en fonction des actions du partenaire, tout en respectant les objectifs définis par S2.

Formation et Efficacité de Helix

Helix a été entraîné sur environ 500 heures de comportements téléopérés diversifiés. Pour générer des paires d’entraînement conditionnées par le langage naturel, un modèle de vision-langage a été utilisé pour créer automatiquement des instructions rétrospectives à partir de séquences vidéo capturées par les caméras embarquées des robots. Il est important de noter que tous les objets manipulés pendant l’entraînement ont été exclus des évaluations pour garantir une généralisation authentique.

L’architecture de Helix comprend deux composantes principales :

  • Système 2 (S2) : Un modèle de vision-langage de 7 milliards de paramètres, préentraîné sur des données internet à grande échelle. Il traite les images monoculaires des robots et les informations d’état du robot, combinées aux commandes en langage naturel pour distiller les informations sémantiques pertinentes en un vecteur latent continu.
  • Système 1 (S1) : Un transformeur visuomoteur de 80 millions de paramètres, responsable du contrôle bas niveau. Il reçoit les mêmes entrées que S2, mais les traite à une fréquence plus élevée pour permettre un contrôle en boucle fermée plus réactif.

Helix est entraîné de manière entièrement end-to-end, mappant les pixels bruts et les commandes textuelles aux actions continues à l’aide d’une perte de régression standard. Les gradients sont rétropropagés de S1 vers S2 via le vecteur latent, permettant une optimisation conjointe des deux systèmes. Aucune adaptation spécifique à une tâche n’est nécessaire, Helix maintenant un seul ensemble de poids neuronaux sans têtes d’action séparées ou étapes de fine-tuning par tâche.

Performances et Applications de Helix

Les résultats obtenus avec Helix sont impressionnants :cContrôle précis du haut du corps : Helix coordonne 35 degrés de liberté à une fréquence de 200 Hz, contrôlant des mouvements aussi fins que ceux des doigts jusqu’aux trajectoires des effecteurs, en passant par l’orientation de la tête et du torse. Cette coordination permet au robot de suivre ses mains du regard tout en ajustant sa posture pour optimiser sa portée, tout en maintenant une précision de préhension remarquable.

Coordination multi-robots sans précédent

Helix permet à deux robots humanoïdes de travailler ensemble pour accomplir des tâches nécessitant une synchronisation parfaite. Grâce à son système 1 réactif et son système 2 interprétatif, il ajuste dynamiquement ses mouvements en fonction des actions de son partenaire. Cela ouvre des perspectives prometteuses pour l’automatisation de tâches complexes dans des environnements industriels, logistiques ou même domestiques.

Manipulation d’objets inconnus

L’un des aspects les plus impressionnants de Helix est sa capacité à interagir avec des objets qu’il n’a jamais vus auparavant. Contrairement aux approches traditionnelles de robotique, qui nécessitent un pré-entraînement spécifique sur chaque objet, Helix est capable de généraliser ses connaissances et d’appliquer des principes appris à de nouveaux contextes. Cela signifie que des robots équipés de Helix peuvent fonctionner dans des environnements variés sans nécessiter une programmation ou un apprentissage supplémentaire, ce qui réduit considérablement les coûts et le temps de mise en œuvre.


Implications pour l’avenir de la robotique

L’introduction de Helix par Figure AI marque une avancée significative vers une automatisation plus flexible et intelligente. Les capacités qu’il offre pourraient révolutionner de nombreux secteurs :

  • Industrie et logistique : Des robots humanoïdes équipés de Helix pourraient être déployés dans des entrepôts et des usines pour effectuer des tâches variées comme la manipulation de colis, l’assemblage de produits ou encore l’entretien des équipements.
  • Secteur médical : L’assistance aux patients, la gestion des équipements médicaux et même certaines interventions chirurgicales pourraient bénéficier de robots dotés d’une compréhension avancée du langage et d’une précision accrue dans leurs actions.
  • Service à la personne : Helix pourrait permettre aux robots d’aider les personnes âgées ou en situation de handicap en accomplissant des tâches quotidiennes comme la préparation de repas, le rangement ou le transport d’objets.
  • Recherche et exploration : Dans les environnements hostiles, tels que l’espace ou les zones sinistrées, Helix pourrait rendre les robots plus autonomes et capables de prendre des décisions adaptées à des situations imprévues.

Avec cette innovation, Figure AI se positionne en leader de la robotique humanoïde et du développement des modèles Vision-Langage-Action. Si la technologie continue d’évoluer à ce rythme, nous pourrions voir dans un futur proche des robots capables d’interagir naturellement avec les humains et de s’intégrer de manière fluide dans notre quotidien.


Vers une nouvelle ère de l’automatisation

Helix représente bien plus qu’un simple progrès technologique : il redéfinit la manière dont nous concevons les interactions entre humains et machines. En intégrant des capacités avancées de perception, de compréhension et d’action, ce modèle ouvre la voie à une automatisation plus intelligente, plus adaptable et plus efficace.

L’évolution rapide de l’IA et de la robotique nous pousse à réfléchir aux implications économiques, éthiques et sociales de ces avancées. Comment garantir une intégration harmonieuse des robots dans notre société ? Quelles mesures prendre pour assurer un usage responsable de ces technologies ? Ce sont des questions cruciales qui accompagneront le développement et l’adoption de solutions comme Helix dans les années à venir.


Conclusion

L’innovation portée par Helix montre à quel point l’IA et la robotique progressent à une vitesse fulgurante. Chez Tamento, nous accompagnons les entreprises dans leur transformation digitale en intégrant les technologies les plus avancées pour optimiser leurs processus et améliorer leur compétitivité.

Vous souhaitez en savoir plus sur les tendances technologiques, l’intelligence artificielle et leur impact sur votre secteur d’activité ? Contactez nos experts pour bénéficier d’un accompagnement personnalisé et exploiter pleinement le potentiel du digital dans votre entreprise.

Ne manquez pas l’opportunité d’anticiper le futur. Rejoignez-nous dès maintenant !

Source : figure.ai

Create your account