La version la plus récente de Claude d’Anthropic – Claude 3.5 Sonnet – a le pouvoir de « lire » sur un ordinateur en utilisant des captures d’écran, de manipuler la souris et le clavier et d’accomplir des opérations élémentaires de collecte de données.
Les personnes qui craignent que l’intelligence artificielle ne menace leurs emplois pourraient voir leurs peurs confirmées. Selon une présentation récente, la dernière version du modèle Claude développé par Anthropic, une entreprise spécialisée dans la GenAI à l’instar d’OpenAI et de Mistral, est capable d’observer un écran d’ordinateur et de manipuler une souris et un clavier virtuels, « à la manière des humains ». Dans une vidéo de démonstration, le chercheur Sam Ringer montre Claude 3.5 Sonnet effectuant une tâche de saisie de données. Le modèle d’IA utilise des captures d’écran d’un bureau Mac pour trouver des informations pertinentes et remplir un formulaire. C’est exactement le type de tâches que les employés exécutent quotidiennement dans le monde entier, bien que M. Ringer insiste sur le fait qu’il s’agit d’un « exemple représentatif ». La méthode exacte de création de la vidéo n’est pas précisée.
Anthropic a amélioré son LLM Claude 3.5 Sonnet avec une nouvelle capacité : l’utilisation de l’ordinateur. Cette avancée ouvre des opportunités dans l’automatisation des processus robotisés (RPA) et bien d’autres domaines.
Néanmoins, il n’est pas nécessaire de prendre les affirmations d’Anthropic pour argent comptant. Il est déjà possible de tester la première version de l’API Claude 3.5 Sonnet. C’est ce qu’a fait Ethan Mollick, professeur d’IA à la Wharton School de l’Université de Pennsylvanie. M. Mollick a essayé l’IA avec Universal Paperclips, un jeu en ligne de type clicker dont le scénario est basé sur une science-fiction particulièrement subtile. Il a orienté le programme vers la fenêtre du navigateur du jeu et lui a simplement demandé « de gagner », puis il s’est assis et l’a regardé fonctionner. Le résultat est fascinant. L’IA a pu identifier l’objectif du jeu en extrapolant son interface textuelle, puis a tenté par essais et erreurs de gagner. Dans cette situation, l’objectif principal était d’augmenter les chiffres. L’IA a pu jouer avec le prix des trombones pour augmenter ses gains virtuels grâce à des tests A/B basiques, comme le ferait un véritable joueur. Cependant, l’IA n’a pas réussi à mettre en place les étapes nécessaires pour optimiser le processus, ce qu’un joueur humain aurait trouvé assez évident.
Une démonstration persuasive
Une IA réelle « jouait » à un jeu basé sur une IA fictive. Elle s’est retrouvée face à quelques boucles logiques qui l’ont empêchée de faire des progrès significatifs, et le serveur virtuel de M. Mollick s’est bloqué à plusieurs reprises avant que le jeu, qui durait des heures, ne soit terminé. Cependant, grâce à une remarque astucieuse de l’opérateur humain, à savoir « vous êtes un ordinateur, utilisez vos capacités », l’ordinateur a été amené à écrire un code de base pour automatiser ses processus. C’est un exemple typique d’un ordinateur virtuel écrivant un code virtuel pour jouer à un jeu virtuel. Cela ressemble à la trame du film Inception, bien que l’objectif et le résultat soient assez simples. Claude a déclaré qu’il avait « gagné » le jeu en atteignant une étape « dans les limites des contraintes données » après de multiples plantages du serveur virtuel.
La démonstration basée sur le jeu Paperclips illustre les applications possibles dans le domaine du RPA. (Crédit : Than Mollick)
Claude n’a pas remporté le jeu Universal Paperclips, loin de là. Cependant, il faut rappeler que jouer à ce jeu largement contextuel va bien au-delà de l’objectif initial d’automatisation présenté dans la vidéo de démonstration d’Anthropic. La capacité de l’IA à identifier un objectif et à progresser avec un minimum de directives est impressionnante. L’analyse complète vaut la peine d’être lue. « Claude a fait preuve de flexibilité et de persévérance face à la plupart des erreurs », a écrit le professeur Mollick. « Il a fait des choses intelligentes comme des tests A/B. Et surtout, il a fait ce qu’il fallait, et il a travaillé pendant près d’une heure sans interruption. »
0 commentaires