TENDANCES
Comparateur
- AUTO
Google rend disponible aujourd’hui son modèle d’intelligence artificielle Gemini 2.5 Computer Use. Cette version permet d’avoir des agents IA capables d’interagir directement avec les interfaces utilisateur en cliquant, saisissant du texte et faisant défiler les pages comme le ferait un humain.
Basé sur les capacités visuelles et de raisonnement de Gemini 2.5 Pro, ce modèle surpasse Claude Sonnet et OpenAI Operator sur plusieurs benchmarks de contrôle Web et mobile, tout en affichant une latence inférieure, selon les affirmations de Google. Les évaluations menées par Browserbase et Google montrent notamment une qualité optimale pour le contrôle de navigateur, mesurée sur le test Online-Mind2Web. Cette avancée répond à un besoin croissant selon le géant du Web : de nombreuses tâches numériques nécessitent encore une manipulation directe d’interfaces graphiques, notamment pour remplir des formulaires ou interagir avec des éléments comme les menus déroulants et filtres.
Le fonctionnement repose sur un nouvel outil computer_use intégré à l’API de Gemini, opérant en cycle continu. Le modèle reçoit la requête utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Il analyse ces données puis génère une réponse, généralement un appel de fonction représentant une action d’interface : clic, saisie ou défilement. Certaines opérations sensibles, comme effectuer un achat, déclenchent automatiquement une demande de confirmation à l’utilisateur final.
Après exécution de l’action, une nouvelle capture d’écran et l’URL courante retournent au modèle comme réponse de fonction, relançant le cycle. Ce processus itératif se poursuit jusqu’à l’achèvement de la tâche, l’arrivée d’une erreur ou l’interruption par une alerte de sécurité. Les développeurs peuvent également personnaliser les fonctions disponibles ou en ajouter de nouvelles selon leurs besoins spécifiques.
L’optimisation principale cible les navigateurs Web, où le modèle excelle dans la manipulation de pages complexes et l’accès à des contenus protégés par authentification. Les démonstrations montrent sa capacité à enchaîner plusieurs étapes complexes : extraction de données depuis un formulaire, transfert vers un système de gestion de relation client (CRM), puis programmation d’un rendez-vous avec des paramètres précis. Sur les interfaces mobiles, les résultats s’avèrent également encourageants, bien que le contrôle au niveau des systèmes d’exploitation sur ordinateur ne soit pas encore optimisé.
Voici deux exemples en vidéo. Le premier se base sur le prompt suivant :
Sur https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant tout animal résidant en Californie et ajoute-les en tant qu’invité dans mon CRM de spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 heures. La raison de la visite est la même que celle du traitement demandé.
Et le second exemple avec le prompt suivant :
Mon club d’art a réfléchi aux tâches à accomplir avant notre salon. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rendez-vous sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, fais-les glisser vers les bonnes sections.
Google a intégré des fonctionnalités de sécurité directement dans le modèle pour contrer trois risques majeurs :
Un service de sécurité externe évalue chaque action proposée avant son exécution. Les développeurs disposent également d’instructions système permettant de configurer des refus automatiques ou des demandes de confirmation pour les actions critiques : atteinte à l’intégrité système, compromission de sécurité, contournement de CAPTCHA ou contrôle d’appareils médicaux. Malgré ces garde-fous, Google incite fortement les développeurs à tester exhaustivement leurs systèmes avant tout déploiement public.
Gemini 2.5 Computer Use est disponible via l’API de Gemini sur Google AI Studio et Vertex AI. Il est également possible de voir une démonstration sur cette page.
Free vient de confirmer qu’il prépare bel et bien un nouveau décodeur TV pour les abonnés Freebox, qui a pour surnom officieux...
Microsoft présente la liste des jeux qui vont rejoindre le Xbox Game Pass en octobre 2025. Il y a 13 titres cette fois-ci, soit deux fois plus...
Apple et les constructeurs Android ont déjà retiré le chargeur de la boîte des smartphones, et voilà maintenant que le...
Le Mode IA de la recherche Google débarque enfin en Europe, après avoir déjà été disponible aux...
8 Oct. 2025 • 14:10
2 commentaires pour cet article :