KultureGeek Internet Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

8 Oct. 2025 • 7:00
2

Google rend disponible aujourd’hui son modèle d’intelligence artificielle Gemini 2.5 Computer Use. Cette version permet d’avoir des agents IA capables d’interagir directement avec les interfaces utilisateur en cliquant, saisissant du texte et faisant défiler les pages comme le ferait un humain.

Gemini 2.5 Computer Use

Des benchmarks encourageants

Basé sur les capacités visuelles et de raisonnement de Gemini 2.5 Pro, ce modèle surpasse Claude Sonnet et OpenAI Operator sur plusieurs benchmarks de contrôle Web et mobile, tout en affichant une latence inférieure, selon les affirmations de Google. Les évaluations menées par Browserbase et Google montrent notamment une qualité optimale pour le contrôle de navigateur, mesurée sur le test Online-Mind2Web. Cette avancée répond à un besoin croissant selon le géant du Web : de nombreuses tâches numériques nécessitent encore une manipulation directe d’interfaces graphiques, notamment pour remplir des formulaires ou interagir avec des éléments comme les menus déroulants et filtres.

Gemini 2.5 Computer Use Benchmark

Gemini 2.5 Computer Use Benchmark 2

Comment fonctionne Gemini 2.5 Computer Use

Le fonctionnement repose sur un nouvel outil computer_use intégré à l’API de Gemini, opérant en cycle continu. Le modèle reçoit la requête utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Il analyse ces données puis génère une réponse, généralement un appel de fonction représentant une action d’interface : clic, saisie ou défilement. Certaines opérations sensibles, comme effectuer un achat, déclenchent automatiquement une demande de confirmation à l’utilisateur final.

Après exécution de l’action, une nouvelle capture d’écran et l’URL courante retournent au modèle comme réponse de fonction, relançant le cycle. Ce processus itératif se poursuit jusqu’à l’achèvement de la tâche, l’arrivée d’une erreur ou l’interruption par une alerte de sécurité. Les développeurs peuvent également personnaliser les fonctions disponibles ou en ajouter de nouvelles selon leurs besoins spécifiques.

Gemini 2.5 Computer Use Fonctionnement

Optimisé pour le Web et prometteur sur mobile

L’optimisation principale cible les navigateurs Web, où le modèle excelle dans la manipulation de pages complexes et l’accès à des contenus protégés par authentification. Les démonstrations montrent sa capacité à enchaîner plusieurs étapes complexes : extraction de données depuis un formulaire, transfert vers un système de gestion de relation client (CRM), puis programmation d’un rendez-vous avec des paramètres précis. Sur les interfaces mobiles, les résultats s’avèrent également encourageants, bien que le contrôle au niveau des systèmes d’exploitation sur ordinateur ne soit pas encore optimisé.

Voici deux exemples en vidéo. Le premier se base sur le prompt suivant :

Sur https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant tout animal résidant en Californie et ajoute-les en tant qu’invité dans mon CRM de spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 heures. La raison de la visite est la même que celle du traitement demandé.

Et le second exemple avec le prompt suivant :

Mon club d’art a réfléchi aux tâches à accomplir avant notre salon. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rendez-vous sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, fais-les glisser vers les bonnes sections.

Plusieurs éléments pour la sécurité

Google a intégré des fonctionnalités de sécurité directement dans le modèle pour contrer trois risques majeurs :

  • l’utilisation malveillante intentionnelle
  • les comportements imprévus
  • les injections de prompts ou arnaques présentes dans l’environnement Web.

Un service de sécurité externe évalue chaque action proposée avant son exécution. Les développeurs disposent également d’instructions système permettant de configurer des refus automatiques ou des demandes de confirmation pour les actions critiques : atteinte à l’intégrité système, compromission de sécurité, contournement de CAPTCHA ou contrôle d’appareils médicaux. Malgré ces garde-fous, Google incite fortement les développeurs à tester exhaustivement leurs systèmes avant tout déploiement public.

Gemini 2.5 Computer Use est disponible via l’API de Gemini sur Google AI Studio et Vertex AI. Il est également possible de voir une démonstration sur cette page.

Les sujets liés à ces tags pourraient vous interesser

2 commentaires pour cet article :

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

Freebox Ultra vs Pop vs Player TV et Telecommande

« Super Player » Freebox : Free confirme un nouveau décodeur TV

8 Oct. 2025 • 17:33
0 Matériel

Free vient de confirmer qu’il prépare bel et bien un nouveau décodeur TV pour les abonnés Freebox, qui a pour surnom officieux...

[Màj – Jour-2] Les Prime Days commencent, 48h de grosses promos sur Amazon

8 Oct. 2025 • 16:55
3
Manette Xbox Series X Prise en Main

Xbox Game Pass : les jeux ajoutés en octobre 2025

8 Oct. 2025 • 16:37
0 Jeux vidéo

Microsoft présente la liste des jeux qui vont rejoindre le Xbox Game Pass en octobre 2025. Il y a 13 titres cette fois-ci, soit deux fois plus...

iPhone 15 Port USB-C et Cable

Des smartphones sont maintenant vendus sans câble USB-C dans la boîte

8 Oct. 2025 • 16:05
1 Mobiles / Tablettes

Apple et les constructeurs Android ont déjà retiré le chargeur de la boîte des smartphones, et voilà maintenant que le...

Google Mode IA Moteur de Recherche

Google lance son Mode IA pour la recherche en Europe, sauf en France

8 Oct. 2025 • 15:25
0 Internet

Le Mode IA de la recherche Google débarque enfin en Europe, après avoir déjà été disponible aux...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site