KultureGeek Internet Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

4 min.
8 Oct. 2025 • 7:00
3

Google rend disponible aujourd’hui son modèle d’intelligence artificielle Gemini 2.5 Computer Use. Cette version permet d’avoir des agents IA capables d’interagir directement avec les interfaces utilisateur en cliquant, saisissant du texte et faisant défiler les pages comme le ferait un humain.

Gemini 2.5 Computer Use

Des benchmarks encourageants

Basé sur les capacités visuelles et de raisonnement de Gemini 2.5 Pro, ce modèle surpasse Claude Sonnet et OpenAI Operator sur plusieurs benchmarks de contrôle Web et mobile, tout en affichant une latence inférieure, selon les affirmations de Google. Les évaluations menées par Browserbase et Google montrent notamment une qualité optimale pour le contrôle de navigateur, mesurée sur le test Online-Mind2Web. Cette avancée répond à un besoin croissant selon le géant du Web : de nombreuses tâches numériques nécessitent encore une manipulation directe d’interfaces graphiques, notamment pour remplir des formulaires ou interagir avec des éléments comme les menus déroulants et filtres.

Gemini 2.5 Computer Use Benchmark

Gemini 2.5 Computer Use Benchmark 2

Comment fonctionne Gemini 2.5 Computer Use

Le fonctionnement repose sur un nouvel outil computer_use intégré à l’API de Gemini, opérant en cycle continu. Le modèle reçoit la requête utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Il analyse ces données puis génère une réponse, généralement un appel de fonction représentant une action d’interface : clic, saisie ou défilement. Certaines opérations sensibles, comme effectuer un achat, déclenchent automatiquement une demande de confirmation à l’utilisateur final.

Après exécution de l’action, une nouvelle capture d’écran et l’URL courante retournent au modèle comme réponse de fonction, relançant le cycle. Ce processus itératif se poursuit jusqu’à l’achèvement de la tâche, l’arrivée d’une erreur ou l’interruption par une alerte de sécurité. Les développeurs peuvent également personnaliser les fonctions disponibles ou en ajouter de nouvelles selon leurs besoins spécifiques.

Gemini 2.5 Computer Use Fonctionnement

Optimisé pour le Web et prometteur sur mobile

L’optimisation principale cible les navigateurs Web, où le modèle excelle dans la manipulation de pages complexes et l’accès à des contenus protégés par authentification. Les démonstrations montrent sa capacité à enchaîner plusieurs étapes complexes : extraction de données depuis un formulaire, transfert vers un système de gestion de relation client (CRM), puis programmation d’un rendez-vous avec des paramètres précis. Sur les interfaces mobiles, les résultats s’avèrent également encourageants, bien que le contrôle au niveau des systèmes d’exploitation sur ordinateur ne soit pas encore optimisé.

Voici deux exemples en vidéo. Le premier se base sur le prompt suivant :

Sur https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant tout animal résidant en Californie et ajoute-les en tant qu’invité dans mon CRM de spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 heures. La raison de la visite est la même que celle du traitement demandé.

Et le second exemple avec le prompt suivant :

Mon club d’art a réfléchi aux tâches à accomplir avant notre salon. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rendez-vous sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, fais-les glisser vers les bonnes sections.

Plusieurs éléments pour la sécurité

Google a intégré des fonctionnalités de sécurité directement dans le modèle pour contrer trois risques majeurs :

  • l’utilisation malveillante intentionnelle
  • les comportements imprévus
  • les injections de prompts ou arnaques présentes dans l’environnement Web.

Un service de sécurité externe évalue chaque action proposée avant son exécution. Les développeurs disposent également d’instructions système permettant de configurer des refus automatiques ou des demandes de confirmation pour les actions critiques : atteinte à l’intégrité système, compromission de sécurité, contournement de CAPTCHA ou contrôle d’appareils médicaux. Malgré ces garde-fous, Google incite fortement les développeurs à tester exhaustivement leurs systèmes avant tout déploiement public.

Gemini 2.5 Computer Use est disponible via l’API de Gemini sur Google AI Studio et Vertex AI. Il est également possible de voir une démonstration sur cette page.

Les sujets liés à ces tags pourraient vous interesser

3 commentaires pour cet article :

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

hedge-knight-comics

Game of Thrones : le spin-off « A Knight of the Seven Kingdoms » dope les ventes de comics

12 Fév. 2026 • 11:20
0 Geekeries

Le succès de la série A Knight of the Seven Kingdoms sur HBO ne se limite pas aux écrans. Les adaptations en bandes dessinées...

Essaim de drones

L’Union européenne muscle sa stratégie contre les drones malveillants

12 Fév. 2026 • 9:50
0 Business

Face à la multiplication d’incidents impliquant des drones suspects au-dessus de sites sensibles, la Commission européenne a...

Claude Anthropic Logo

Claude améliore son offre IA gratuite avec des fonctions jusque-là payantes

12 Fév. 2026 • 8:33
0 Internet

Anthropic propose désormais gratuitement la création de fichiers, les connecteurs tiers et les skills sur son intelligence artificielle...

Google annonce Android 17 avec sa bêta, voici les nouveautés

11 Fév. 2026 • 20:35
0
cerf volant chinois energie renouvleable

La Chine teste un cerf-volant géant pour produire de l’électricité éolienne à haute altitude

11 Fév. 2026 • 20:00
0 Science

En Mongolie-Intérieure, dans la région d’Alxa, des ingénieurs chinois viennent de démontrer la faisabilité...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site