KultureGeek Internet Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

4 min.
8 Oct. 2025 • 7:00
3

Google rend disponible aujourd’hui son modèle d’intelligence artificielle Gemini 2.5 Computer Use. Cette version permet d’avoir des agents IA capables d’interagir directement avec les interfaces utilisateur en cliquant, saisissant du texte et faisant défiler les pages comme le ferait un humain.

Gemini 2.5 Computer Use

Des benchmarks encourageants

Basé sur les capacités visuelles et de raisonnement de Gemini 2.5 Pro, ce modèle surpasse Claude Sonnet et OpenAI Operator sur plusieurs benchmarks de contrôle Web et mobile, tout en affichant une latence inférieure, selon les affirmations de Google. Les évaluations menées par Browserbase et Google montrent notamment une qualité optimale pour le contrôle de navigateur, mesurée sur le test Online-Mind2Web. Cette avancée répond à un besoin croissant selon le géant du Web : de nombreuses tâches numériques nécessitent encore une manipulation directe d’interfaces graphiques, notamment pour remplir des formulaires ou interagir avec des éléments comme les menus déroulants et filtres.

Gemini 2.5 Computer Use Benchmark

Gemini 2.5 Computer Use Benchmark 2

Comment fonctionne Gemini 2.5 Computer Use

Le fonctionnement repose sur un nouvel outil computer_use intégré à l’API de Gemini, opérant en cycle continu. Le modèle reçoit la requête utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Il analyse ces données puis génère une réponse, généralement un appel de fonction représentant une action d’interface : clic, saisie ou défilement. Certaines opérations sensibles, comme effectuer un achat, déclenchent automatiquement une demande de confirmation à l’utilisateur final.

Après exécution de l’action, une nouvelle capture d’écran et l’URL courante retournent au modèle comme réponse de fonction, relançant le cycle. Ce processus itératif se poursuit jusqu’à l’achèvement de la tâche, l’arrivée d’une erreur ou l’interruption par une alerte de sécurité. Les développeurs peuvent également personnaliser les fonctions disponibles ou en ajouter de nouvelles selon leurs besoins spécifiques.

Gemini 2.5 Computer Use Fonctionnement

Optimisé pour le Web et prometteur sur mobile

L’optimisation principale cible les navigateurs Web, où le modèle excelle dans la manipulation de pages complexes et l’accès à des contenus protégés par authentification. Les démonstrations montrent sa capacité à enchaîner plusieurs étapes complexes : extraction de données depuis un formulaire, transfert vers un système de gestion de relation client (CRM), puis programmation d’un rendez-vous avec des paramètres précis. Sur les interfaces mobiles, les résultats s’avèrent également encourageants, bien que le contrôle au niveau des systèmes d’exploitation sur ordinateur ne soit pas encore optimisé.

Voici deux exemples en vidéo. Le premier se base sur le prompt suivant :

Sur https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant tout animal résidant en Californie et ajoute-les en tant qu’invité dans mon CRM de spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 heures. La raison de la visite est la même que celle du traitement demandé.

Et le second exemple avec le prompt suivant :

Mon club d’art a réfléchi aux tâches à accomplir avant notre salon. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rendez-vous sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, fais-les glisser vers les bonnes sections.

Plusieurs éléments pour la sécurité

Google a intégré des fonctionnalités de sécurité directement dans le modèle pour contrer trois risques majeurs :

  • l’utilisation malveillante intentionnelle
  • les comportements imprévus
  • les injections de prompts ou arnaques présentes dans l’environnement Web.

Un service de sécurité externe évalue chaque action proposée avant son exécution. Les développeurs disposent également d’instructions système permettant de configurer des refus automatiques ou des demandes de confirmation pour les actions critiques : atteinte à l’intégrité système, compromission de sécurité, contournement de CAPTCHA ou contrôle d’appareils médicaux. Malgré ces garde-fous, Google incite fortement les développeurs à tester exhaustivement leurs systèmes avant tout déploiement public.

Gemini 2.5 Computer Use est disponible via l’API de Gemini sur Google AI Studio et Vertex AI. Il est également possible de voir une démonstration sur cette page.

Les sujets liés à ces tags pourraient vous interesser

3 commentaires pour cet article :

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

SFR Logo

Rachat de SFR : Orange, Bouygues et Free obtiennent un délai supplémentaire de 48 heures

5 Juin. 2026 • 22:35
0 Business

Le rachat de SFR par Orange, Bouygues Telecom et Free n’a pas lieu aujourd’hui, mais il ne semble plus très loin. Les différents...

Pixel Studio Application Android

Google met fin à Pixel Studio, son application qui génère des images IA

5 Juin. 2026 • 20:54
0 Logiciels

Google met fin à Pixel Studio en tant qu’application de création sur Android. Avec la mise à jour 2.3, l’outil ne...

Asha Sharma Xbox

Xbox veut devenir le numéro un des jeux vidéo d’ici 2030

5 Juin. 2026 • 20:20
0 Jeux vidéo

La patronne de Xbox, Asha Sharma, veut hisser Xbox au rang de première entreprise du jeu vidéo et du divertissement d’ici 2030. Cette...

Television Telcommande

Noos+ : le service d’IPTV avec 250 000 abonnés est fermé par les autorités

5 Juin. 2026 • 18:39
0 Internet

Les enquêteurs du centre de lutte contre les criminalités numériques (C3N) ont mis fin cette semaine à Noos+, une plateforme...

deals promos

🔥 [#BonPlan] Les promos High-Tech du 5 juin

5 Juin. 2026 • 17:50
0 Promos

Chaque jour nous dénichons pour vous des promos sur les produits High-Tech pour vous faire économiser le plus d’argent possible. Voici...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site