KultureGeek Internet Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

Gemini 2.5 Computer Use : l’IA de Google contrôle le navigateur Web à votre place

8 Oct. 2025 • 7:00
3

Google rend disponible aujourd’hui son modèle d’intelligence artificielle Gemini 2.5 Computer Use. Cette version permet d’avoir des agents IA capables d’interagir directement avec les interfaces utilisateur en cliquant, saisissant du texte et faisant défiler les pages comme le ferait un humain.

Gemini 2.5 Computer Use

Des benchmarks encourageants

Basé sur les capacités visuelles et de raisonnement de Gemini 2.5 Pro, ce modèle surpasse Claude Sonnet et OpenAI Operator sur plusieurs benchmarks de contrôle Web et mobile, tout en affichant une latence inférieure, selon les affirmations de Google. Les évaluations menées par Browserbase et Google montrent notamment une qualité optimale pour le contrôle de navigateur, mesurée sur le test Online-Mind2Web. Cette avancée répond à un besoin croissant selon le géant du Web : de nombreuses tâches numériques nécessitent encore une manipulation directe d’interfaces graphiques, notamment pour remplir des formulaires ou interagir avec des éléments comme les menus déroulants et filtres.

Gemini 2.5 Computer Use Benchmark

Gemini 2.5 Computer Use Benchmark 2

Comment fonctionne Gemini 2.5 Computer Use

Le fonctionnement repose sur un nouvel outil computer_use intégré à l’API de Gemini, opérant en cycle continu. Le modèle reçoit la requête utilisateur, une capture d’écran de l’environnement et l’historique des actions récentes. Il analyse ces données puis génère une réponse, généralement un appel de fonction représentant une action d’interface : clic, saisie ou défilement. Certaines opérations sensibles, comme effectuer un achat, déclenchent automatiquement une demande de confirmation à l’utilisateur final.

Après exécution de l’action, une nouvelle capture d’écran et l’URL courante retournent au modèle comme réponse de fonction, relançant le cycle. Ce processus itératif se poursuit jusqu’à l’achèvement de la tâche, l’arrivée d’une erreur ou l’interruption par une alerte de sécurité. Les développeurs peuvent également personnaliser les fonctions disponibles ou en ajouter de nouvelles selon leurs besoins spécifiques.

Gemini 2.5 Computer Use Fonctionnement

Optimisé pour le Web et prometteur sur mobile

L’optimisation principale cible les navigateurs Web, où le modèle excelle dans la manipulation de pages complexes et l’accès à des contenus protégés par authentification. Les démonstrations montrent sa capacité à enchaîner plusieurs étapes complexes : extraction de données depuis un formulaire, transfert vers un système de gestion de relation client (CRM), puis programmation d’un rendez-vous avec des paramètres précis. Sur les interfaces mobiles, les résultats s’avèrent également encourageants, bien que le contrôle au niveau des systèmes d’exploitation sur ordinateur ne soit pas encore optimisé.

Voici deux exemples en vidéo. Le premier se base sur le prompt suivant :

Sur https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant tout animal résidant en Californie et ajoute-les en tant qu’invité dans mon CRM de spa à l’adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 heures. La raison de la visite est la même que celle du traitement demandé.

Et le second exemple avec le prompt suivant :

Mon club d’art a réfléchi aux tâches à accomplir avant notre salon. Le tableau est chaotique et j’ai besoin de ton aide pour organiser les tâches dans les catégories que j’ai créées. Rendez-vous sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n’est pas le cas, fais-les glisser vers les bonnes sections.

Plusieurs éléments pour la sécurité

Google a intégré des fonctionnalités de sécurité directement dans le modèle pour contrer trois risques majeurs :

  • l’utilisation malveillante intentionnelle
  • les comportements imprévus
  • les injections de prompts ou arnaques présentes dans l’environnement Web.

Un service de sécurité externe évalue chaque action proposée avant son exécution. Les développeurs disposent également d’instructions système permettant de configurer des refus automatiques ou des demandes de confirmation pour les actions critiques : atteinte à l’intégrité système, compromission de sécurité, contournement de CAPTCHA ou contrôle d’appareils médicaux. Malgré ces garde-fous, Google incite fortement les développeurs à tester exhaustivement leurs systèmes avant tout déploiement public.

Gemini 2.5 Computer Use est disponible via l’API de Gemini sur Google AI Studio et Vertex AI. Il est également possible de voir une démonstration sur cette page.

Les sujets liés à ces tags pourraient vous interesser

3 commentaires pour cet article :

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

Mistral AI Logo

Le français Mistral AI lance Mistral 3, de nouveaux modèles IA open source performants

3 Déc. 2025 • 9:26
1 Internet

Mistral AI, l’entreprise française d’intelligence artificielle, annonce aujourd’hui le lancement de Mistral 3, sa nouvelle...

Android 16 QPR2

Android 16 : la deuxième grosse mise à jour est disponible avec des nouveautés

3 Déc. 2025 • 8:53
0 Mobiles / Tablettes

Google propose au téléchargement Android 16 QPR2, ce qui correspond à la deuxième grosse mise à jour pour le...

Sam Altman

OpenAI (ChatGPT) déclare une « alerte rouge » après les succès de Gemini pour l’IA

2 Déc. 2025 • 22:40
1 Internet

Face à une concurrence qui s’intensifie dangereusement, Sam Altman, le patron d’OpenAI, a décrété une «...

Banana Fish

Amazon Prime Video retire un doublage généré par IA après les critiques

2 Déc. 2025 • 22:23
0 Geekeries

Amazon Prime Video a décidé de supprimer un doublage généré par intelligence artificielle pour l’anime Banana...

Forfait Bouygues Telecom Deezer

Bouygues Telecom lance un forfait 5G incluant Deezer Premium

2 Déc. 2025 • 21:00
1 Mobiles / Tablettes

Bouygues Telecom annonce aujourd’hui le lancement d’un nouveau forfait B&You qui intègre un abonnement Deezer Premium. Cela va donc...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site