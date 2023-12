Après une première annonce à l’occasion de la conférence I/O, Google annonce aujourd’hui le lancement de Gemini, qui se veut son nouveau modèle d’IA. Cela vient concurrencer GPT-4, le modèle d’OpenAI (ChatGPT) et ça débarque dans Bard.

Avec Gemini, Google veut dominer l’IA

Google explique que Gemini est le fruit d’une coopération de grande envergure entre différentes équipes de l’écosystème Google. Ce modèle a été conçu dès l’origine pour être multimodal, c’est-à-dire capable de généraliser, comprendre avec fluidité, traiter et combiner différents supports d’informations, dont le texte, le code, l’audio, l’image et la vidéo.

Google assure également que Gemini est son modèle le plus polyvalent à ce jour. Il est annoncé pour être adapté et efficace pour tous les usages depuis les data centers jusqu’aux smartphones. Ses capacités avancées apporteront aux développeurs et aux entreprises pour la conception et la mise à disposition d’applications fondées sur l’IA auprès du plus grand nombre.

Aujourd’hui marque le lancement de Gemini 1.0 avec trois éléments :

Gemini Ultra — le modèle le grand et le plus capable, doté des plus larges capacités, destiné aux tâches de haute complexité ;

Gemini Pro — le modèle le plus polyvalent, adapté à une grande variété de tâches ;

Gemini Nano — le modèle le plus efficace pour les tâches embarquées (sur l’appareil)

Plus performant que GPT-4 d’OpenAI

Qu’en est-il des performances ? De la compréhension naturelle de supports image, audio ou vidéo au raisonnement mathématique, les performances de Gemini Ultra surpassent GPT-4 d’OpenAI dans ce domaine dans 30 des 32 référentiels académiques largement utilisées dans la recherche et le développement de grands modèles de langage (Large Language Models ou LLMs), selon les affirmations de Google.

Avec un score de 90%, Gemini Ultra est le premier modèle capable de surpasser les experts humains en matière de compréhension massive du langage multitâche (Massive Multitask Language Understanding ou MMLU), qui teste à la fois les connaissances sur le monde et les capacités de résolution de problèmes dans un corpus de 57 sujets tels que les mathématiques, la physique, l’histoire, le droit, la médecine ou l’éthique.

Gemini Ultra atteint également une performance inédite de 59,4% dans le nouveau référentiel de compréhension massive multidisciplinaire multitâche (MMMU, Massive Multi-discipline Multimodal Understanding), qui propose des tâches multimodales exigeant un raisonnement délibéré dans une grande variété de domaines.

Dans les référentiels d’image sur lesquels il a été testé, Gemini Ultra a surclassé les meilleurs modèles existants sans avoir recours à des systèmes de reconnaissance de texte (OCR), qui permettent d’extraire le texte contenu dans les images pour les traiter. Ces benchmarks ont souligné la multimodalité native de Gemini et ont donné une première indication de ses capacités de raisonnement approfondies. Les résultats détaillés sont disponibles sur cette page.

Une démonstration avec des vidéos

Google propose également des vidéos de démonstration. Une personne montre des objets, des dessins et des vidéos à Gemini. Le système d’IA commente à l’oral ce qu’il « voit », identifie les objets, joue de la musique et répond à des questions requérant un certain degré d’analyse, en justifiant son raisonnement. Par exemple, face à l’image d’un canard en plastique qui doit choisir entre deux chemins — celui de gauche menant vers un autre canard dessiné sur le papier et celui de droite vers un ours à l’air menaçant — Gemini suggère le chemin de gauche car « il vaut mieux se faire des amis plutôt que des ennemis ».

La vidéo démontre aussi que Gemini peut reconnaître des références avec très peu de contexte, comme une scène du film Matrix jouée par une personne qui fait semblant d’éviter des balles au ralenti.

Une disponibilité dès aujourd’hui

Google propose dès aujourd’hui Gemini Pro au lieu de LaMDA au niveau de son IA Bard. Il faut cependant parler anglais (pour l’instant) pour avoir le droit à la nouvelle version.

Pour Gemini Nano, la disponibilité se fait au niveau du smartphone Pixel 8 Pro. Ce sera disponible avec une mise à jour afin d’améliorer les capacités de reconnaissance du texte ou de prédiction des réponses. On peut imaginer que cela arrivera plus tard sur tous les smartphones Android.

2024 sera par ailleurs une grosse année avec Google qui compte proposer Gemini sur son moteur de recherche, Chrome et d’autres éléments, toujours dans l’objectif d’améliorer les prédictions. Pour la recherche par exemple, Google parle d’un affichage des résultats 40% plus rapide.

Toujours en 2024, Google proposera Bard Advanced, qui sera une version avancée du chatbot avec Gemini Ultra. Il est toutefois possible que ce soit payant (à l’instar de ChatGPT Plus).