Google a dévoilé Gemini Embedding 2, son premier modèle IA d’embedding nativement multimodal. Contrairement aux modèles génératifs comme Gemini 3, un modèle d’embedding ne produit pas de contenu : il convertit différentes éléments (texte, image, vidéo, audio) en des vecteurs mathématiques qu’une machine peut analyser pour comprendre le sens et les relations entre les données.

Une architecture unifiée qui simplifie les tâches
La première génération du modèle était limitée au texte. Gemini Embedding 2 intègre désormais cinq éléments dans un espace vectoriel unifié, avec une prise en charge de 100 langues
Les limites par élément sont les suivantes :
- Texte : jusqu’à 8 192 tokens par requête
- Images : jusqu’à six images par requête (PNG/JPEG)
- Vidéo : jusqu’à 120 secondes en MP4/MOV
- Audio : ingestion directe sans transcription intermédiaire
- Documents : PDF jusqu’à six pages
L’intérêt principal réside dans la capacité à combiner plusieurs éléments dans une seule requête, par exemple une image accompagnée de texte, pour capturer des relations sémantiques entre les types de médias différents. Google indique que le modèle « simplifie les accès complexes et améliore une large variété de tâches multimodales en aval, de la génération augmentée par récupération (RAG) et la recherche sémantique à l’analyse de sentiment et au regroupement de données ».
Sur le plan pratique, Google cite l’exemple des professionnels du droit : dans le cadre de procédures de divulgation dans le cadre d’un litige, les embeddings multimodaux de Gemini ont amélioré la précision et le rappel sur des millions de documents, tout en renforçant la recherche d’images et de vidéos.
Gemini Embedding 2 est disponible dès maintenant via l’API de Gemini et Vertex AI sous la référence gemini-embedding-2-preview. Le modèle précédent, gemini-embedding-001, reste accessible pour les cas d’usage texte uniquement.