Le chatbot médical de Google a réussi l’examen de médecine aux États-Unis, mais ses résultats restent en deçà de ceux des humains, indique une étude publiée dans Nature.

Le chatbot de Google est médecin… ou presque

La santé est un domaine où la technologie a déjà montré des progrès tangibles, certains algorithmes se révélant capables de lire des scanners médicaux mieux que les humains.

Google avait dévoilé son outil d’IA dédié aux questions médicales, appelé Med-PaLM, dans un article en pré-publication, en décembre. Contrairement à ChatGPT, il n’a pas été ouvert au grand public.

Google affirme que Med-PaLM a été le premier grand modèle de langage à réussir l’USMLE (US Medical Licensing Examination). La réussite de cet examen permet d’exercer la médecine aux États-Unis. Pour y parvenir, il faut obtenir un score de 60% environ. En février, une étude avait révélé que ChatGPT avait obtenu des résultats plutôt satisfaisants à l’examen.

Dans une nouvelle étude, les chercheurs de Google ont déclaré que Med-PaLM avait atteint 67,6% en répondant aux questions à choix multiples de style USMLE. Ces résultats sont « encourageants, mais restent inférieurs à ceux des humains », indique l’étude.

Pour identifier et réduire ce que l’on appelle les « hallucinations » — le mot qui désigne une réponse manifestement fausse proposée par un modèle d’IA —, Google a indiqué avoir développé une nouvelle référence d’évaluation. Karan Singhal, chercheur chez Google et auteur principal de la nouvelle étude, a expliqué que son équipe avait testé une version plus récente du modèle. Med-PaLM 2 a atteint le score de 86,5% à l’examen USMLE, dépassant la version précédente.

Un test dans un hôpital

Selon le Wall Street Journal, Med-PaLM 2 est en test dans le prestigieux hôpital de recherche américain Mayo Clinic depuis avril. Tout test effectué avec Med-PaLM 2 ne sera pas « clinique, ni face au patient, ni susceptible de nuire aux patients », a assuré Karan Singhal. Le modèle sera plutôt testé pour des « tâches administratives qui peuvent être automatisées relativement facilement, avec de faibles enjeux », a-t-il ajouté.