Les chatbots ont rapidement dépassé les médecins humains dans le raisonnement diagnostique – la première étape cruciale des soins cliniques – selon une nouvelle étude publiée dans la revue Médecine de la nature.
L’étude suggère que les médecins qui ont accès à de grands modèles de langue (LLMS), qui sous-tendent les chatbots génératifs de l’IA (Genai), démontrent des performances améliorées sur plusieurs tâches de soins aux patients par rapport aux collègues sans accès à la technologie.
L’étude a également révélé que les médecins utilisant des chatbots passaient plus de temps sur les cas de patients et prenaient des décisions plus sûres que celles sans accès aux outils Genai.
La recherche, entreprise par plus d’une douzaine de médecins au Beth Israel Deaconess Medical Center (BIDMC), a montré que Genai était prometteur en tant que partenaire de médecin «prise de décision ouverte».
«Cependant, cela nécessitera une validation rigoureuse pour réaliser le potentiel des LLMS pour améliorer les soins aux patients», a déclaré le Dr Adam Rodman, directeur des programmes d’IA à BIDMC. «Contrairement à un raisonnement diagnostique, une tâche souvent avec une seule bonne réponse, à laquelle les LLM excelttent, le raisonnement de gestion peut ne pas avoir de bonne réponse et implique de peser des compromis entre des plans d’action inhabituellement risqués.»
Les conclusions étaient basées sur des évaluations sur les capacités de prise de décision de 92 médecins alors qu’ils ont travaillé dans cinq cas de patients hypothétiques. Ils se sont concentrés sur le raisonnement de gestion des médecins, qui comprend des décisions sur les tests, le traitement, les préférences des patients, les facteurs sociaux, les coûts et les risques.
Lorsque les réponses à leurs cas de patients hypothétiques ont été notés, les médecins utilisant un chatbot ont obtenu un score significativement plus élevé que ceux utilisant des ressources conventionnelles uniquement. Les utilisateurs de chatbot ont également passé plus de temps par cas – de près de deux minutes – et ils avaient un risque plus faible de préjudice légère à modéré par rapport à ceux qui utilisent des ressources conventionnelles (3,7% contre 5,3%). Les cotes de préjudice sévères étaient cependant similaires entre les groupes.
“Ma théorie”, a déclaré Rodman, “[is] L’IA a amélioré le raisonnement de gestion dans les domaines de la communication des patients et des facteurs des patients; Cela n’a pas affecté des choses comme la reconnaissance des complications ou des décisions de médicaments. Nous avons utilisé une norme élevée pour les préjudices – un préjudice immédiat – et il est peu probable que la mauvaise communication entraîne un préjudice immédiat. »
Une étude précédente de 2023 de Rodman et de ses collègues a produit des conclusions prometteuses, mais prudentes, sur le rôle de la technologie Genai. Ils ont constaté qu’il était «capable de montrer le raisonnement équivalent ou meilleur que les personnes tout au long de l’évolution du cas clinique».
Ces données, publiées dans Journal de l’American Medical Association (JAMA), a utilisé un outil de test commun utilisé pour évaluer le raisonnement clinique des médecins. Les chercheurs ont recruté 21 médecins participants et 18 résidents, qui ont travaillé sur 20 cas cliniques archivés (pas nouveaux) en quatre étapes de raisonnement diagnostique, écrivant et justifiant leurs diagnostics différentiels à chaque étape.
Les chercheurs ont ensuite effectué les mêmes tests en utilisant Chatgpt basé sur le GPT-4 LLM. Le chatbot a suivi les mêmes instructions et a utilisé les mêmes cas cliniques. Les résultats étaient à la fois prometteurs et préoccupants.
Le chatbot a obtenu le score le plus élevé dans certaines mesures sur l’outil de test, avec un score médian de 10/10, par rapport à 9/10 pour les médecins et 8/10 pour les résidents. Alors que la précision du diagnostic et le raisonnement étaient similaires entre les humains et le bot, le chatbot avait plus de cas de raisonnement incorrect. “Cela souligne que l’IA est probablement mieux utilisée pour augmenter, et non remplacer le raisonnement humain”, a conclu l’étude.
Autrement dit, dans certains cas, “les robots étaient également tout simplement faux”, indique le rapport.
Rodman a déclaré qu’il ne savait pas pourquoi l’étude Genai a souligné plus d’erreurs dans l’étude précédente. «Le point de contrôle est différent [in the new study]donc les hallucinations peuvent s’être améliorées, mais elles varient également selon la tâche », a-t-il déclaré. «Notre étude originale s’est concentrée sur le raisonnement diagnostique, une tâche de classification avec des réponses claires et fausses. Le raisonnement de gestion, en revanche, est très spécifique au contexte et a une gamme de réponses acceptables. »
Une différence clé par rapport à l’étude originale est que les chercheurs comparent désormais deux groupes d’humains – un utilisant l’IA et un non – tandis que l’œuvre originale a comparé l’IA aux humains directement. «Nous avons collecté une petite ligne de base AI-uniquement, mais la comparaison a été effectuée avec un modèle multi-effets. Donc, dans ce cas, tout est médiatisé par les gens », a déclaré Rodman.
Le chercheur et auteur de l’étude principale, le Dr Stephanie Cabral, un résident de médecine interne de troisième année à BIDMC, a déclaré que davantage de recherches sont nécessaires sur la façon dont les LLM peuvent s’intègrer dans la pratique clinique, «mais ils pouvaient déjà servir de point de contrôle utile pour empêcher la surveillance.
«Mon espoir ultime est que l’IA améliorera l’interaction patient-médecin en réduisant certaines des inefficacités que nous avons actuellement et nous permettre de nous concentrer davantage sur la conversation que nous avons avec nos patients», a-t-elle déclaré.
La dernière étude concernait une version plus récente et améliorée de GPT-4, ce qui pourrait expliquer certaines des variations des résultats.
À ce jour, l’IA dans les soins de santé s’est principalement concentrée sur des tâches telles que la messagerie portale, selon Rodman. Mais les chatbots pourraient améliorer la prise de décision humaine, en particulier dans les tâches complexes.
“Nos résultats sont prometteurs, mais une validation rigoureuse est nécessaire pour débloquer pleinement leur potentiel d’amélioration des soins aux patients”, a-t-il déclaré. «Cela suggère une utilisation future pour les LLM comme un complément utile du jugement clinique. Une exploration plus approfondie pour savoir si le LLM encourage simplement les utilisateurs à ralentir et à refléter plus profondément, ou s’il augmente activement le processus de raisonnement serait précieux. »
Le test de chatbot entrera désormais dans les deux prochains phases de suivi, dont la première a déjà produit de nouvelles données brutes à analyser par les chercheurs, a déclaré Rodman. Les chercheurs commenceront à envisager une interaction variable des utilisateurs, où ils étudient différents types de chatbots, différentes interfaces utilisateur et l’éducation des médecins sur l’utilisation des LLM (comme une conception invite plus spécifique) dans des environnements contrôlés pour voir comment les performances sont affectées.
La deuxième phase impliquera également des données sur les patients en temps réel, et non des cas de patients archivés.
«Nous étudions également [human computer interaction] Utilisation de LLMS sécurisés – donc [it’s] Plainte HIPAA – pour voir comment ces effets se déroulent dans le monde réel », a-t-il déclaré.