.png)
Gustave Roussy, premier centre de lutte contre le cancer en France et en Europe, et Lifen, leader français de l'intelligence des données de santé, annoncent les résultats d’une étude multicentrique sur l’automatisation de l’extraction de données de comptes rendus médicaux, publiés dans Annals of Oncology. Cette étude démontre que l’IA permet, à partir de données très hétérogènes, d’accélérer la constitution d’une grande base de données de manière homogène, fiable et sécurisée, accélérant ainsi la compréhension des maladies et le développement de nouveaux traitements. Ces résultats ouvrent la voie à un changement de paradigme dans la recherche clinique. L’étude s’inscrit dans le cadre de la cohorte LUCC (Large & Unified Cancer Cohort), une initiative française soutenue par France 2030 et portée par Lifen et Gustave Roussy.
Dans le cadre de la recherche clinique, les bases de données sont aujourd’hui majoritairement renseignées par des experts de la data que sont les techniciens d’études cliniques (TEC) et attachés de recherche clinique (ARC). Ces informations proviennent principalement des dossiers patients, des comptes rendus médicaux et des examens biologiques ou d’imagerie. Cependant, l’extraction des données n’est pas simple car la majorité des dossiers de santé sont stockés sous des formats non structurés, rédigés en langage naturel, avec une terminologie hétérogène, des abréviations, des styles et des niveaux de qualité qui diffèrent d’un centre à l’autre. Une vérification de la saisie des données sensibles est systématiquement effectuée par un ARC superviseur dans des essais cliniques prospectifs.
Le projet LUCC vise à constituer des bases de données cliniques à grande échelle en automatisant l’extraction des données médicales via l’intelligence artificielle.
L'étude rétrospective a été menée sur 311 patients et 31 variables cliniques (démographiques, facteurs de risque, biomarqueurs génomiques, traitements) issues de 10 centres participants (établissements de santé publics et privés). Elle a comparé trois méthodes d'extraction de données depuis des comptes-rendus médicaux : la méthode manuelle où des attachés de recherche clinique expérimentés ont extrait manuellement les données via une plateforme électronique ; la méthode automatisée par IA utilisant l'intelligence artificielle pour une extraction automatique ; et la méthode hybride combinant extraction par IA, ciblage par IA et révision manuelle complémentaire.
Les résultats démontrent que :
Les résultats de cette étude sont inédits. Ils laissent entrevoir que l’IA peut redéfinir la manière de travailler des équipes de recherche clinique, qui vont pouvoir se concentrer sur des tâches à plus haute valeur ajoutée.
En automatisant l’extraction de données médicales, l’IA réduit le taux d’erreur, accélère le traitement des données et garantit une précision et une homogénéité essentielles pour gérer de grands volumes de données. L’approche par IA augmentée par l’expertise humaine est plus rapide mais aussi plus performante et efficiente. Elle permet également d’inclure des centres plus petits, souvent exclus faute de ressources, enrichissant ainsi la diversité des patients dans les études multicentriques. Ces avancées facilitent la conduite de projets de recherche de grande ampleur et ouvrent des perspectives prometteuses pour la recherche clinique française.
Méthodologie
Source
Annals of Oncology, publication en ligne le 15 décembre 2025