En pratique, les résultats de recherche prennent la forme de nouveaux ‘packages’ directement intégrables dans R ou Python, des logiciels open source d’analyse quantitative de données prisés des chercheurs en épidémiologie.
Séminaire trimestriel
Afin d’accéder aux problèmes de terrain, dès son arrivée à Rennes, la statisticienne s’est rapprochée d’épidémiologistes et de chimistes de l’École des hautes études en santé publique (EHESP) et de l’Institut de recherche en santé, environnement et travail (Irset). Depuis son recrutement sur cette CPJ, elle a également lancé un séminaire trimestriel. “À chaque fois, nous invitons deux intervenants. L’un en statistique. L’autre en santé.” Ces rencontres se déroulent à l’Université de Rennes 2, à proximité des écoles de santé.
Trois axes de recherche
Les liens tissés au fil du temps ont permis d’amorcer plusieurs collaborations. Mais aussi de dégager trois thèmes de recherche. Le premier se situe dans le contexte de l’étude des risques de santé liés à l’environnement. Il porte sur l’identification de potentiels polluants présents dans le sang, l’urine ou les cheveux de personnes étudiées de l’enfance à l’âge adulte. Générées par spectrométrie de masse, les données possèdent des caractéristiques difficiles à analyser. “Pour bien prendre en compte leurs caractéristiques, il nous faut de nouvelles méthodes statistiques.”
Le deuxième axe porte sur l’intégration de données visant à exploiter des informations issues de différentes sources de données afin de constituer une base de données unique plus riche et plus complète. “Un épidémiologiste peut disposer, par exemple, d’un registre de quelques centaines de personnes et vouloir enrichir le registre en ajoutant des informations qui seraient disponibles dans le Système national des données de Santé (SNDS) sur ces individus.”
Mais ce fichier préserve l’anonymat. Impossible de puiser directement les renseignements à partir d’un identifiant. “Il faut effectuer un travail d’appariement. Autrement dit, comparer des données pour retrouver un profil similaire dans le SNDS. Ce qui introduit des incertitudes dont il est nécessaire de tenir compte à l’aide de méthodes statistiques sur mesure. De la même manière, il arrive que des chercheurs souhaitent fusionner deux cohortes pour en constituer une seule qui deviendrait ainsi plus riche en termes d’individus.“ Mais les données ne sont pas forcément enregistrées tout à fait de la même manière. Et là aussi, “il faut des outils pour harmoniser les données entre les différentes bases.”
Encore émergent, le troisième thème questionne l’éthique des algorithmes d’Intelligence Artificielle. “Ces algorithmes effectuent-ils des prédictions fiables ? Les données contiennent-elles des biais démographiques entre des gens d’âge, de sexe ou de statut socio-économique différent ?” Financée par l’Inserm et portée par l’EHESP, cette recherche s’appuie sur les données du SNDS dans le cadre de la prédiction de risques d’événements indésirables après une revascularisation au sortir d’une intervention médicale.
La chaire professeur junior va durer trois ans. Elle doit permettre de structurer toutes ces collaborations interdisciplinaires pour faire naître ensuite une équipe-projet Inria composée de statisticiens, d’épidémiologistes et de chimistes.