Entre rêves et promesses

Le big data made in France

Par
Publié le 09/10/2017
Article réservé aux abonnés

Prédire les épidémies, identifier les facteurs de risque… Les promesses du big data sont immenses. Et si elles sont souvent associées à des noms d’entreprises basées dans la Silicon Valley, la France n’est pas en reste. Avec ses bonnes vieilles cohortes épidémiologiques et ses bases de données de la Sécurité sociale, notre pays aussi s’appuie des données massives (nom officiel du big data en bon français)… à sa manière.

Prenons l’exemple du Système national d'information inter-régimes de l'Assurance maladie (SNIIRAM), la base de données qui recense tous les versements effectués par la Sécu et qui est utilisée par des dizaines de chercheurs de tous horizons. « Bien sûr qu’en comparaison des données générées par le télescope Hubble, le SNIRAM n’est pas si gros que cela, sourit le Pr Rodolphe Thiébaut, enseignant-chercheur en santé publique à l'université de Bordeaux, affilié à l’INSERM et à l’Institut national de recherche en informatique et en automatique (INRIA). Mais on parle quand même de 60 millions de personnes, c’est quasi exhaustif. »

Big cohorte

Le chercheur rappelle d’ailleurs que n’importe qui n’est pas capable de se frotter à une telle base de données. « Il y a besoin de se former, de comprendre comment fonctionnent les différentes tables », affirme-t-il. Un besoin d’autant plus criant que pour certains chercheurs, le SNIIRAM n’est qu’une pièce d’un puzzle complexe. C’est notamment le cas du Dr Marie Zins, enseignante-chercheuse à l’université de Versailles-Saint-Quentin et responsable scientifique de la cohorte Constances.

« Constances est une cohorte de 150 000 personnes qui regroupe différentes sources de données, et notamment des bases administratives », explique-t-elle. Jugez plutôt : en plus des données du SNIIRAM, Constances est connectée avec le Programme de médicalisation des systèmes d'information (PMSI, la base de données des séjours hospitaliers), de la Caisse nationale d’assurance vieillesse (CNAV)… Et ce n’est pas tout : les volontaires de Constances passent un examen de santé et répondent à un questionnaire tous les cinq ans. De plus, une biobanque collectera des échantillons auprès d’eux. Marie Zins n’a donc pas peur de le dire : « Oui, nous sommes sur des données massives. »

Le big data et l’invention de la roue

Mais quand on leur parle de la forme de big data qui fait le modèle économique des grandes sociétés californiennes, les deux chercheurs peinent à retenir une moue sceptique. « Il ne faut pas croire qu’il suffit d’avoir de grandes bases de données et de faire tourner du deep learning pour avoir des traitements personnalisés pour chaque patient », plaisante Rodolphe Thiébaut. « J’ai parfois l’impression qu’avec ces approches, on réinvente la roue », ajoute Marie Zins.

Bien sûr, les nouvelles méthodes d’analyses ne sont pas rejetées en bloc. « L’analyse des données issues des réseaux sociaux ou les techniques comme le data mining [procédé qui permet de trouver automatiquement des corrélations dans des bases de données volumineuses, NDLR] peuvent apporter quelque chose », reconnaît la responsable de la cohorte Constances. « Mais quand on étudie des trajectoires de soins par exemple, il faut savoir ce que l’on cherche et se fonder sur des hypothèses scientifiques. »

La nouvelle frontière

D’ailleurs, plutôt que vers de nouvelles techniques d’analyse, les chercheurs français semblent surtout avoir besoin de nouvelles sources de données. Marie Zins, par exemple, lorgne vers les données des médecins de ville. « Dans le cadre de la cohorte Constances, nous savons quand un volontaire se fait rembourser une consultation chez un généraliste, mais nous ne savons pas ce qui s’y est dit ou fait », regrette-t-elle.

Autre cible : les données de biologie ou d’imagerie générées par les hôpitaux, que certains établissements sont d’ailleurs en train de structurer dans des entrepôts de données. « Si on arrivait à y avoir accès, on aurait des données écrites, des données chiffrées, de l’imagerie, rêve Marie Zins. Ce serait une nouvelle ère vraiment vertigineuse, on entrerait vraiment dans le big data. »

Adrien Renaud

Source : Le Quotidien du médecin: 9608