Analysis and integration of heterogeneous large-scale genomics data - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2020

Analysis and integration of heterogeneous large-scale genomics data

Bio-informatique, technologies du web sémantique, inférence de réseaux de régulations

Résumé

Regulatory networks inference from heterogeneous data is a computational step aiming at identifying key regulators involved in differentiation processes leading to cancer. In this thesis I focus on B cell differentiation, from which follicular lymphoma emerges. The first contribution outlines the reproducibility and reusability limitations of a state-of-the-art method for network inference from genomic data. To overcome these limitations, I demonstrated that Semantic Web technologies can structure and integrate large-scale heterogeneous datasets in a systematic way (second contribution). The original analysis workflow outputs could be reproduced as queries on a graph of data, which could itself be layered and enriched with public databases (third contribution). This demonstrates the technical relevance of this approach and underlines its benefits in improving reusability and reproducibility. As a fourth contribution, a new method for network inference was designed to take expert knowledge into account - both to extend the previous framework to the analysis of smaller, closely-related datasets and to enrich the inferred networks with signs, therefore including inhibitory regulatory processes. Finally, the method was applied to B cell differentiation, leading to the discovery of 146 TF with potential large impact on the network (fifth contribution).
L’inférence de réseaux de régulation à partir de données hétérogènes a pour but d’identifier les régulateurs clefs impliqués dans des processus biologiques aboutissant à des cancers. Dans cette thèse, je m’intéresse à la différenciation des cellules B naïves, d'où émerge le lymphome folliculaire. Ma première contribution souligne les problèmes de réutilisation et de reproductibilité des méthodes d’inférence de réseaux actuelles. Pour surmonter ces limites, je propose une structure utilisant les technologies du Web Sémantique pour intégrer et requêter ces jeux de données hétérogènes de manière systématique (deuxième contribution). Le pipeline d'origine est reproduit par des requêtes sur le graphe de données, ce résultat peut lui-même être intégré et enrichi avec des données publiques (troisième contribution). Ceci démontre l’utilité de cette approche et de ses bénéfices en terme de réutilisation et de reproductibilité. Ma quatrième contribution est une nouvelle méthode d’inférence de réseaux prenant en compte la connaissance des experts, pour étendre l’analyse à des jeux de données restreints et biologiquement proches et pour introduire la notion de relations signées, incluant les inhibitions. Enfin, l'application de cette méthode à la différenciation des cellules B, a permis la découverte de 146 FT avec un impact potentiel majeur sur le réseau (cinquième contribution).
Fichier principal
Vignette du fichier
Thesis_MLouarn.pdf (9 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03111759 , version 1 (15-01-2021)

Identifiants

  • HAL Id : tel-03111759 , version 1

Citer

Marine Louarn. Analysis and integration of heterogeneous large-scale genomics data. Bioinformatics [q-bio.QM]. Université Rennes 1, 2020. English. ⟨NNT : ⟩. ⟨tel-03111759⟩
191 Consultations
137 Téléchargements

Partager

Gmail Facebook X LinkedIn More