ITEM METADATA RECORD
Title: Data Mining for Molecular Karyotyping: Linked Analysis of Array-CGH Data and Biomedical Text (Strategieën voor kennisontginning bij moleculaire karyotypering: gekoppelde analyse van rooster-CGH en biomedische tekst)
Other Titles: Data Mining for Molecular Karyotyping: Linked Analysis of Array-CGH Data and Biomedical Text
Authors: Van Vooren, Steven; M0220860
Issue Date: 28-Sep-2009
Abstract: Defecten in het genetische materiaal van een cel of organisme leiden tot problemen bij de ontwikkeling en tot erfelijke aandoeningen. Om deze aa ndoeningen bij een patient in kaart te brengen, wordt zowel in de klinis che routine voor diagnose als in genetische onderzoeksstudies gebruik ge maakt van technieken om het genetisch materiaal te onderzoeken. Het scre enen van patientenweefsel door het onderzoeken van genetisch materiaal i n een cel heet Moleculaire Karyotypering. Recente evoluties in dit veld laten toe om de resolutie bij het bepalen van de chromosomale karakteris tieken van een weefsel aanzienlijk te verjnen. Zo gebeurt het bepalen van onder meer deleties en duplicaties aan de han d van rooster-CGH (Comparative Genomic Hybridization), een techniek waar bij representatieve genomische fragmenten op kleine glasplaatjes in microroosters worden aangebracht. De groeiende hoeveelheid rooster- en patie ntengegevens houdt uitdagingen in op het vlak van identi#catie en lokali satie van genoomregio's gelinkt aan aangeboren afwijkingen, en het autom atisch analyseren van patientgerelateerde gegevens. Vooral op het vlak v an interpreteren van de resultaten uit deze genetische screeningtechniek zijn belangrijke uitdagingen ontstaan. In het kader van dit doctoraat is dan ook gewerkt aan manieren om deze interpretatie mogelijk te maken. Enerzijds werden methoden gezocht om de ruwe data uit rooster-CGH te verwerken. Waar vroegere screeningmethodes berustten op interpretatie met het blote oog, is rooster-CGH gebaseerd o p de analyse en interpretatie van grote hoeveelheden numerieke data. And erzijds zijn methoden ontwikkeld om, onder meer via tekstontginning op p ubliek beschikbare biomedische literatuur en op patientengegevens, fenot ypische kenmerken aan genoomregio's te koppelen, en om betekenis te geve n aan de analyseresultaten in een klinisch-diagnostische context. Ten sl otte heeft de combinatie van de beschreven methoden geleid tot een platf orm voor het verwerken en beheren van patientengegevens waarbij genetisc he screening door middel van rooster-CGH is toegepast, en waarin ook geg evens over het fenotype van de patient beschikbaar zijn. Dit platform on dersteunt de interpretatie van genetische informatie en laat genoomannot atie toe, in zowel een diagnostische als onderzoekscontext.
Table of Contents: Contents
Voorwoord i
Abstract v
Korte inhoud vii
Nederlandstalige samenvatting ix
0.1 Impact van Array-CGH als genetische screeningtechniek . . . . . x
0.2 Opbouw van dit proefschrift . . . . . . . . . . . . . . . . . . . . . xi
0.3 Samenwerkingen . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii
Contents xiv
List of acronyms xxi
Publication list xxv
1 Introduction 1
1.1 Genetics in Medicine . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 The chromosomes . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Development . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 Looking at genomes . . . . . . . . . . . . . . . . . . . . . 2
1.2 Enter microarray technology . . . . . . . . . . . . . . . . . . . . . 4
1.3 Microarray technology in the clinic . . . . . . . . . . . . . . . . . 6
1.4 Impact of Array CGH . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Context, novelty, contributions and collaborations . . . . . . . . 7
1.5.1 molecular cytogenetics: a new eld and new challenges . . 7
1.5.2 Key issues addressed in this work . . . . . . . . . . . . . . 9
2 Array CGH data management and analysis 13
2.1 Array CGH quality criteria for constitutional genetic diagnosis . 14
2.1.1 Array CGH in genetic diagnosis . . . . . . . . . . . . . . . 14
2.1.2 Parameters in
uencing Array CGH quality . . . . . . . . 15
2.1.3 Quality criteria and threshold values . . . . . . . . . . . . 18
2.1.4 Polymorphisms . . . . . . . . . . . . . . . . . . . . . . . . 18
xv
2.1.5 Mosaicisms . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Discussion on quality criteria . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Parameters in
uencing Array CGH quality . . . . . . . . 20
2.2.2 Quality criteria . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Pitfalls for pre- and postnatal diagnosis: polymorphic loci 21
2.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.5 Back to the future . . . . . . . . . . . . . . . . . . . . . . 24
2.3 A loop design analysis for Array CGH data . . . . . . . . . . . . 25
2.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Acknowledgements and credits . . . . . . . . . . . . . . . 26
2.3.3 A change in experimental setup . . . . . . . . . . . . . . . 26
2.3.4 New statistical models for loop design analysis . . . . . . 28
2.3.5 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.6 Statistical models: a discussion . . . . . . . . . . . . . . . 33
2.3.7 Web application . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.8 Discussion on the LOOP approach . . . . . . . . . . . . . 49
2.3.9 Future work . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.4 Human copy number variation . . . . . . . . . . . . . . . . . . . 52
2.4.1 Importance of copy number variation mapping . . . . . . 52
2.4.2 Charting CNVs through accumulated diagnostic assay data 53
2.4.3 LOOP hybridizations as valuable data source . . . . . . . 54
2.4.4 Charting CNVs: conclusions . . . . . . . . . . . . . . . . 59
2.5 Array repositories . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.5.1 ArrayCGHBase . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5.2 Towards functional interpretation and intelligent databases 63
3 Functional interpretation of genetic information 65
3.1 Candidate genes for novel submicroscopic chromosomal imbalance
syndromes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2 Computational approaches in correlating genotype and phenotype 67
3.2.1 Querying genotype-phenotype correlations in literature databases 67
3.2.2 Finding phenotype-rich genotypical features . . . . . . . . 68
3.2.3 Pinpointing phenotype-related genes: guilt by association 69
3.3 Challenges for automated genotype-phenotype correlations . . . . 70
3.4 Statistically linking genotypes and phenotypes . . . . . . . . . . 74
3.4.1 Mapping biomedical concepts onto the human genome by
mining literature on chromosomal aberrations . . . . . . . 74
3.4.2 Identication of loci involved in development, dysmorphy
and pathology . . . . . . . . . . . . . . . . . . . . . . . . 75
3.4.3 Automatically building chromosomal aberration maps . . 78
3.4.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5 aGeneApart: mapping genes to human dysmorphology phenotypes
by literature mining . . . . . . . . . . . . . . . . . . . . . . 89
3.5.1 A pipeline to extract relevant concepts from literature . . 90
3.5.2 Validation eorts . . . . . . . . . . . . . . . . . . . . . . . 94
xvi
3.5.3 Availability through a web interface . . . . . . . . . . . . 96
3.5.4 Integration in other tools . . . . . . . . . . . . . . . . . . 96
3.6 Gene prioritization through genomic data fusion . . . . . . . . . 97
3.6.1 Data fusion for candidate gene prioritization . . . . . . . 98
3.6.2 Principle of Endeavour . . . . . . . . . . . . . . . . . . . . 100
3.6.3 A text model for Endeavour . . . . . . . . . . . . . . . . . 101
3.7 Setting the scene for intelligent databases . . . . . . . . . . . . . 103
4 Intelligent databases for constitutional cytogenetics 109
4.1 Biomedical interpretation, collaborative research and diagnostic
support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.2 Public databases . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.3 Store and Bench . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.3.1 Challenges for genomics IT platforms . . . . . . . . . . . 111
4.4 DECIPHER as an Array-CGH genomics platform . . . . . . . . . 116
4.5 DECIPHER and copy number changes . . . . . . . . . . . . . . . 116
4.5.1 Copy number changes and disease . . . . . . . . . . . . . 117
4.5.2 Normal copy number variation . . . . . . . . . . . . . . . 117
4.5.3 The DECIPHER project . . . . . . . . . . . . . . . . . . . 117
4.5.4 The DECIPHER consortium . . . . . . . . . . . . . . . . 118
4.5.5 Key features of DECIPHER . . . . . . . . . . . . . . . . . 119
4.5.6 Using DECIPHER . . . . . . . . . . . . . . . . . . . . . . 124
4.5.7 Main benets of DECIPHER . . . . . . . . . . . . . . . . 125
4.6 Store+Bench . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.6.1 Main feature 1 - managing Array CGH related information127
4.6.2 Main feature 2 -
exible reporting . . . . . . . . . . . . . 130
4.6.3 Main feature 3 - a data store . . . . . . . . . . . . . . . . 133
4.6.4 Main feature 4 - integration and interaction with external
resources . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.6.5 Main feature 5 - gene prioritization . . . . . . . . . . . . . 133
4.6.6 Key applications of Store+Bench . . . . . . . . . . . . . . 135
4.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5 Genome annotation 139
5.1 Determining sequence, and annotating it . . . . . . . . . . . . . . 139
5.2 A reference sequence for many genomes . . . . . . . . . . . . . . 140
5.3 Current approach to genome annotation . . . . . . . . . . . . . . 141
5.4 Genome annotation: technical aspects . . . . . . . . . . . . . . . 141
5.4.1 What is DAS? . . . . . . . . . . . . . . . . . . . . . . . . 141
5.4.2 How does DAS work? . . . . . . . . . . . . . . . . . . . . 142
5.4.3 Distributed annotation: PrimerDB . . . . . . . . . . . . . 142
5.4.4 Distributed annotation: Bench and DECIPHER . . . . . 144
5.5 Case study: text-mining assisted regulatory annotation . . . . . . 144
5.5.1 Unlocking transcription regulation information in biomedical
literature . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.5.2 Background . . . . . . . . . . . . . . . . . . . . . . . . . . 144
xvii
5.5.3 A literature management system for community annotation
and text mining . . . . . . . . . . . . . . . . . . . . . 147
5.5.4 A vector space model identies MEDLINE abstracts with
high cis-regulatory content . . . . . . . . . . . . . . . . . 147
5.5.5 Coverage . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.5.6 Estimating the size of the cis-regulatory corpus . . . . . . 151
5.5.7 Abstract relevance ranking aids the construction of regulatory
networks . . . . . . . . . . . . . . . . . . . . . . . . 153
5.5.8 Text Mining for cis-regulatory information: discussion . . 153
6 Data fusion on biomedical text and gene expression assays 157
6.1 Case 1: TXTGate { a platform for gene group proling and expression
array cluster validation . . . . . . . . . . . . . . . . . . . 158
6.1.1 Introduction - a
exible framework . . . . . . . . . . . . . 158
6.1.2 Rationale . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.1.3 Related software . . . . . . . . . . . . . . . . . . . . . . . 160
6.1.4 Representing text data . . . . . . . . . . . . . . . . . . . . 161
6.1.5 Application overview . . . . . . . . . . . . . . . . . . . . . 162
6.1.6 Program development . . . . . . . . . . . . . . . . . . . . 164
6.1.7 Construction of domain vocabularies . . . . . . . . . . . . 165
6.1.8 Online clustering . . . . . . . . . . . . . . . . . . . . . . . 166
6.1.9 Cluster coherence . . . . . . . . . . . . . . . . . . . . . . . 167
6.2 TXTGate summarizes and identies sub-clusters . . . . . . . . . 167
6.2.1 Yeast data . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.2.2 Human data . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.2.3 Textual information through the eyes of dierent vocabularies
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
6.3 Application of TXTGate to a real-life research problem . . . . . 174
6.4 Case 2: Integration of microarray and textual data through Bayesian
networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.5 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.6 Bayesian networks . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.6.1 Model building . . . . . . . . . . . . . . . . . . . . . . . . 178
6.6.2 Structure prior . . . . . . . . . . . . . . . . . . . . . . . . 179
6.6.3 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
6.7 Prior data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.7.1 Gene prior . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.7.2 Class variable prior . . . . . . . . . . . . . . . . . . . . . . 181
6.8 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.8.1 Discretization . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.9 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
6.10 Results and discussion . . . . . . . . . . . . . . . . . . . . . . . . 183
6.10.1 Veer data . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
6.10.2 Bild data . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.11 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.11.1 Microarray and text data for gene cluster proling . . . . 184
xviii
6.11.2 Microarray and text data for Bayesian Networks . . . . . 185
7 Conclusions and perspectives 187
7.1 Accomplishments and conclusions . . . . . . . . . . . . . . . . . . 187
7.2 Future research and perspectives . . . . . . . . . . . . . . . . . . 188
7.2.1 Future proof platforms . . . . . . . . . . . . . . . . . . . . 188
7.2.2 Collecting and representing the genome and phenome . . 189
7.2.3 Clinical validation . . . . . . . . . . . . . . . . . . . . . . 191
7.2.4 Towards personal genomics . . . . . . . . . . . . . . . . . 191
7.2.5 The future of genome annotation . . . . . . . . . . . . . . 191
Bibliography 193
ISBN: 978-94-6018-112-2
Publication status: published
KU Leuven publication type: TH
Appears in Collections:ESAT - STADIUS, Stadius Centre for Dynamical Systems, Signal Processing and Data Analytics
Electrical Engineering - miscellaneous

Files in This Item:
File Status SizeFormat
phd_svanvoor.pdf Published 8435KbAdobe PDFView/Open Request a copy

These files are only available to some KU Leuven Association staff members

 




All items in Lirias are protected by copyright, with all rights reserved.