Transcriptome analysis in preterm infants developing bronchopulmonary dysplasia : data processing and statistical analysis of microarray data

Windhorst, Anita Cornelia

Transcriptome analysis in preterm infants developing bronchopulmonary dysplasia : data processing and statistical analysis of microarray data

Dateien

WindhorstAnita_2015_10_22.pdf (3.91 MB)

Datum

2015

Autor:innen

Windhorst, Anita Cornelia

Lizenz

In Copyright

Zitierlink

http://dx.doi.org/10.22029/jlupub-14213

Zusammenfassung

Bronchopulmonary dysplasia is one of the most common chronic lung diseases and contributes greatly to morbidity of preterm infants. While moderate and severe forms of BPD are the most common forms under investigation little is known about the development of mild BPD. The aim of this work is to identify mechanisms and biomarkers, which make it possible to predict at birth whether a preterm infant is prone to develop no BPD, mild BPD, or a stronger form of BPD.Transcriptome and in particular microarray analysis plays an important role in the generation of hypotheses regarding underlying mechanisms and diagnostic tools. Microarrays are able to examine a multitude of transcripts simultaneously. In order to obtain reliable results, however, a number of data preparation steps are necessary. The statistical analysis has some peculiarities due to the high number of parameters collected and a comparatively small number of patients. In the present study, a standardized workflow for the statistical analysis of transcriptome data is developed and used to predict BPD in very preterm infants.First, background correction and normalization steps are performed to prepare the data. This on the one hand, separates signal from noise in the gene expression, and on the other hand makes the microarrays comparable. Then informative transcripts are iteratively selected. Transcripts are reviewed for missing values, low expression levels, and extreme values and if necessary eliminated. Then remaining missing values are estimated using an imputation algorithm.Data preparation was particularly facilitated through the implementation and automation of workflow using the programming language R. In comparison to a preparation that is based on different independent programs and tools a considerable advantage in terms of data amount that can be processed, processing time, and actuality of the algorithms can be achieved. Existing programs have been replaced by Bioconductor packages where possible to avoid data transmission errors.The instruments for data preparation can be used for the analysis of either predefined groups (supervised) as well as without predetermined groups (un-/ semi-supervised). This way it is possible to take the nature and prerequisites of the different statistical analyses into account. The group-based (supervised) data analysis is used to work out differences between the examined groups. For the presented study two methods (Limma, PAM) were used to identify differentially regulated genes. While Limma determined individual transcripts that are differentially regulated in isolation from other transcripts, the focus of PAM is on the interplay of the transcripts to explain the different expressions of the phenotypes.The aim of the transcriptome analysis without prior definition of groups (unsupervised) is to identify groups solely based on gene expression. Since in this case a very large number of transcripts will be taken into account, this approach is only suitable to draw conclusions about underlying diseases affecting the whole gene expression. Therefore in a semi-supervised approach the data preparation is performed without groups. However, only a selection of transcripts is used. The selection is based on clinical data associated with the phenotype. With this selection clustering techniques are then used to identify groups. In the present case different maturities of preterm infants at time of birth caused particular difficulties while forecasting BPD groups. Frequently the gene expression patterns differ with maturity. To address this issue in particular the gestational age of preterm infants is used as a secondary variable in the selection of transcripts. In addition it is beneficiary to have only transcripts selected that show an effect in mechanical ventilation and oxygen requirement but not in GA or in addition to the effect of GA. As this cannot be achieved with the usual methods of gene selection (Limma, PLS), a multiple linear regression is performed here, which allows filtering only transcripts with additional effects.The gene expression analysis of the present study comprising neonates born before 32 weeks of gestation shows that consideration of processes at birth significantly augments the understanding of BPD in general and its classification in different severity grades. With the help of the presented gene expression analysis tools for data preparation, data analysis and functional gene expression analysis, it is possible to predict BPD severity grades at birth and identify cytokines as biomarkers.Our results showed that the combination of oxidative stress and inflammation at birth contributes to the severity of BPD. In light of the duration of mechanical ventilation and the duration of oxygen supply considered, it becomes evident that processes responsible for the T-cell development are associated with the development of BPD. Furthermore, the importance of tumor necrosis factor alpha (TNF alpha), interleukin 6 (IL6), interleukin 1 and interleukin 10 in the regulation of the differential gene expression in BPD becomes apparent.

Bronchopulmonare Dysplasie ist eine der am meisten verbreiteten chronischen Lungenerkrankungen und trägt stark zur Morbidität von Frühgeborenen bei. Während moderate und starke Formen von BPD bevorzugt untersucht werden, ist über die milde Form von BPD nur wenig bekannt. Ziel dieser Arbeit ist es, Hinweise auf Mechanismen und Biomarker zu identifizieren, die es möglich machen bei Geburt die Entwicklung keiner BPD, einer milden BPD, oder einer stärker ausgeprägten Form von BPD vorherzusagen. Transkriptomanalysen und insbesondere Microarray-Analysen spielen eine wichtige Rolle in der Generation von Hypothesen in Bezug auf zugrundeliegende Mechanismen und diagnostischen Hilfsmitteln. Microarrays sind in der Lage eine Vielzahl von Transkripten gleichzeitig zu untersuchen. Um jedoch belastbare Ergebnisse zu bekommen, ist eine Reihe von Datenvorbereitungsschritten notwendig. Auch die statistische Analyse birgt einige Besonderheiten aufgrund der hohen Anzahl an erhobenen Parametern bei vergleichsweise geringer Anzahl an Patienten. In der vorliegenden Arbeit wurde ein standardisierter Ablaufplan zur statistischen Analyse von Transkriptom-Daten entwickelt und zu BPD-Prognose von Frühgeborenen verwendet.Zunächst werden die mithilfe von Microarrays gewonnen Transkriptomdaten mit den üblichen Schritten der Hintergrundkorrektur und Normalisierung aufbereitet. Dies dient zum einen dazu, die Genexpression, die durch die zu untersuchende Krankheit hervorgerufen wurde, von dem Hintergrundsignal zu trennen und zum anderen dazu, die Microarrays vergleichbar zu machen. Anschließend werden informative Transkripte iterativ ausgewählt. In diesem Abschnitt der Datenaufbereitung werden Transkripte auf fehlende Werte, niedrige Expression und Extremwerte überprüft und gegebenenfalls eliminiert. Verbleibende fehlende Werte werden mithilfe eines Imputationsverfahrens geschätzt.Eine besondere Erleichterung der Datenvorbereitung konnte durch die Implementierung und Automatisierung des Arbeitsablaufes in der Programmiersprache R erreicht erzielt werden. Im Vergleich zu einer Vorbereitung, die auf verschiedenen unabhängigen Programmen basiert, kann ein erheblicher Vorteil in Bezug auf Datenumfang, Bearbeitungszeit und Aktualität der Algorithmen erreicht werden. Soweit möglich wurden bestehende Programme durch Bioconductor-Pakete ersetzt, die es ermöglichen Übertragungsfehler zu vermeiden.Diese Instrumente der Datenaufbereitung können sowohl bei der Analyse von vorgegebenen Gruppen (supervised) und ohne vorgegebene Gruppen (un-/semisupervised) eingesetzt werden. Auf diese Weise wird bereits bei der Vorbereitung der Daten berücksichtigt, welche Art der statistischen Analyse durchgeführt werden wird.Die gruppenbasierte (supervised) Datenauswertung dient dazu, Unterschiede zwischen den zu untersuchenden Gruppen herauszuarbeiten. Für die vorgestellte Studie wurden zwei Methoden (Limma, PAM) verwendet, um differentiell regulierte Gene zu identifizieren. Während Limma einzelne Transkripte ermittelt, die losgelöst von anderen Transkripten differentiell reguliert sind, liegt der Fokus von PAM auf dem Zusammenspiel der Transkripte, welches die unterschiedliche Ausprägung des Phänotyps erklären. Ziel der Transkriptom-Analyse ohne vorherige Festlegung von Gruppen (unsupervised) ist es, rein aufgrund der Genexpression Gruppen zu identifizieren. Da in diesem Fall eine sehr große Anzahl von Transkripten berücksichtig wird, ist dieser Ansatz nur bedingt geeignet, um Rückschlüsse auf zugrundeliegende Krankheiten zu ziehen. Deshalb wird in einem semi-supervised Ansatz zwar die Datenvorbereitung ohne Gruppen durchgeführt, jedoch wird eine Auswahl an Transkripten anhand klinischer Daten getroffen, die im Zusammenhang mit dem zu untersuchenden Phänotyp stehen. Aufgrund dieser Auswahl werden dann mittels Clustering Gruppen identifiziert. Eine besondere Schwierigkeit in der Prognose von BPD-Gruppen stellt im vorliegen Fall die Berücksichtigung der Reife der Frühgeborenen dar. Häufig ist die Genexpression zum Zeitpunkt der Geburt beeinflusst durch die Reife der Frühgeborenen; deshalb sollten nur Transkripte ausgewählt werden, die in Bezug auf mechanische Ventilation und Beatmung einen zusätzlichen Effekt zeigen. Mit den bisher üblichen Methoden der Genselektion (Limma, PLS) kann dies jedoch nicht berücksichtigt werden, weshalb hier eine multiple lineare Regression durchgeführt wird, die es erlaubt nur Transkripte mit zusätzlichen Effekten zu filtern.Die Studie der Genexpression von Neugeborenen, geboren vor der 32. Schwangerschaftswoche, zeigt, dass eine Betrachtung der Prozesse zum Zeitpunkt der Geburt deutlich zum Verständnis von BPD im Allgemeinen und der Ausprägung verschiedener Schweregrade im Speziellen beitragen kann. So ist es möglich, anhand der vorgestellten Instrumente und mit Instrumenten der funktionellen Expressionsanalyse, biologische Prozesse und Zytokine identifizieren, die dazu dienen den Schweregrad einer BPD schon bei Geburt abzuschätzen. In der vorliegenden Studie ist zu sehen, dass bereits bei Geburt, die Kombination aus oxidativem Stress und Inflammation zur Ausprägung des BPD-Schweregrades beitragen. In der Betrachtung der Dauer der mechanischen Ventilation im Zusammenspiel mit der Dauer der Sauerstoffgabe wird deutlich, dass Prozesse der T-Zell-Entwicklung an der Entwicklung von BPD beteiligt sind. Die Betrachtung der Zytokine, die die beobachten Gen-Expression regulieren, wird die Bedeutung des Tumornekrosefaktors alpha (TNF alpha), Interleukin 6 (IL 6), Interleukin 1 beta und Interleukin 10 für das Auftreten von BPD deutlich. Die Proteinanalyse bestätigt die Relevanz von TNF alpha und IL 6 zur Differenzierung der BPD-Grade bei Geburt.

Sammlungen

Dissertationen/Habilitationen

Komplettanzeige

Transcriptome analysis in preterm infants developing bronchopulmonary dysplasia : data processing and statistical analysis of microarray data

Dateien

Datum

Autor:innen

Betreuer/Gutachter

Weitere Beteiligte

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Lizenz

Zitierlink

Zusammenfassung

Beschreibung

Inhaltsverzeichnis

Anmerkungen

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Erstpublikation in

Zitierform

Sammlungen