Exploring the potential of machine learning methods and selection signature analyses for the estimation of genomic breeding values, the estimation of SNP effects and the identification of possible candidate genes in dairy cattle

Datum

2018

Betreuer/Gutachter

Weitere Beteiligte

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Zusammenfassung

The objective of this thesis was to study a variety of factors that affect the accuracy of genomic predictions applying random forest methodology (RF), genomic BLUP (GBLUP) and single step genomic BLUP (ssGBLUP) method with strong focus on training set design. In the following, selection signature through variation in linkage disequilibrium (LD) within and between dual-purpose black and white (DSN) and Holstein populations was identified.In chapter 2 a stochastic simulation was applied for genomic predictions of binary disease traits based on cow training set. Composition of training and testing sets were modified in different allocating schemes. In addition, different scenarios were studied according to the quantitative-genetic background of the trait, the genetic architecture as well as low and high density of SNP chip panel. The highest genomic prediction accuracies were achieved when disease incidences within training sets was close to the population disease incidence of 0.20. Decreasing the traits heritability and QTL reduction were associated with decreasing genomic prediction accuracies.In chapter 3, different disease traits from 6,744 cows with genotypes from 58 large-scale contract herds was used to study the impact of training set composition, the impact of response variable as well as the impact of RF, GBLUP and ssGBLUP methodology on genomic prediction accuracies. Using de-regressed proofs (DRP) as response variables, accuracies were larger compared to pre-corrected phenotypes (PCP) for both methods GBLUP and RF. A further increase in genomic prediction accuracies was realized via ssGBLUP method compared to corresponding scenarios with RF or GBLUB. In addition, RF identified significant SNP close to potential positional candidate gene, i.e., GAS1, GPAT3, and CYP2R1 for clinical mastitis, SPINK5 and SLC26A2 for laminitis, and FGF12 for infertility.Genetic variation between the Holstein and the DSN population as well as between sub-populations was inferred by using XP-EHH method in chapter 4. The analysis was performed on 2,076 genotyped Holstein cows and 261 genotyped DSN cows. The most outstanding XP-EHH score that revealed the regions under recent selection was on chromosome 6 and on chromosome 12 for DSN and on chromosome 20 for Holstein population. Annotation of selection signature regions revealed various genes associated with production traits such as CLU and WARS2. Furthermore, several hub genes associated with dermatitis digitalis resistance was detected including FARS2, ACTR8 and CRY1.


Ziel dieser Arbeit war die Analyse einer Vielzahl von Faktoren, welche die Genauigkeit der genomischen Zuchtwertschätzung beeinflussen. Hierzu wurden, mit besonderer Fokussierung auf die Konzeption der Referenzstichprobe, Random Forest (RF), genomic BLUP (GBLUP) und single step genomic BLUP (ssGBLUP) Verfahren angewendet. Nachfolgend wurden Selektionssignaturen mithilfe von Variationen im Kopplungsungleichgewicht (LD) innerhalb und zwischen Populationen des Schwarzbunten Niederungs- und Holsteinrinds identifiziert. Im zweiten Kapitel wurde eine stochastische Simulation appliziert, um genomische Schätzungen binärer Krankheitsmerkmale basierend auf der Referenzstichprobe durchzuführen. Die Struktur der Referenz- und Teststichprobe wurde in verschiedenen Zuweisungsschemata modifiziert. Darüber hinaus fand die Anwendung divergenter Szenarien hinsichtlich des quantitativ-genetischen Hintergrundes, der genetischen Architektur sowie der Dichte des SNP Chip statt. Die höchste genomische Schätzgenauigkeit wurde bei Annäherung der Krankheitsinzidenz innerhalb der Referenzstichprobe an die Inzidenz der Population von 0,20 erreicht. Die Reduktion der Merkmalsheritabilität und QTL ging mit einer Verringerung der genomischen Schätzgenauigkeit einher. In Kapitel drei wurde der Effekt der Struktur der Referenzstichprobe, der abhängigen Variablen wie auch der RF, GBLUP und ssGBLUP Methode auf die genomische Schätzgenauigkeit, unter Einbeziehung diverser Krankheitsmerkmale von 6744 genotypisierten Kühen aus 58 Testherden, analysiert. Die Verwendung deregressierter Zuchtwerte (DRP) als abhängige Variable im GBLUP sowie RF Verfahren, führte zu einer Verbesserung der Genauigkeiten im Vergleich zur Nutzung vorkorrigierter Phänotypen (PCP). Ein weiterer Anstieg der Genauigkeit wurde durch Anwendung der ssGBLUP Methode erzielt. Mithilfe der RF Methode, konnten zudem signifikante SNP in der Nähe möglicher Kandidatengene wie GAS1, GPAT3, CYP2R1 für Mastitis, SPINK5, SLC26A2 für Laminitis und FGF12 für Unfruchtbarkeit identifiziert werden. Genetische Variation zwischen der Holstein und DSN Population wie auch Subpopulationen wurde mithilfe der XP-EHH Methode, unter Einbeziehung von 2076 genotypisierten Holstein und 261 DSN Kühen, in Kapitel vier dargestellt. Der auffälligste XP-EHH Score, jüngste Selektionsregionen darstellend, wurde auf Chromosom 6 und 12 für DSN und auf Chromosom 20 für die Holsteinpopulation detektiert. Die Annotation der Selektionssignaturregionen eruierte diverse, mit Produktionsmerkmalen assoziierte Gene wie CLU und WARS2, wie auch einige, mit Dermatitis Digitalis Resistenz assoziierte Hub Gene, einschließlich FARS2, ACTR8 und CRY1.

Beschreibung

Inhaltsverzeichnis

Anmerkungen

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Erstpublikation in

Zitierform