Genome sequence analysis for structural variation detection in oilseed rape (Brassica napus L.)

Datum

2020

Betreuer/Gutachter

Weitere Beteiligte

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Zusammenfassung

The allopolyploid species B. napus originated from interspecific hybridization between B. rapa and B. oleracea about 7500 years ago. Due to this recent polyploidization event, the A and the C subgenomes of oilseed rape share high levels of sequence identity. High homeology among the subgenomes of B. napus results in a plethora of structural variations (SV) in the form of InDels, copy number variations (CNV), translocations or inversions. There have been several studies associating agronomically important traits such as disease resistance, flowering time and seed quality to SV in oilseed rape. These studies revealed the importance of SV in the creation of the de novo genetic variation necessary for adaptation and breeding. In this thesis, I elucidate different approaches for genome-wide detection and analysis of all size ranges of SV in B. napus.For the identification of large-scale SV this dissertation describes an integrated approach combining single nucleotide polymorphism (SNP) arrays, Illumina sequencing and optical mapping using resistance to Verticillium longisporum as an example for a quantitatively inherited trait in B. napus. A significant increase in the resolution of Verticillium resistance quantitative trait loci (QTL) was observed by including the SV in the form of single nucleotide absence polymorphism (SNaP) markers in the genetic map or genome-wide association studies (GWAS) model. Furthermore, presence absence variation (PAV) was observed in 23 to 51% of the genes within the Verticillium resistance QTL. Moreover, every high-priority candidate gene for Verticillium resistance within the QTL was affected by PAV. The widespread PAV in the rapeseed genome suggested that it is an important class of polymorphism and should be exploited more systematically in plant breeding programs.A majority of studies (including the one mentioned above) aimed at the genome wide identification of SV in plants have relied on Illumina sequencing. However, up to 89% false positive rate has been reported for SV calling with Illumina data. Furthermore, it is challenging to unambiguously align short Illumina reads to a reference assembly for a polyploid genome due to the high levels of sequence similarity among the homeologous regions. Therefore, there have been little or no efforts towards cataloguing small to mid-scale SV. This thesis describes the use of long sequencing reads to evaluate the role of small to mid-scale SV in eco-geographical diversification of B. napus into the three predominant ecotypes (winter-type, spring-type and semi-winter type), and survey their extent and impact on genes. Up to 10% of all genes in the rapeseed genome were found to be affected by small to mid-scale SV events. Nearly half of these SV events ranged between 100 bp to 1000 bp, which makes them challenging to detect using short read Illumina sequencing. Furthermore, small SV were also detected in the genes associated with Verticillium resistance in oilseed rape. This thesis also provides first insight and ideas about how new long-read sequencing technologies can help to understand complex SV in large plant genomes by providing additional layers of information, such as methylation signatures, chromatin confirmation, or data from target enrichment strategies implementing long-read sequencing, and describe potential cellular mechanisms that might explain the occurrence of small to mid-scale SV in oilseed rape. Additionally, the dissertation also reviews the challenges and limitations of the third-generation sequencing technologies.The key finding from this dissertation was the surprisingly high level of widespread, small to mid-scale SV in the rapeseed genome. This size range of SV is almost invisible to Illumina sequencing and was therefore completely ignored by the earlier studies aimed at detecting genomic re-arrangements in B. napus. The results from this dissertation suggest that revisiting complex plant genomes using medium-coverage, long-read sequencing might reveal unexpected levels of functional gene variation, with major implications for trait regulation and crop improvement.


Die allopolyploide Art B. napus entstand vor etwa 7500 Jahren aus einer interspezifischen Kreuzung zwischen B. rapa und B. oleracea. Aufgrund dieses relativ jungen Polyploidisierungsereignisses sind die Sequenzen der beiden B. napus Subgenome A und C sehr ähnlich. Diese Homöologie zwischen den beiden Subgenomen führt zu einer Vielzahl von SV in Form von Indels, Kopienzahlvariationen, Translokationen oder Inversionen. Es gibt zahlreiche Studien, die den Zusammenhang von strukturellen Genomvariationen (SV) mit wichtigen agronomischen Merkmalen wie Krankheitsresistenz, Blühzeitpunkt und Samenqualität von Raps zeigen. Diese Studien offenbaren die Bedeutung von SV zur Schaffung neuer genetischer Variation, die für Anpassung und Züchtung notwendig ist. In dieser Arbeit erläutere ich verschiedene Ansätze zur genomweiten Detektion und Analyse von SV aller Größenbereiche in B. napus.Zur Identifizerung von großen SV beschreibt diese Dissertation einen integrierten Ansatz, welcher Einzelnukleotid-Polymorphismen (SNP) Arrays, Illumina Sequenzierung und Optical Mapping kombiniert und bei dem die Resistenz gegenüber Verticillium longisporum als Beispiel für ein quantitativ vererbtes Merkmal in B. napus dient. Die Einbeziehung von SV in Form von SNaP (Einzelnukleotid-Absenz-Polymorphismus)-Markern in die genetische Karte oder in das Modell zur genomweiten Assoziationskartierung (GWAS) führte zu einer signifikant gesteigerten Auflösung der Verticillium-Resistenz-QTL (Quantitative Merkmalslokus). Überdies wurden in 23 51% der Gene innerhalb der Verticillium-Resistenz-QTL PAV (presence absence variation) gefunden. Vielmehr war jedes Kandidatengen für Verticillium-Resistenz innerhalb der QTL von PAV betroffen. Die weite Verbreitung von PAV im Rapsgenom deutet darauf hin, dass es sich um eine wichtige Art von Polymophismen handelt, die in Pflanzenzüchtungsprogrammen systematisch genutzt werden sollte. Die Mehrheit der Studien (einschließlich der oben erwähnten), mit dem Ziel der genomweiten Identifizierung von SV in Pflanzen, basieren auf Illumina-Sequenzierungen. Für SV Calling mittels Illumina Daten wurden jedoch Falsch-Postiv-Raten von bis zu 89% berichtet. Außerdem ist ein eindeutiges Alignment von kurzen Illumina Reads an ein polyploides Referenzgenom, aufgrund der großen Ähnlichkeit der homöologen Regionen, äußerst schwierig. Aus diesem Grund gab es bisher wenig bis gar keine Bemühungen, kleine bis mittelgroße SV zu erfassen. Die vorliegende Arbeit beschreibt die Verwendung von langen Sequenzierungs-Reads, um die Rolle kleiner bis mittelgroßer SV zur Diversifizierung von B. napus in die drei vorherrschenden Ökotypen (Wintertyp, Sommertyp und Semi-Wintertyp) zu bewerten und deren Ausmaß und Einfluss auf Gene zu untersuchen. Es wurde festgestellt, dass bis zu 10% aller Gene im Rapsgenom von kleinen bis mittelgroßen SV-Ereignissen betroffen sind. Fast die Hälfte dieser SV waren in der Größenordnung von 100 bis 1000 bp, was ihren Nachweis mittels Short Read Illumina-Sequenzierung schwierig macht. Zudem wurden kleine SV auch in jenen Genen nachgewiesen, die mit Verticillium-Resistenz in Raps assoziiert sind. Darüber hinaus liefert diese Arbeit erste Einblicke und Ideen, wie neue Long Read-Sequenzierungstechnologien helfen können, komplexe SV in großen Pflanzengenomen zu verstehen, indem sie zusätzliche Informationsebenen wie Methylierungsmuster, Chromatinkonformation oder Daten aus Target-Enrichment-Strategien, die die Long-Read-Sequenzierung verwenden, liefern und potenzielle zelluläre Mechanismen beschreiben, die das Auftreten kleiner bis mittelgroßer SV in Raps erklären könnten. Des Weiteren werden auch die Herausforderungen und Grenzen der Sequenziertechnologien der dritten Generation in dieser Dissertation erörtert.Das zentrale Ergebnis dieser Dissertation war die erstaunlich hohe Anzahl weit verbreiteter, kleiner bis mittelgroßer SV im Rapsgenom. SV in diesem Größenbereich sind mittels Illumina-Sequenzierung nahezu undetektierbar und blieben daher in früheren Studien, die genomische Umlagerungen in B. napus untersuchten, völlig unberücksichtigt. Die Ergebnisse dieser Dissertation deuten darauf hin, dass die Analyse komplexer Pflanzengenome mit Hilfe von Long Read-Sequenzierung mit mittlerer Genomabdeckung eine unerwartete Anzahl funktioneller Genvariationen mit großen Auswirkungen auf die Merkmalsausprägung und die Verbesserung der Kulturpflanzen aufdecken könnte.

Beschreibung

Inhaltsverzeichnis

Anmerkungen

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Erstpublikation in

Zitierform