Skip to main content
Login | Suomeksi | På svenska | In English

Genome analysis pipeline for next-generation sequencing

Show full item record

Title: Genome analysis pipeline for next-generation sequencing
Author(s): Almusa, Henrikki
Contributor: University of Helsinki, Faculty of Biological and Environmental Sciences, Department of Biosciences
Discipline: Biotechnology
Language: English
Acceptance year: 2013
Abstract:
The next-generation sequencing (NGS) platforms create a large amount of sequence in short amount of time, when compared to first generation sequencers. An overview of the NGS platforms is provided with more in-depth look into Illumina Genome Analyzer II as that is used to create the data for the thesis. There were two main aims in this thesis. First, to create a pipeline which can be used to analyse genomic sequencing. Second, to use the pipeline to compare whole human exome capture methods from two manufacturers, Roche Nimblegen and Agilent. The pipeline is describe in detail in material and methods. All the inputs for the pipeline are described and examples shown. In the pipeline the given sequences are first aligned against the reference genome. Then various separate analysis is performed to retrieve variants and coverage of the sequencing. Supplementary results include paired-end anomalies, larger insertion and deletion polymorphisms and assembly of non-aligned sequences. The two capture methods are also described and changes to the manufacturers' recommended protocols are listed. Finally, the section has the options and various inputs used in the pipeline runs of the exome data. The results of the pipeline is a basic level of analysis of the sequencing as well as various graphs showing the quality of the run. All the output files intended for user are described. By using the results of the pipeline, the user can do more in-depth analysis as required by the project. When comparing the two exome capture methods, the Nimblegen capture was shown to be more efficient in capturing the CCDS exome. While the Agilent capture kit provided better one fold coverage over the exome, higher fold coverage (over 10 fold), which is required for reliable variant calling in nextgeneration sequencing, was better reached using the Nimblegen capture kit. Also, significantly fewer false positive paired-end anomalies were observed in the library created by using the Nimblegen capture.
Toisen sukupolven sekvensointilaitteet tuottavat huomattavan suuren määrän sekvenssiä lyhyessä ajassa verrattuna ensimmäisen sukupolven laitteisiin. Taustaosassa annetaan yleiskuva eri toisen sukupolven sekvensaattorien toimintamenetelmistä. Tarkemmin paneudutaan Illumina Genome Analyzer II laitteeseen, jolla tuotettiin sekvenssit tätä tutkielmaa varten. Tällä tutkielmalla on kaksi tavoitetta. Ensimmäinen tavoite on tehdä analyysiohjelmisto genomista sekvensointia varten. Toinen tavoite on käyttää tätä ohjelmistoa vertailemaan ihmisen kaikkien geenien eksonien sekvensointimenetelmiä kahdelta eri valmistajalta, Roche Nimblegeniltä ja Agilentilta. Materiaali ja metodi osassa kuvataan ohjelmiston toiminta tarkemmin. Kaikista ohjelmistolle annettavista tiedostoista on kuvaus sekä esimerkki. Ohjelmisto linjaa sekvensointilaitteen tuottamat lyhyet sekvenssit vertailugenomia vastaan, etsii linjauksesta varioivia kohtia ja antaa tietoa miten tuotetut sekvenssit kattavat suunnitellut genomialueet. Lisäksi tulostiedostot sisältävät sekvenssiparien poikkeavuuksia, suurempien sekvenssin lisäyksen tai poiston aiheuttavia muutoksia ja yritetään yhdistellä ei linjattuja sekvenssejä isommiksi osiksi. Sekvensointi paketit eri valmistajilta myös esitellään ja tehdyt muutokset valmistajien suosittamiin ohjeisiin listataan. Viimeisenä osana käydään läpi työssä käytettyjen ohjelmistoajoille annetut tiedostot sekä muut niihin liittyvät muutokset. Analyysiohjelmiston tuloksena tuotetaan perustason analyysi sekvenssoinnista sekä sen laadusta. Kaikki tulostiedostot selitetään käyttäjälle. Tulosten perusteella voi käyttäjä sitten tehdä syvempää analyysia oman projektinsa tarpeiden mukaan. Eksomivertailussa Nimblegenin sekvensointimenetelmä näyttäisi olevan parempi kohdealueen sekvensointiin sekä omalla että itsenäisellä aluemäärittelyllä. Agilentin menetelmä tuotti laajemman yksinkertaisen sekvenssipeiton ihmisgenomin eksoneihin, mikä kuitenkin on liian vähäinen luotettavaa variaatioiden tunnistamista varten. Nimblegenin menetelmä sen sijaan kattoi enemmän tavoiteltuja sekvenssialueita kun vaadittiin variaatioiden tunnistamiseen riittävä sekvenssipeitto (vähintään 10 sekvenssiä). Nimblegenin menetelmä tuotti myös vähemmän virheellisiä sekvenssipoikkeavuuksia.
Keyword(s): eksomisekvensointi NGS Illumina GA II next-generation sequencing pipeline exome NGS Illumina GA II


Files in this item

Files Size Format View
Almusa.pdf 4.575Mb PDF

This item appears in the following Collection(s)

Show full item record