Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Subject "pääkomponenttianalyysi"

Sort by: Order: Results:

  • Hautala, Anni (2020)
    Tekoälyä ja koneoppimista hyödynnetään yhä useammilla tieteen ja liike-elämän aloilla ja tekoälyteknologioiden kehittyessä niiden käyttämisestä tulee yhä helpompaa ja yleisempää. Koneoppimisessa käytettävissä malleissa on taustalla paljon erilaista matematiikkaa ja tilastotiedettä. Menetelmien syvällinen ymmärtäminen ja soveltaminen vaatii ymmärrystä taustalla olevista matemaattisista rajoitteista ja sovellusmahdollisuuksista. Tässä tutkielmassa tarkastellaan koneoppimisen matemaattista perustaa. Työ on jaettu kahteen osaan. Ensimmäisessä osassa esitellään muutamia koneoppimisessa tarvittavia matematiikan osa-alueita, joita tarvitaan koneoppimisessa: lineaarialgebran ja matriisilaskennan sekä todennäköisyyslaskennan perusteita. Tämä osa toimii johdantona tai kertausmateriaalina kyseisiin matematiikan osa-alueisiin. Työn toisessa osassa esitellään yleisesti koneoppimisen peruskäsitteitä ja muotoillaan koneoppimisprosessia matemaattisesti. Sitten käydään läpi kaksi koneoppimismenetelmää, lineaarinen regressioanalyysi ja pääkomponenttianalyysi (PCA). Molemmista menetelmistä esitetään perusperiaate, matemaattista taustaa ja käytännön esimerkkejä Python-ohjelmointikielellä. Tutkielma perustuu kirjallisuuskatsaukseen.
  • Ruikkala, Toni (2022)
    The Arctic is facing a major turning point with climate change and the region's climate will experience a particularly sharp rise in temperature. Subarctic ponds are important habitats and shelters for many organisms in the area but are nevertheless poorly known compared to larger water bodies. Along with climate change, the importance of studying ponds becomes more important as they are the first to manifest a changing climate. Factors affecting the water properties of subarctic ponds include the characteristics of the catchment area, such as its location relative to the sea, altitude, bedrock, and soil. Of the climatic factors, the temperature in the summer months and the amount of precipitation are of great importance. The purpose of the thesis was to find out the factors influencing the water properties of ponds in the Kilpisjärvi region and how the water properties vary between ponds. Water samples were collected from 94 tundra ponds in and around Malla Strict Nature Reserve and in the areas around Ailakkavaara in August-September 2018 and 2019. The collected samples were later analyzed in the laboratory of the Department of Geosciences and Geography in University of Helsinki. The hydrochemical variables studied were metals dissolved in water, major ions, and total phosphorus and nitrogen. Variables describing catchment characteristics such as the Normalized Difference Vegetation Index (NDVI), TWI (Topographic Wetness Index) and climatic variables such as precipitation during the summer months and average temperature in July were collected from open spatial data sources. Based on the results of the principal component analysis (PCA), the chemical properties of pond waters vary slightly on average between Malla and Ailakkavaara, but there is more variation within the regions. The characteristics of the catchment areas and the climate clearly influenced the vegetation type surrounding the ponds, but these factors were not as strongly reflected in the characteristics of the pond waters. The absolute amounts of nutrients and water-dissolved metals are small, but the relative variation between ponds is substantial. Based on GAM-modeling, influence of groundwater (deuterium excess) was the single most significant factor influencing water quality, which was the explanatory variable for several water properties. The drier-than-average summer months in the study years emphasize the importance of runoff to water quality. Rainfall during the summer months, altitude, mean temperature in July, and amount of vegetation (NDVI) were the main factors influencing the subarctic ponds in the study. The increase in temperature caused by climate change will raise the temperature of pond waters and increased precipitation will increase the runoff of metals dissolved in ponds.
  • Rantamäki, Olli (2022)
    Subarktisten lampien vesikemia on muuttunut nopeasti viime vuosikymmeninä ympäristössä tapahtuneiden voimakkaiden muutosten johdosta. Subarktisten alueiden vesistötutkimuksissa on oltu erityisesti kiinnostuneita valuma-alueen kasvillisuuden muutoksista ilmaston lämpenemisen seurauksena. Maankamaran osalta huomio on ollut kallioperän kemiallisessa koostumuksessa. Tämän lopputyön keskiössä oli valuma-alueen tekijöistä maaperä. Lopputyön tavoitteena oli tarkastella, kuinka hyvin maaperämuuttujat selittävät lampien vesikemiaa. Maaperän kemiallisia ominaisuuksia kuvasi ICP-massaspektrometrillä määritetyt maaperänäytteiden helposti liukenevien alkuaineiden pitoisuudet. Lisäksi hehkutushäviömenetelmällä (LOI) määritettiin maaperän orgaanisen aineksen määrä. Maaperän rakennetta tarkasteltiin valuma-alueen maalajin ja maanpeiteluokkien peittävyysprosenttien avulla ja pohjavesivaikutteisuudella. Pääkomponenttianalyysin (PCA) mukaan vesikemian muuttujat eivät vaihdelleet kovinkaan yhdenmukaisesti; liuenneiden ionien kokonaismäärä ja runsaina esiintyneiden ionien pitoisuudet olivat kohtalaisen yhdenmukaisesti vaihtelevia. Valuma-aluetta kuvaavat muuttujat eivät sen sijaan PCA-analyysin mukaan olleet yhdenmukaisesti vaihtelevia. Yleistetyssä lineaarisessa mallissa (GLM) vesikemiaa kuvaavista muuttujista rinnejyrkkyys, varvikkojen ja heinikkojen laajuus sekä pohjavesivaikutteisuus selittivät tilastollisesti merkitsevästi lammen veden kemiaa. Pohjavesivaikutteisuus, jota mitattiin haihtuneisuutta kuvaavalla D-excess-arvolla, selitti ainoana muuttujana laajasti veden kemiallista vaihtelua. Se selitti pH:n sekä Al:n, Mn:n, Fe:n, Si:n ja TP:n vaihtelua. Yleisesti GLM-mallit olivat kuitenkin selitysvoimaltaan heikkoja. Ainoastaan veden Al:n ja Si:n pitoisuuksia selittävät mallit olivat selitysasteiltaan kohtalaisia. Tässä lopputyössä tutkittiin lisäksi sedimenttikivistä koostuvan Mallatunturien ja magmakivistä koostuvan Ailakkavaaran alueiden eroa lampien vesikemioissa. Samankaltaisuusanalyysissä (ANOSIM) löydettiin pieni ero alueiden välillä vesikemiassa. Maaperäominaisuuksien välillä ANOSIM-testissä löytyi myös heikko eroavaisuus alueiden välillä. Maaperissä oli yleisesti valuma-alueiden sisällä suurta vaihtelua, sillä maaperän alkuainepitoisuudet vaihtelivat merkittävästi eri puolilla lampea. Yleisesti tilastonanalyysien tulokset viittasivat siihen, että maaperä on tärkeä vesikemiaan vaikuttava tekijä valunnan tapahtuessa pohjavesikerroksen kautta. Lisäksi maaperän mineraaliaineksen koostumus selittää analyysin mukaan jonkin verran lampien vesikemian vaihtelua.
  • Malmberg, Anni (2020)
    A population is said to be genetically structured when it can be divided into subpopulations based on genetic differences between the individuals. As in case of Finland for example, the population has been shown to consist of genetic subpopulations that correspond strongly to geographical subgroups. Such information may be interesting when seeking answers to questions related to the settlement and migration history of some population. Information about genetic population structure is also required for example in studies looking for associations between genetic variants and some inheritable disease to ensure that the groups with and without diagnosis of the disease resemble each other genetically except for the genetic variants causing the disease. In my thesis, I have compared how two different mathematical models, principal component analysis (PCA) and generative topographic mapping (GTM), visualize ancestry and identify genetic structure in Finnish population. PCA was introduced already in 1901, and nowadays it is a standard tool in identifying genetic structure and visualizing ancestry. GTM instead was published relatively recently, in 1998, and has not yet been applied in population structure studies as widely than PCA. Both PCA and GTM transform high-dimensional data to a low-dimensional, interpretable representation where relationships between observations of the data are summarized. In case of data containing genetic heterogeneity between individuals, this representation gives a visual approximation of the genetic structure of the population. However, Hèlèna A. Gaspar and Gerome Breen found in 2018 that GTM is able to classify ancestry of populations from around the world more accurately than PCA: the differences recognized by PCA were mainly between geographically most distant populations, while GTM detected also more their subpopulations. My aims in the thesis were to examine whether applying the methods for Finnish data would give similar results, and to give thorough presentations of the mathematical background for both the methods. I also discuss how the results fit into what is currently known about the genetic population structure in Finland. The study results are based on data from the FINRISK Study Survey collected by the National Institute for Health and Welfare (THL) in 1992-2012 and include 35 499 samples. After performing quality control on the data, I analysed the data with SmartPCA program and ugtm Python package implementing PCA and GTM, respectively. The final results have been presented for such 2010 individuals that participated the FINRISK Study Survey in 1997 and whose both parents were born close to each other. I have assigned the individuals into distinct geographical subgroups according to the birthplaces of their mothers to find out whether PCA and GTM identify individuals having a similar geographical origin to be genetically close to each other. Based on the results, the genetic structure in Finland is clearly geographically clustered, which fits into what is known from earlier studies. The results were also similar to those observed by Gaspar and Breen: Both the methods identified the genetic substructure but GTM was able to recognize more subtle differences in ancestry between the geographically defined subgroups than PCA. For example, GTM discovered the group corresponding to the region of Northern Ostrobothnia to consist of four smaller separate subgroups, while PCA interpreted the individuals with a Northern Ostrobothnian origin to be genetically rather homogeneous. Locating these individuals on the map of Finland according to the birthplaces of their mothers reveals that they also make four geographical clusters corresponding to the genetic subpopulations detected by GTM. As a final conclusion I state that GTM is a noteworthy alternative to PCA for studying genetic population structure, especially when it comes to identifying substructures from a population that PCA may interpret to be genetically homogeneous. I also note that the reason why GTM generally seems to be capable of more fine-grained clustering than PCA, is probably that PCA as a linear model may cause more bias to the results than GTM which accounts for also non-linear relationships when transforming the data into a more interpretable form.