Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Tilastotiede"

Sort by: Order: Results:

  • Alatalo, Taija (2019)
    Kausaalisuus eli syy-seuraussuhteet tarkoittavat tapahtumien välisiä yhteyksiä, joissa toiset tapahtumat aiheuttavat toisia tapahtumia. Tällaisten kausaalipäätelmien tekeminen on keskeistä soveltavassa tilastotieteessä, sillä monesti tutkimuksissa ei olla kiinnostuneita pelkästään muuttujien välisistä korrelaatioista vaan nimenomaan syy-seuraussuhteista. Tilastotieteen piiriin onkin kehittynyt useita, eri tieteenaloilla sovellettavia kausaalipäättelyn suuntauksia, jotka korostavat kausaalisuuden eri osa-alueita. Tässä tutkielmassa esitellään kausaalitutkimuksen suuntauksista Pearlin kausaaliteoriaa ja rakenneyhtälömallien teoriaa. Pearlin kausaaliteoria tarjoaa kattavan matemaattisen perustan kausaaliyhteyksien analysoinnille. Se pohjautuu graafiteoriaan, ja siinä keskeisessä osassa ovat suunnatut silmukattomat graafit, joiden avulla kausaalisuhteet esitetään. Keskeisenä mielenkiinnon kohteena on kausaalivaikutusten määrittäminen. Sen selvittämiseksi, onko kausaalivaikutus yksiselitteisesti määriteltävissä eli identifioituvissa, on olemassa käteviä graafisia menetelmiä, joita voidaan soveltaa suoraan kausaaligraafiin ilman aineistoa. Rakenneyhtälömallit on kokoelma tilastollisia menetelmiä, joilla voidaan tutkia monimutkaisia, useiden muuttujien välisiä kausaalirakenteita. Rakenneyhtälömalleissa kausaaliyhteydet kuvataan rakenneyhtälöinä, jotka voidaan esittää havainnollisesti polkukaavioiden avulla. Tässä tutkielmassa keskitytään yleiseen rakenneyhtälömalliin, joka voidaan jakaa mittaus- ja rakenneosaan. Mittausmalli määrittää havaittujen ja ei-havaittujen muuttujien väliset yhteydet, kun taas rakennemalli määrittelee ei-havaittujen muuttujien keskinäiset yhteydet. Rakenneyhtälömallien teoriaa havainnollistetaan empiirisellä esimerkillä, jossa tutkitaan kognitiivisten prosessien eli ajattelutapojen vaikutusta työtyytyväisyyteen. Pearlin kausaalimallit ovat tunnettuja ja paljon sovellettuja epidemiologian puolella, kun taas käyttäytymis- ja yhteiskuntatieteiden puolella rakenneyhtälömallit ovat hallinneet tutkimuskenttää. Rakenneyhtälömalleista on puuttunut matemaattinen kieli, jolla rakenneyhtälöissä esiintyvää kausaali-informaatiota voitaisiin käsitellä. Pearlin kausaaliteoria tarjoaa tämän kielen rakenneyhtälömallien kausaaliväittämien tueksi.
  • Hirvonen, Jussi (2020)
    Kahden luokittelumuuttujan taulukko - lukumäärädata - on hyvin yleinen datatyyppi. Taulukoita on kaikkialla, ja yksinkertainen korrespondenssianalyysi on menetelmä taulukon rivien ja sarakkeiden yhteyksien analyysiin. Se on graafinen menetelmä, riippuvuudet kuvataan yleensä kaksiulotteisena karttana. Rivit ja sarakkeet esitetään samassa koordinaatistossa, jonka akselit tulkitaan rivien ja sarakkeiden sijainnin avulla. Tutkielmassa esitellään yksinkertaisen korrespondenssianalyysin peruskäsitteet data-analyysin avulla. Aineisto on valittu kansainvälisestä kyselytutkimuksesta ”ISSP 2012 - Family and Changing Gender Roles, International Social Survey Programme: Family and Changing Gender Roles”. Tutkielman alkuluvut esittelevät menetelmän perusteet kuuden maan ja yhden luokittelumuuttujan taulukon analyysin kautta. Taustamuuttujina on vastaajan ikä ja sukupuoli, jotka yhdistetään maa- muuttujan kanssa. Osajoukon korrespondenssianalyysistä siirrytään useiden muuttujien samanaikaiseen analyysiin. Taulukoita yhdistämällä voidaan tutkia kahden muuttujaryhmän välisiä yhteyksiä. Laajempaa 25 maan aineistoa käytetään seitsemän haastattelukysymyksen välisten yhteyksien analyysiin (multiple correspondence analysis MCA). Puuttuvat tiedot ovat aineistossa mukana omana vastauskategoriana. Tutkielmassa osoitetaan, että yksinkertainen korrespondenssianalyysi on pätevä menetelmä kahden luokittelumuuttujan taulukon riippuvuuksien hahmottamiseen. Tulkinnan perussäännöt pätevät myös monimutkaisemmissa asetelmissa. Puuttuneisuuden analyysi osajoukon korrespondenssianalyysin avulla (subset MCA) osoittaa, että menetelmä sopii hyvin isojen kyselyaineistojen tutkimukseen. Tärkeimpiä lähteitä ovat Michael Greenacren oppikirjat (Correspondence analysis in practice, Biplots in Practice) ja CARNE-verkoston konferenssijulkaisu (Greenacre, Michael, ja Jörg Blasius. Multiple correspondence analysis and related methods, 2006).
  • Peltonen, Pauliina Maria (2013)
    Tutkielmassa vertaillaan pienalue-estimointimenetelmien toimivuutta Tilastokeskuksen Kulutustutkimus 2006 -aineistossa. Vertailussa on mukana asetelmaperusteinen Hájek-estimaattori, asetelmaperusteinen malliavusteinen GREG-estimaattori sekä malliperusteinen EBLUP-estimaattori. Vertailu suoritetaan eri aluejaotteluilla (maakunta, seutukunta, kunta), jolloin tutkittavaksi tulee hyvin erikokoisia alueita. Kuntatasolla muutamista kunnista ei ole yhtään havaintoa aineistossa. Malliavusteiset ja -perusteiset pienalue-estimointimenetelmät vaativat hyvän, koko perusjoukon kattavan lisäinformaation saatavuutta. Lisäinformaatioksi tulee valita sellaisia muuttujia, jotka korreloivat mahdollisimman voimakkaasti valitun tulosmuuttujan kanssa, mutta jotka eivät korreloi keskenään (multikollineaarisuus). Lisäinformaation käytöllä havaitaan olevan merkittävä rooli pienalue-estimaattien täsmällisyyden parantamisessa. Asetelmaperusteiset estimaattorit ovat hyvin tehottomia menetelmiä pienten osajoukkojen tapauksessa. Tällöin sekä Hájek- että GREG-estimaattorit tuottavat estimaatteja, joiden keskivirhe on hyvin suuri. Malliperusteinen EBLUP-estimaattori sen sijaan on hyvin täsmällinen osajoukon koosta riippumatta. Tutkielmassa vertaillaan yleisen tason vertailun lisäksi myös analyyttisiä ja bootstrap-menetelmällä laskettuja estimaatteja sekä niiden estimoituja keskivirheitä. Tuloksista havaitaan, että EBLUP-menetelmän tuottamat analyyttiset keskivirhe-estimaatit ovat aivan liian optimistisia (kuntatasolla bootstrap-menetelmän tuottamat keskivirhe-estimaatit ovat keskimäärin 80 % suurempia kuin analyyttiset keskivirhe-estimaatit). Hájek- ja GREG-menetelmien osalta analyyttisten ja bootstrap-keskivirheiden vastaavuus on ilmeinen. EBLUP-estimaattorin osalta testattiin myös painokertoimien vaikutusta estimaatin keskivirheeseen. Vertailusta havaittiin, että painokertoimet kasvattavat estimaatin keskivirhettä varsinkin pienissä osajoukoissa. Painokertoimien huomioiminen kuitenkin parantaa tulosten yleistettävyyttä perusjoukon tasolle. Tutkielman lopuksi keskityttiin enemmän estimoitavaksi valitun indikaattorin sisältöön, ja visualisoitiin estimoituja tuloksia Statistics Explorer -ohjelmistolla. Indikaattorina käytettiin terveyskeskuspalveluista saatuja etuuksia, josta ensin estimoitiin kuntakohtaiset vuosikeskiarvot kotitaloutta kohti. Saatuja keskiarvoestimaatteja verrattiin kuntakohtaiseen sairastavuusindeksiin, jotta saaduista tuloksista voitaisiin tehdä jonkinlaisia johtopäätöksiä. Analyysia jatkettiin siten, että estimoitiin kuntakohtaiset etuustotaalit ja suhteutettiin ne kunnan perusterveydenhuollon toimintamenoihin. Tämän suhteen ajatellaan kuvastavan sitä, kuinka monikertaisina kunnan perusterveydenhuoltoon käyttämät menot palautuvat asukkaille etuuksina.
  • Pohjanpää, Kirsti (2012)
    Merkittävä osa länsimaisesta yhteiskunnallisesta tutkimuksesta ja tilastoinnista perustuu survey-tutkimuksiin. Jokainen otokseen valituksi tullut ei kuitenkaan syystä tai toisesta anna vastauksia tutkimuskysymyksiin. Vastauskato heikentää tutkimusaineiston laatua ja kasvattaa saatujen estimaattien virhettä. Tutkimus tehtiin, koska oltiin huolestuneita survey-tutkimusten kato-osuuksien kasvamisesta ja vastauskadon vaikutuksista tutkimusten laatuun. Tutkimuksella haluttiin selvittää (a) keitä ovat ne, joita emme tutkimuksilla saa kiinni, ja (b) vastaavatko tutkimuksiin osallistumattomat samalla tapaa kuin osallistuneet. Selvitys tehtiin lähettämällä osalle aikuiskoulutustutkimuksesta vuonna 2006 poisjääneille uusi kontaktipyyntö tasan vuoden kuluttua. Näin syntyi AKU-laatutututkimus. Tiedot kerättiin käynti- ja puhelinhaastatteluin keväällä 2007. Myös laatututkimuksesta kieltäytyneille esitettiin (jos mahdollista) muutama kysymys koskien tutkimuksiin osallistumista (ns. katohaastattelu). Tutkimuksen keskeisin tulos on, että jo kertaalleen tutkimuksesta suorasti tai epäsuorasti kieltäytyneitä voidaan lähestyä uudestaan hyvinkin onnistuneesti: 59 prosenttia suostui yhteistyöhön uuden kontaktin myötä. Lisäksi osoittautui, etteivät vastaamattomat juurikaan poikenneet vastanneista taustansa ja aikuiskoulutukseen osallistumisen suhteen. Laatututkimuksen tulokset eivät tue ajatusta vastauskatoon jääneiden huonommasta yhteiskunnallisesta asemasta. Lisäksi laatututkimukseen mukaan saadut ja siis vuotta aikaisemmin vastauskatoon kuuluneet suhtautuivat survey-tutkimukseen positiivisesti. Tutkimus kuuluu survey-tutkimuskenttään, ja se tuo lisää tietoa survey-tutkimuksissa pimentoon jäävästä joukosta: tutkimuskatoon kuuluvista.
  • Hautakangas, Heidi (2018)
    To better understand biology of complex traits, quantifying the contribution of different genetic factors is essential. Heritability is a population parameter that estimates the proportion of phenotypic variance explained by genetic factors. A recent goal in statistical genetics has been to estimate heritability from genome-wide association study (GWAS) data. GWAS have shown that a large number of genetic variants with small effects together affect complex traits. Because the individual effects are so small, a challenge of the GWAS is to achieve enough statistical power to detect the true associations. Statistical power has been increased by increasing the GWAS sample size, typically by a meta-analysis. In a meta-analysis, summary association statistics from multiple study cohorts are jointly analysed, and therefore it is often impossible to get access to the original individual-level data underlying the meta-analysis. In this thesis, I will study linkage disequilibrium score regression (LDSC), that estimates heritability by regressing GWAS summary statistics on linkage disequilibrium (LD) scores, that measure how much genetic variation each variant tags. Importantly, LD Scores can be estimated from a reference panel without requiring any individual-level data. Furthermore, I will study stratified LD Score regression (S-LDSC), that is an extension of LDSC for partitioning heritability by functional annotations. This thesis has three aims. First, to explain the statistics behind LDSC. Second, to evaluate the effect of LD reference panel on heritability estimation of lipid levels in the Finnish population by comparing an in-sample LD reference panel to external LD reference panels. Third, to partition the heritability of lipid levels in the Finnish population by functional annotations using S-LDSC. I applied LDSC and S-LDSC to the National FINRISK Study and used four lipid levels as quantitative phenotypes: high-density lipoprotein cholesterol (HDL-C), low-density lipoprotein cholesterol (LDL-C), triglycerides (TG) and total cholesterol (TC). As results, I observed that LDSC was robust to the choice of LD reference panel when applied to the Finnish population. Heritability estimates were consistent between different LD reference panels regardless of the LD mismatch. The highest heritability point estimates and the lowest point estimates of confounding biases were produced by the Finnish specific panels, though the differences were not statistically significant. In the heritability enrichment analyses, I replicated several previous findings: for example, I observed enriched heritability for many histone marks in all four lipid traits and enriched heritability for super enhancers for HDL-C, TC and TG.
  • Lääperi, Mitja (2015)
    Coronary heart disease (CHD) is one of the leading causes of death worldwide. Linear mixed models (LMMs) are presented in this thesis and they are applied to family data from the European Multicenter Study on Familial Dyslipidemias in Patients with Premature Coronary Heart Disease (EUFAM) -project. The data contain 23 quantitative traits relating to risk of CHD and roughly 28 million genetic variants. The data consist of nearly 1600 individuals from around 150 families. Linear mixed models are used when the data contain clustering or repeated measurements. In other words, when the observations are dependent. In the EUFAM data the observations come from families. In this case, the linear mixed models take the relatedness of the individuals into account. Linear mixed models are applied for both heritability estimation and genome-wide association testing in this thesis. Both in simulations and in the analyses with the EUFAM-data the need for LMMs can be seen. The LMM has more statistical power than the standard linear model when heritability exists in the data. The standard linear model also has inflated type I error rate. Both of these occur because the standard linear model does not take the relatedness of the individuals into account. For example, in the genome-wide analysis done for the EUFAM-data the standard linear model gives a massive amount of false positives when compared to the linear mixed model. The thesis proves the usefulness of and need for linear mixed models when analyzing family data.
  • Huang, Zhiyong (2012)
    In this master's thesis we present two important classes of regularized linear models -regularized least squares regression (LS) and regularized least absolute deviation (LAD). Use of regularized regression in variable selection was pioneered by Tibshirani (1996) and his proposed LASSO rapidly became a popular and competitive method in variable selection. Properties of LASSO have been intensively studied and different algorithms to solve LASSO have been developed. While the success of LASSO was acclaimed during the process, its limitations were noticed and a number of alternative methods have been proposed in subsequent research. Among all of theses methods, adaptive LASSO (Zou, 2006) and SCAD (Fan and Li, 2001) attempt to improve the efficiency of LASSO; LAD LASSO (Wang et al., 2007) assumes non-Gaussian distributed errors; ridge, elastic net (Zou and Hastie, 2005) and Bridge (Frank and Friedman, 1993) adopt penalties other than L1; while fused LASSO (Tibshirani et al., 2005) and grouped LASSO (Yuan and Lin, 2006) take extra constrains of data into account. We discuss LASSO in length in the thesis. Its properties in orthogonal design, singular design and p > n design are examined. Its asymptotic performance is investigated and its limitations are carefully illustrated. Another two commonly used regularization methods in LS - ridge and elastic net - are discussed as well. The regularized LAD is another focus of the thesis. As a robust statistic, LAD, which fits the conditional median rather than the conditional mean of the response, has a bounded influence function and a high conditional breakdown point. It is natural to use regularized LAD to do variable selection in presence of long-tailed errors or outliers in the response. Compared with LASSO, LAD LASSO does robust estimation and variable selection simultaneously. We make a simulation study and examine two real examples on the performance of these regularized linear models. Our results demonstrate that no single one estimate dominates others in all cases. The sparsity of the true model, the distribution of the noise, noise-to-signal ratio, the sample size and the correction of predictors, all these factors matter. When the noise has a normal distribution, LASSO, adaptive LASSO and elastic net often outperform others in prediction accuracy. Adaptive LASSO is the best in variable selection and elastic net tends to reveal less sparsity than LASSO. When the noise follows a Laplace distribution, LAD LASSO is competitive with LASSO but is less efficient than adaptive LASSO. For noises with extremely long-tailed distribution such as Cauchy distribution, LAD LASSO dominates others in both the prediction accuracy and variable selection.
  • Wallenius, Minna (2013)
    Tutkielman tavoitteena oli perehtyä avioeron todennäköisyyden tarkasteluun käytettyihin menetelmiin, tutkia millaisia tuloksia niillä saadaan suomalaisesta aineistosta ja arvioida niiden soveltuvuutta virallisiin tilastoihin. Virallisissa tilastoissa yleisesti käytetty eronneisuuden mittari on kokonaiseronneisuusluku, jonka on yleensä tulkittu kertovan kuinka suuri osa liitoista päättyisi eroon eronneisuuden pysyessä tarkasteluvuoden tasolla. Se ei kuitenkaan ole toimiva avioeron todennäköisyyden estimaatti. Luku ei huomioi aiempaa eroamishistoriaa, joten muutokset avioerojen ajoituksessa voivat vääristää lukua kohtuuttomasti. Kokonaiseronneisuusluvun perusteella puolet avioliitoista päättyisi Suomessa eroon. Siviilisäätyjen muutoksia voidaan ajatella prosessina, jossa henkilöt siirtyvät tilasta toiseen avioliittojen, avioerojen ja kuolemien takia. Tämän tyyppisiä ilmiöitä on tarkasteltu monen tilan elinajantauluilla, joissa keinotekoinen kohortti kuljetetaan eri ikävaiheiden läpi altistettuna tutkittavan ajanjakson ikäryhmittäisille siirtymien todennäköisyyksille. Tulosten tulkitaan kertovan mitä seuraisi, jos siirtymien todennäköisyydet pysyisivät kyseisen ajanjakson tasolla. Monitilaiset elinajantaulut ovat Markovin prosesseja, jos tilaan siirtymisen todennäköisyys riippuu vain sen hetkisestä tilasta ja iästä, muttei aiemmista tiloista eikä tilassa olon kestosta. Semi-Markov-prosesseissa myös nykyisessä tilassa vietetty aika vaikuttaa siirtymien todennäköisyyteen. Tutkielmassa verrataan avioliiton kestosta riippumatonta ja keston vaikutuksen huomioivaa mallia. Lisäksi tutkitaan ikäryhmittäin avioeron suhteellista riskiä liiton keston mukaan. Tutkielma rajoittuu naisten ensimmäisiin avioliittoihin ja niiden päättymiseen. Tulosten perusteella vuoden 2011 tilanteen pysyessä voimassa Suomessa naisten ensimmäisistä avioliitoista päättyisi eroon noin 39 prosenttia, jos oletetaan ettei liiton kestolla ole yhteyttä avioeron riskiin, ja hieman alle 41 prosenttia, jos keston merkitys huomioidaan. Avioeron suhteellinen riski käyttäytyy eri ikäryhmissä hieman eri tavoin, mutta on kaikissa korkea muutaman vuoden kestäneissä liitoissa. Tulokset ovat samansuuntaisia aiemman tutkimuksen kanssa. Avioliiton kesto on yhteydessä eron todennäköisyyteen, vaikka eroavaisuudet keston huomioivien ja siitä riippumattomien elinajantaulujen välillä eivät kaikissa tilanteissa ole suuria. Ikäryhmittäisten siirtymätodennäköisyyksien estimoinnissa käytettiin ns. lineaarisuusoletusta, joka voi tuottaa teoreettisesti mahdottomia arvoja, jos ryhmien keskimääräiset siirtymäintensiteetit ovat kovin suuria. Tässä tapauksessa näin kävi keston huomioivassa mallissa, jossa väestö ja siirtymät luokiteltiin moniin pieniin ryhmiin iän lisäksi avioliiton keston mukaan. Lineaarisuusoletusta käytetään sen heikkouksista huolimatta, koska sillä saadaan useimmiten mielekkäitä tuloksia ja se on helppo toteuttaa. Ilmeisistä puutteistaan huolimatta se tuotti tässäkin tapauksessa elinajantauluja, joista saatiin avioeron todennäköisyydelle järkeviä estimaatteja. Avioeron todennäköisyyttä onkin parempi estimoida monitilaisten elinajantaulujen avulla kokonaiseronneisuuslukujen sijasta.
  • Maunula, Nico (Helsingin yliopistoHelsingfors universitetUniversity of Helsinki, 2012)
    Pienalue-estimoinnilla tarkoitetaan erilaisten tunnuslukujen estimointia jonkin perusjoukon, eli populaation osajoukoille. Osajoukkoja on tavallisesti paljon, jolloin otoskoko pienenee. Nämä osajoukot voivat olla tyypiltään esim. maantieteellisiä tai sosiaalisia (esim. ikä-sukupuoli-rotu -ryhmittely). Pienalue-estimointimenetelmiä käytetään normaalisti aluetilastoihin ja otantaperusteisiin haastattelututkimuksiin. Tutkielmassani vertaillaan eri pienalue-estimointimenetelmien ominaisuuksien eroja teoreettisesti sekä soveltamalla kahteen eri aineistoon. Sovellettuja menetelmiä on kolme: otanta-asetelmaan perustuva HT-estimointi on yksinkertaisin ja karkein menetelmä, joka toimii vertailukohtana kahdelle muulle tilastollista mallia hyödyntävälle menetelmälle. GREG ja EBLUP -estimoinnit käyttävät erilaisia malleja tuomaan vahvaa lisäinformaatiota tehostamaan estimointia. Nämä menetelmät lainaavat voimaa , eli ne käyttävät hyödykseen myös muiden kuin tutkittavana olevan osajoukon alkioiden informaatiota. Ensimmäinen aineisto on synteettinen Länsi-Suomen läänin populaatiodata, johon menetelmiä sovelletaan simulatiivisesti. Data on monistettu koko populaatioksi oikeista havainnoista, joten kyseessä on siis fiktiivinen aineisto. Tulosmuuttujan (=kotitalouksien käytettävissä olevat tulot) oikeat arvot tunnetaan kaikilta perusjoukon havainnoilta, joka mahdollistaa menetelmien harhaisuuden tutkimisen. Tämä ei ole mahdollista oikealla otosaineistolla. Kaksi eri simulointitilannetta konstruoidaan: ensimmäisenä osajoukkomuuttujana on seutukunta, jolloin osajoukkoja on 36 kpl. Toisessa tilanteessa tutkitaan ikäryhmä-sukupuoli-seutukunta -jaottelua, jolloin osajoukkojen määrä kymmenkertaistuu ja otoskoot pienenevät dramaattisesti. Tarkastelussa ovat erityisesti estimaattorien suhteellinen harha ja keskineliövirhe (MSE) tuhannen simulaation yli. Tuloksista käy ilmi, että malliperusteinen EBLUP-estimaattori on erittäin harhainen, vaikkakin tarkka menetelmä (pieni MSE). Sen sijaan asetelmaperusteiset HT ja GREG -estimaattorit ovat likimain harhattomia, mutta epätarkkoja. Estimointi paranee, kun osajoukkojen otoskoko kasvaa. Tulokset tukevat teoriaa. Toinen data on empiirinen, oikean maailman aineisto; Tilastokeskukselta saatu EU-SILC -tutkimuksen Suomen otosaineisto vuodelta 2009. Aineisto kattaa vajaan 11 000 suomalaisen vastaukset erilaisiin hyvinvointi-, elinolo- ja tulokysymyksiin. Tutkittavaksi muuttujaksi valikoitui Tilastokeskuksen toiveesta ihmisten koettu toimeentulo, joka mittaa vastaajan subjektiivista näkemystä omasta toimeentulostaan (asteikolla 1-6). Tilastokeskuksen rekistereistä linkitettiin useita voimakkaita apumuuttujia aineistoon lisäinformaation lähteeksi. Estimaattoreiden keskivirheitä sekä tulosmuuttujan osajoukkokohtaisia keskiarvoja tutkitaan, vaikkakin koettua toimeentuloa ei tulkita ilmiönä. Osajoukkomuuttujina toimivat maakunta ja seutukunta. Tuloksista havaitaan samoja asioita, kuin simulatiivisessa tarkastelussa aiemmin; estimointi tehostuu, eli keskivirheet pienenevät, kun otoskoko kasvaa ja menetelmistä EBLUP on tarkin. Harhan vaara on kuitenkin muistettava EBLUP-estimaattorin kohdalla, vaikka sitä ei voidakaan laskea tässä tapauksessa. Tilastollisia malleja käyttävät menetelmät GREG, MGREG ja EBLUP ovat reilusti yksinkertaista HT-estimaattoria tarkempia. Vahvalla lisäinformaatiolla on siis selvä vaikutus estimoinnin parantumiseen. Lineaarisen sekamallin satunnaistermillä ei ole suurta vaikutusta estimointiin, sillä kiinteiden tekijöiden mallia käyttävä GREG ja sekamallia käyttävä MGREG ovat keskivirheitä tarkasteltaessa hyvin lähellä toisiaan. Myös tunnettujen osajoukkokokojen käyttöä tutkitaan ja käy ilmi, että tunnettuja osajoukkokokoja kannattaa hyödyntää estimoinnissa, mikäli mahdollista. Sovelluksissa onnistutaan tuottamaan mielenkiintoisia, pienalue-estimoinnin teoriaa tukevia tuloksia. Asetelmaperusteiset menetelmät (HT, GREG) ovat likimain harhattomia, mutta ovat epätarkkoja menetelmiä. Sen sijaan malliperusteiset menetelmät (EBLUP) ovat harhaisia, mutta tarkkoja menetelmiä. Voimaa lainaavien, epäsuorien estimaattoreiden avulla voidaan myös tuottaa estimaatteja osajoukoille, joissa ei ole yhtään havaintoa, joskin tulokset ovat luonnollisesti tällöin harhaisia. Parasta menetelmää ei voida yksiselitteisesti määrittää; toiset soveltuvat eri tilanteisiin paremmin kuin toiset. Täytyy myös tietää, millaisia tuloksia mieluummin halutaan; harhattomia vai tarkkoja. Yleisesti ottaen pienalue-estimointimenetelmät lisäävät otosaineistojen hyödyntämismahdollisuuksia ja ovat erinomaisia työkaluja alueellisten tunnuslukujen tuottamisessa.
  • Perälampi, Minna (2020)
    Tässä työssä aiheena on älypuhelin sähköpostikampanijoiden klikkausten mallintaminen ja ennus- taminen LightGBM algortimin avulla. Mainosten klikkaamisen ennustamista käytetään sähkö- posti markkinoinnin kohdentamiseen potentiaalisesti kiinnostuneille asiakkaille. Klikkaamisen en- nustamisessa käytetty aineisto haettiin DNA Oyj:n tietokannasta. Tutkielmani alussa esittelen mallinnuksessa käytettavan Gradient Boosting Decision Tree mallin seka siitä johdetun LightGBM mallin, jotka perustuvat päätöspuihin. Kerroen ensin lyhyesti päätöspuista, jonka jälkeen esittelen Gradient Boosting Decision Tree mallien teoreettisen taus- tan. Siirryn sen jälkeen esittelemaan LightGBM versiota, minkä yhteydessä esittelen myös sen toteutukseen liittyviä algoritmeja. Tämän jälkeen esittelen Bayesilaisen Optimointi menetelmän jolla hienosäädän mallin hyper parametreja. Seuraavaksi esittelen mallissa käytetyn aineiston. Aineistossa olevat muuttujat kuvaavat asiakkaan demograafisia tietoja, laitteita, internetin käyttöä, verkkokaupassa asioimista sekä ostoshistoriaa aikaisempien kampanijoiden läheyshetkellä. Tämän jälkeen käyn lapi mallin sovittamisen sekä mallin testaamiseksi toteutetun testikampanjan. Mallin arviointiin sovellettiin luokittelumenetelmiin sopivia mittareita. Arvioin mallin toimivuutta klikkausten ennustamiseen testikampanijasta saatujen tulosten perusteella. Lopuksi pohdin mallin ja menetelmän suorituskykyä. Mallin koulutusaineisto ei vastannut tele- operaattorin asiakaskantaa, minkä vuoksi mallin tulokset olivat huonot silloin kun sitä sovellettiin koko asiakaskantaan. Sovellettaessa koulutusaineistoa vastaavaan tilanteeseen mallin suorituskyky oli kohtuullinen. Mallia aioitaan kehittää jatkossa paremmaksi DNA Oyj:llä.
  • Mäklin, Tommi (2017)
    DNA sequencing has seen a rapid decrease in price during the last decade. As a result, routine sequencing of bacterial colonies in both clinical and environmental sources is becoming increasingly available. However, accurate identification of the bacterial strains colonizing a sample remains difficult especially in the presence of multiple organisms. Traditional methods based on culturing the bacteria are laborous and ineffective, while methods based on sequencing data have trouble differentiating between closely related variants of the species. Accurate identification of the species or strains contained in a sample would be desirable both in metagenomic studies and in improving the quality of hospital care. The aim of this thesis was to develop a computational method for accurate bacterial strain identification. Based on recent advancements in sequencing read alignment and application of Bayesian inference to bacterial strain identification, the thesis introduces a pipeline capable of rapid and accurate strain identification from high-throughput sequencing data. By representing the within-species variation with multiple reference genomes that have been clustered, the pipeline is able to accurately determine the cluster proportions in a sample from pseudoalignment of reads to the reference genomes. The proportions are estimated using a variational Bayesian method. Accuracy of the method is evaluated on both real and synthetic data containing reads originating from Staphylococcus aureus, Staphylococcus epidermidis, Klebsiella pneumoniae, Campylobacter jejuni and Campylobacter coli. In all cases the cluster proportions are accurately identified and performance is significantly better than that of existing methods.
  • Soininvaara, Katri (2017)
    In condition-based maintenance data is collected from a machine to provide advice on frequency and location of developing faults. Statistical inference is needed to transform the data into information on the health of the machine. The ultimate goal is to minimise the machine down-time due to unexpected breakage. Predictive maintenance attempts to forecast the condition of the machine components from the observed data, and to maintain the machine just before it breaks down. The research question this thesis aims to solve is how to diagnose and predict component health based on data collected from the machine. Based on the literature, hidden Markov model is selected for further study. There is usually uncertainty relating to the parameters and structure of the model due to the complicated causal relationships in the modelling problem. Therefore the thesis concentrates in finding a suitable inference algorithm which is able to learn the model from data. Six different frequentist and Bayesian algorithms are tested with a synthetic example. A hypothesis is put forward that a hybrid genetic variational Bayesian algorithm could be used to find the best performing hidden Markov model of component health. As expected, the hybrid variational algorithm performs better than the other examined algorithms, especially when there is uncertainty relating to the model structure. However, since there typically is an imbalance between the data depicting faults and the data depicting the normal behaviour, the simulated test case shows that even the best performing variational algorithm has difficulties in identifying the correct model. This results in increased uncertainty in the health predictions. The thesis confirms that the hidden Markov model has many good qualities for modelling component health based on remote monitoring data. Due to the versatility of the model, it can be modified to account for the many details of component degradation behaviour in different machines.
  • Bergman, Paula (2017)
    Imputoinnilla tarkoitetaan sellaisia tilastollisia menetelmiä, joiden tarkoitus on täydentää puuttuvuutta sisältävää aineistoa. Puuttuvuus on iso ongelma tutkimuksissa, ja usein puuttuvat havainnot ja jopa kokonaiset havaintorivit jätetään huomiotta analyysejä tehdessä. Tämä voi kuitenkin merkittävästi vääristää analyysien tuloksia. Tässä tutkielmassa esitellään erilaisia puuttuvuuden tyyppejä, käydään läpi puuttuvuuden mahdollisia syitä ja perehdytään erilaisiin imputointimenetelmiin. Imputointimenetelmien käyttöä havainnollistetaan esimerkeillä, jotka liittyvät GeneRISK-tutkimuksen perustietokyselyyn. GeneRISK-tutkimuksella pyritään selvittämään erityisesti sydän- ja verisuonitautien taustalla piileviä perinnöllisiä riskitekijöitä, sekä sitä, kuinka riskitiedon saaminen vaikuttaa yksilöiden myöhempään terveyskäyttäytymiseen. Puuttuvuuden tyyppi vaikuttaa imputointimenetelmän valintaan, ja tutkielmassa esitelläänkin niin täysin satunnainen, satunnainen, kuin ei-satunnainenkin puuttuvuus. Lisäksi sivutaan suunniteltua puuttuvuutta ja aineiston rakentamisvaiheessa syntyvää puuttuvuutta. Jos vastauksia puuttuu yksittäisiltä vastaajilta osasta kysymyksiä, on kyse erävastauskadosta, ja jos aineistosta puuttuu kokonaisia havaintorivejä, puhutaan yksikkövastauskadosta. Tutkielmassa keskitytään erävastauskatoon. Tutkielmassa käytetään GeneRISK-tutkimuksen Kymenlaakson sairaanhoito- ja sosiaalipalvelujen kuntayhtymä Carean perustietokyselyaineistosta 18.1.2016 jäädytettyä otosta, ja sieltä valikoituja 1278 havaintoriviä. Tutkielmaan valikoitiin kiinnostuksen kohteena oleviksi muuttujiksi ruokailuun ja liikuntatottumuksiin liittyviä muuttujia, sekä taustamuuttujia. Aineistosta poistettiin kaikki sellaiset rivit, jotka sisälsivät puuttuvuutta näissä muuttujissa, ja tämän jälkeen täydelliseen aineistoon simuloitiin eri tyyppisiä puuttuvuuksia. Puuttuvuutta pyrittiin korjaamaan niin yksinkertaisilla imputointimenetelmillä kuin kahdella erilaisella moni-imputointimenetelmälläkin. Yksinkertaisiin imputointimenetelmiin lukeutuu mm. mediaani-imputointi. Ehdollisten mallien moni-imputoinnin ja yhdistettyjen mallien moniimputoinnin on osoitettu kirjallisuudessa toimivan paremmin kuin yksinkertaisten imputointimallien, mutta tätä ei tässä tutkielmassa pystytty osoittamaan. Yhtenä syynä tähän saattaa olla kiinnostuksen kohteeksi valikoituneiden muuttujien väliset riippumattomuudet, sekä vastaajien keskinäinen samankaltaisuus. Edelleen hyvin yleinen tapa käsitellä puuttuvuutta on jättää se kokonaan huomiotta. Tutkielmassa kuitenkin huomataan, kuinka radikaaliin aineiston hupenemiseen se voi johtaa. Tutkielmassa osoitetaankin erityisesti se, kuinka tärkeää puuttuvuutta on tarkastella monelta eri kantilta aina puuttuvuuden syistä aineiston jatkokäyttötarkoituksiin asti.
  • Heikkilä, Mikko (2016)
    Probabilistic graphical models are a versatile tool for doing statistical inference with complex models. The main impediment for their use, especially with more elaborate models, is the heavy computational cost incurred. The development of approximations that enable the use of graphical models in various tasks while requiring less computational resources is therefore an important area of research. In this thesis, we test one such recently proposed family of approximations, called quasi-pseudolikelihood (QPL). Graphical models come in two main variants: directed models and undirected models, of which the latter are also called Markov networks or Markov random fields. Here we focus solely on the undirected case with continuous valued variables. The specific inference task the QPL approximations target is model structure learning, i.e. learning the model dependence structure from data. In the theoretical part of the thesis, we define the basic concepts that underpin the use of graphical models and derive the general QPL approximation. As a novel contribution, we show that one member of the QPL approximation family is not consistent in the general case: asymptotically, for this QPL version, there exists a case where the learned dependence structure does not converge to the true model structure. In the empirical part of the thesis, we test two members of the QPL family on simulated datasets. We generate datasets from Ising models and Sherrington-Kirkpatrick models and try to learn them using QPL approximations. As a reference method, we use the well-established Graphical lasso (Glasso). Based on our results, the tested QPL approximations work well with relatively sparse dependence structures, while the more densely connected models, especially with weaker interaction strengths, present challenges that call for further research.
  • Lapinlampi, George (2020)
    There’s a specific but sometimes quite a significant problem in time series modeling caused by changing means. First, the foundation behind the model addressing this problem is introduced in the form of the basic theory of Markov chains and problems related to hidden Markov chains. This approach builds on the ARMA (Autoregressive Moving average) model but is utilizing estimation methods from the areas not specifically dedicated to the time series analysis. The hybrid approach comprising Markov chains, EM (expectation-maximization) algorithm, and linear modeling may be well justified when the conventional methods do not seem to produce desired results and the modeler has competencies and means to attempt more sophisticated approaches. The literature review provides an insight into an earlier kind of models that have led to the development of the model investigated in this work. Finally, in the empirical part the model’s power is assessed against the conventional ARMA model. The modeling is performed on the simulated series in order to assess the functionality of the EM algorithm, to have a precise knowledge about real state variables, and to get an optimal comparison between a linear and non-linear models. The models are compared using multiple diagnostic procedures such as AIC (Akaike criterion), autocorrelation and partial autocorrelation functions, residuals variance, and other descriptive statistical measures.
  • Vantola, Eija (2020)
    Tavoitteena oli mallintaa ja ennustaa Euroopan maidon tuotantohintaa seitsemän eri muuttujan avulla. Muuttujiksi valittiin Euroopan maidon tuotantohinnan menneet arvot, Euroopassa tuotetun maidon määrä, Euroopan raakaöljyn hinta, Kiinan talouskasvu, Yhdysvaltojen ja maailman maidon hinnat sekä maailman rehun hinta. Lisäksi tutkittiin Venäjän asettamien tuontikieltojen ja Euroopan Unionin maidon tuotantokiintiöiden poistamisen vaikutusta maidon hintaan. Tutkielmassa käytettiin vektoriautoregressiivistä (VAR) -mallia mallintamaan eri muuttujan vaikutusta Euroopan raakamaidon hintaan sekä ennustamaan maidon hinnan kehitystä niiden avulla. VAR-mallit sopivat hyvin ennustamiseen sekä niiden avulla on mahdollista tutkia muuttujien dynaamista suhdetta toisiinsa. Aineistona meillä on 156 kuukausittaista havaintoa jokaiselta muuttujalta tammikuusta 2007 vuoden 2019 joulukuuhun asti. Käyttäen kuukausittaisia havaintoja, muuttujista rakennettiin VAR-malli ja mallin parametrit estimoitiin. Estimoituihin parametreihin ja estimoituun VAR-malliin liittyvät teoreettiset oletukset tarkistettiin ja mallin sisäistä dynamiikkaa tutkittiin. Lisäksi laadimme 12 kuukauden ennusteen. Tutkielmassa käytetyt hinnat ovat painotettuja keskiarvohintoja ja dollareina ilmoitetut havainnot muutettiin euroiksi käyttäen kuukausittaista vaihtokurssia. Käytössä oli myös 12 kausimuuttujaa mallintamaan kausivaihtelua ja kaksi ns. dummy-muuttujaa kuvaamassa Venäjän tuontikieltoa ja Euroopan Unionin maidon tuotantokiinti öiden poistumista. Valitulla VAR(2)-mallilla ennustettiin maidon hinnan kehitystä vuonna 2020 ja verrattiin saatua ennustetta todellisiin havaintoihin. Mallin ennustetarkkuus on erinomainen, se pystyy ennustamaan jopa Euroopan maidon hinnan kausivaihtelun. Yhdysvaltojen maidon hinnalla eikä Venäjän asettamilla tuontikielloilla ei havaita olevan vaikutusta Euroopan maidon hintaan. Sen sijaan Venäjän tuontikielloilla havaitaan olevan tilastollisesti merkitsevä negatiivinen vaikutus niin Kiinan talouteen kuin maailman rehun hintaan. Euroopan Unionin tuotantokiintiöiden poistolla todetaan olevan tilastollisesti merkitsevä positiivinen vaikutus Euroopan maidon hintaan ja Euroopassa tuotetun maidon määrään. Myös maailman maidon hinnalla on tilastollisesti merkitsevä vaikutus Euroopan maidon tuotantohintaan. Lisäksi raakaöljyn hinta osoittautuu tärkeäksi, koska Euroopan maidon hinta on altis talouden suhdannevaihteluille. Ennustavuuden puolesta malli sopii hyvin tarkoitukseen, mutta osa muuttujien välisestä dynamiikasta jää kuitenkin mallintamatta. Muuttujien välillä on havaittavissa selvää korrelaatiota, mikä vaikuttaa tilastollisten testitulosten luotettavuuteen. Mallia voisi parantaa vaihtamalla osan muuttujista. Lisäksi muuttujien vaikutusta ennustettavuuteen voisi verrata tekemällä suppeamman mallin ja verrata siitä saatua ennustetta tässä tutkimuksessa saatuun ennusteeseen. Mallin sisäisen dynamiikan mallintamisessa joku toinen menetelmä saattaisi olla parempi.
  • Danmei, Huang (2018)
    Type 1 diabetes is a genetically related disease. The immune system attacks the pancreas so that no insulin can be secreted to regulate the blood glucose level. The cause of the disease is still unknown. To study Type 1 diabetes, researchers have collected time series microarray data for thousands of genes from individuals divided into case and control groups. We aim to detect genes that show significant differences between cases and controls by analyzing the data. These genes may be used as biomarkers for Type 1 diabetes prediction in the future. We present 4 statistical methods for analyzing this Type 1 diabetes gene expression data, based on different considerations. We provide detailed introductions to the methods that are used in the analysis of the thesis. In particular, we show that Gaussian process regression is actually an extension of linear regression. The first method, standard linear regression, assumes both cases and controls follow the same linear model, except that the cases exhibit large variation at some time point. Those time points with large variation are also known as outliers. We can estimate their predictive distribution and calculate their p-values to check the significance. The second method, Bayesian linear regression, considers the variation of the point estimates (maximum likelihood) in the standard linear regression. We place priors on the parameters such that the uncertainty of the parameters can be integrated out. The estimates are generally more robust than the standard linear regression. The third method, Gaussian process regression, assumes both cases and controls follow the same non-linear model. This is in contrast to the linear model in the previous two methods. Gaussian process is a non-parametric model that is very flexible. The squared exponential kernel used in this thesis is able to model almost all smooth functions. After the fitting of the data, we can calculate the predictive distribution of data points of the cases. Then we can detect the outliers by checking their p-values. The fourth method, Gaussian process model comparison, models the difference between cases and controls as a whole. Cases may be systematically different to controls, or not. We use a shared model to model them jointly and an independent model to model them separately. After that we calculate the Bayes factor between the two models. If cases and controls are very similar, they will follow the shared model with a higher marginal likelihood. If they differ a lot, the independent model is preferred. We apply the above four methods to the microarray data, which contains 49386 genes for 6 case-control pairs. We find 4956, 661 and 2797 significant genes using the first three methods with Bonferroni corrections to the p-values. The numbers are 43276, 3584 and 25149 if we use Benjamini-Hochberg correction. The fourth method suggests 722 significant genes with the log Bayesian factor less than -5. We presents some example significant genes that show difference between cases and controls. They clearly show the expected difference between cases and controls. The example results suggest in general Gaussian process models fit the data better than linear regression models. The top hits (genes) provided by the methods remain to be validated by more biological experiments.
  • Zhao, Jie (2017)
    Dimension reduction presents expanding importance and prevalence since it lessens the challenge to data visualization and exploratory analysis that numerous science areas rely on. Recently, nonlinear dimension reduction (NLDR) methods have achieved superior performance in coping with complicated data manifolds embedded in high dimensional space. However, conventional statistic software for NLDR visualization purpose (e.g Multidimensional Scaling) often gives undesired desirable layouts. In this thesis work, to improve the performance of NLDR for data visualization, we study the recently proposed and efficient neighbor embedding (NE) framework and develop its software package in statistic software R. The neighbor embedding framework consists of a wide family of NLDR including stochastic neighbor embedding (SNE), symmetric SNE etc. Yet the original SNE optimization algorithm has several drawbacks. For example, it cannot be extended to other NE objective functions and requires quadratic computation cost. To address these drawbacks, we unify many different NE objective functions through several software layers and adopt a tree-based approach for computation acceleration. The core algorithm is implemented in C++ with an lightweight R wrapper. It thus provides an efficient and convenient package for researchers and engineers who work on statistics. We demonstrate the developed software by visualizing the two-dimensional layouts for several typical datasets in machine learning research including MNIST, COIL-20 and Phonemes etc. The results show that NE methods significantly outperform the traditional MDS visualization tool, indicating NE as a promising and useful dimension reduction tool for data visualization in statistics.
  • Haasio, Lassi Samuel (2016)
    Tutkielmassa selvitetään, johtuvatko suomalaisten yöunen pituuden muutokset mediassa faktoina esitetyistä väitteistä: 'ihmiset nukkuvat nykyään vähemmän kuin ennen' ja 'ihmiset nukkuvat ikääntyessään vähemmän'. Kummallakaan väitteellä ei ole tutkimukseen perustuvaa näyttöä, vaikkakin suomalaisten on havaittu nukkuvan keskimäärin vähemmän yössä kuin ennen. Keskimääräistä vähemmän unen voi selittää unen väheneminen ikääntyessä, jolloin Suomen vanheneva väestö nukkuisi keskimäärin vähemmän kuin ennen siksi, että Suomen väestö on keskimäärin vanhempaa kuin ennen. Yhtä lailla ihmisten yleinen yöunen määrän väheneminen ikään katsomatta voi selittää keskimääräisen yöunen pituuden vähenemisen. Todellisuus voi johtua kummasta tahansa, molemmista tai ei kummastakaan. Aineistona tutkielmassa käytetään Hjelt-instituutin keräämää kaksostutkimusaineistoa, jossa tutkimushenkilöiltä on kysytty vuosina 1975, 1981, 1990 ja 2011 useita terveyteen liittyviä kysymyksiä, muun muassa keskimääräistä yöunen pituutta. Aineisto on kerätty alun perin Suomen väestörekisteristä, ja tutkimushenkilöiden kaksosuus on selvitetty kyselylomakkeella. Yöunen pituutta mallinnetaan elinaikamalleihin kuuluvalla Weibull-regressiomallilla. Koska aineistossa on toistomittauksia samoilta henkilöiltä, käytetään kovarianssirakenteen mallintamiseen satunnaistermejä. Lisäksi aineisto koostuu yksinomaan kaksospareista, minkä aiheuttama kovarianssirakenne niin ikään mallinnetaan satunnaistermeillä. Tutkimushenkilöt ovat raportoineet unen pituutensa luvun sijaan aikavälinä, mikä huomioidaan mallintamalla havaintoja intervallisensuroituina. Tutkielmassa havaittiin sekä ikääntymisen että syntymäkohortin selittävän yöunen pituutta. Ikääntyminen 18–34-vuotiaasta 35–54-vuotiaaksi lyhentää yöunen odotuspituutta, mutta vanheneminen 35–54-vuotiaasta 55-vuotiaaksi tai vanhemmaksi ei enää lyhennä unen odotuspituutta. Vuosina 1920–1939 syntyneet ja 1940–1960 syntyneet nukkuvat vähemmän kuin vertailuryhmänä käytetyt vuosina 1880–1899 syntyneet. Sen sijaan vuosina 1900–1919 syntyneet eivät nuku tilastollisesti merkitsevästi vähemmän kuin vuosina 1880–1899 syntyneet. Tulos tukee mediassa esitettyä väitettä, mutta varsinaiset vähäisemmän unen aiheuttavat suorat syyt eivät ole selvillä, vaan tämän selvittäminen vaatii jatkotutkimuksia. Tuloksen perusteella uneen liittyvissä tutkimuksissa on syytä huomioida tutkimushenkilöiden ikä, sillä se vaikuttaa unen pituuteen.
  • Rand, Heidi (2018)
    Persoonallisuusteoreettiselta pohjalta tehty kyselylomake PRF, Personality Research Form, tutkii ihmisen persoonallisuuden ulottuvuuksia. PRF on tällä hetkellä Suomessa käytetyin persoonallisuustesti, jota käytetään useilla psykologian sovellusalueilla. Tutkimuksessa käytetty aineisto on peräisin Psykologien Kustannus Oy:n rekisteristä, ja aineisto on kerätty Työ- ja elinkeinoministeriössä (TEM) vuosina 2002-2008. Viime vuosina on huomattu, että PRF toistaa tilastollisesti melko hyvin viiden faktorin mallin, Big Five –persoonallisuusmallin, ulottuvuudet; ekstroversion, neuroottisuuden, tunnollisuuden, miellyttävyyden ja avoimuuden. Mittausinvarianssilla tarkoitetaan tilastotieteessä mitta-asteikkojen taustalla olevien rakenteiden samankaltaisuutta eri ryhmien välillä. Jos rakenteet eivät taustamuuttujaryhmissä vastaa toisiaan, ryhmien välisiä vertailuja ei voida luotettavasti tehdä, koska tällöin ei voida tietää, onko kyseessä todellinen ero ryhmien välillä vai ero mitta-asteikkojen rakenteessa. Ilmiöiden taustalla olevien latenttien faktoreiden rakenteita voidaan tutkia esimerkiksi konfirmatorisella faktorianalyysilla. Tässä tutkimuksessa on ensimmäiseksi tarkasteltu eksploratiivisen faktorianalyysin avulla, onko suomenkielisestä PRF:stä löydettävissä tilastollisesti toistettavissa oleva faktorirakenne. Lisäksi on tutkittu, voidaanko löytynyt rakenne nimetä Big Five –persoonallisuusteorian ulottuvuuksien mukaisesti. Tämän jälkeen konfirmatorista faktorianalyysia hyödyntäen on tutkittu, ovatko miesten ja naisten vastausten faktorirakenteet samanlaisia, ts. onko faktorirakenne invariantti sukupuolen suhteen. Kuten monissa kansainvälisissä tutkimuksissa on havaittu, myös suomenkielisestä PRF:stä on löydettävissä viisi latenttia ulottuvuutta, jotka voidaan nimetä Big Five –persoonallisuusteorian mukaisesti. Invarianssitutkimuksessa käytettiin moniryhmäfaktorianalyysia, jossa vertaillaan teoreettista mallia havaittuun malliin kahdessa tai useammassa ryhmässä. Asteittain rajoittamalla parametreja saatiin tulokseksi, että sekä heikko että vahva invarianssi toteutuvat aineistossa. Näin ollen miesten ja naisten vastausten faktorirakenteet ovat riittävän samankaltaisia jatkoanalyysien tekemistä varten.