Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Statistics"

Sort by: Order: Results:

  • Lilja, Eero (2018)
    Lasten asumis- ja huoltoriitoja on Suomessa tutkittu toistaiseksi vähän. Tutkielmaa varten on kerätty 593 havainnon aineisto pääkaupunkiseudun käräjäoikeuksien ratkaisemista vuosina 2004-2013 vireille tulleista riidoista. Tutkielmassa mallinnetaan huolto- ja asumisriidan voittajaa ja selvennetään isien ja äitien voittotodennäköisyyksien eroa aiempia tutkimuksia suuremman otoskoon avulla. Vastemuuttuja on luotu viisiportaisesti äidin ja isän voitoista, osittaisista voitoista ja tasapeleistä. Voittajaa tutkitaan erilaisilla osuustesteillä suhteessa taustamuuttujiin. Lisäksi mallinnetaan voittajaa logistisen regressionalyysin avulla, jossa vanhempien ikätietojen puuttuvat havainnot on impuitoitu. Voittajaa parhaiten ennustavan mallin valinnassa käytetään Bayesin informaatiokriteeriä. Havainnoista joka toisessa ei riidellä lapsen asumisesta, vaan riita koskee vain huoltomuotoa. Huolto- ja asumisriitoja analysoidaan pääsääntöisesti erikseen. Lasten asuminen muuttui lähes joka toisessa asumisriidassa. Valtaosassa huoltoriidoista äidit vaativat yksinhuoltoa ja isät yhteishuoltoa mutta suostuvat lasten asumiseen äidillä. Yksinhuolto määrättiin joka kolmannessa huoltoriidassa. Äidit voittivat useammin sekä asumis- että huoltoriidat. Informaatiokriteerin valitsemassa asumisriitamallissa oli selittävinä tekijöinä nuorimman lapsen ikä, tuomarin sukupuoli, lapsen vakiintunut tilanne, isän ulkomaalaistaustaisuus sekä toteennäytetty syytös väkivallasta, päihteistä tai mielenterveysongelmista. Huoltoriitamallissa tärkeimmiksi selittäjiksi nousivat ulkomaalaistaustaisuuden ja toteennäytettyjen syytösten lisäksi lisäksi syytökset vieraannuttamisesta ja mielenterveysongelmista sekä aiempi oikeuden päätös, joka heikensi isien voittotodenäköisyyttä. Äidit voittivat asumisriidan useammin, kun nuorin lapsi oli alle 7-vuotias. Isät voittivat todenn äköisemmin, kun nuorin lapsi oli yli 12-vuotias. Asumisriidoissa äidit voittivat selkeästi useammin miestuomarien ratkaisemat riidat, mutta vain hieman useammin naistuomarien ratkaisemat riidat. Lähivanhempi oli etulyöntiasemassa riippumatta siitä, oliko tämä isä vai äiti. Ulkomaalaistaustaiset isät voittivat riidan harvoin, mutta kantasuomalaisten välisissä riidoissa äidit ja isät voittivat riidan yhtä usein. Molemmat vanhemmat voittivat riidan lähes aina, kun heidän esittämänsä syytös väkivallasta, päihteistä tai mielenterveysongelmista oli näytetty toteen. Logistisessa regressioanalyysissä taustamuuttujat selittävät vastemuuttujan vaihtelusta noin kolmanneksen. Saatujen tulosten vahvistamiseksi olisi jatkotutkimuksissa syytä käyttää suurempaa aineistoa sekä saada kattavammin taustamuuttujia esimerkiksi väestörekisterien avulla.
  • Ryynänen, Heidi (2016)
    Väestölähtöisessä epidemiologiassa ollaan kiinnostuneita iän, periodin ja kohortin vaikutuksesta tarkasteltavaan tapahtumaan tai ilmiöön. Ikä-periodi-kohortti-ilmaantuvuusmalliin liittyy identifioitavuusongelma, mikä tarkoittaa sitä, että iän, kalenteriajan ja syntymäkohortin parametreja ei saada estimoitua perinteisellä päävaikutuksiin perustuvalla Poisson-regressiolla. Perinteinen frekventistinen identifioitavuusongelman ratkaisutapa on jättää pois kohortti, mutta tämä saattaa kuitenkin johtaa harhaiseen malliin. Toinen perinteinen ja usein käytetty frekventistinen identifoitavuusongelman ratkaisutapa on asettaa parametreille rajoituksia. Eri rajoitteet voivat kuitenkin tuottaa hyvin erilaisia estimaatteja iälle, periodille ja kohortille, joten tämä lähestymistapa ei ole ongelmaton. Bayesiläisessä lähestymistavassa sen sijaan ei tarvita lisärajoituksia, mikäli käytetään heikosti informatiivisia priorijakaumia. Bayesiläisessä lähestymistavassa päättely tehdään posteriorijakaumasta. Laskennallisesti tehokas menetelmä posteriorijakauman tunnuslukujen selvittämiseksi on integroitu upotettu Laplacen approksimaatio, sillä se on nopea ja riittävän tarkka. Rinta- ja kivessyövän analyysi toteutetaankin täten käyttäen integroitua upotettua Laplacen approksimaatiota. Priorijakaumina käytetään ensimmäisen ja toisen asteen satunnaiskävelypriorijakaumia. Hyperpriorijakaumina käytetään gamma-jakaumia eri parametrivalinnoin. Rintasyöpää ja kivessyöpää koskeva aineisto on saatu Suomen Syöpärekisteristä ja se kattaa vuodet 1971-2013. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta naisten rintasyövän sairastumisen vaaraan. Myöhemmillä ikäryhmillä rintasyövän ilmaantuvuus on suurta verrattuna ensimmäisiin ikäryhmiin. Myöhemmillä periodeilla riskisuhteet ovat suuria verrattuna ensimmäisiin periodeihin. Keskimääräinen periodivaikutus on 1.024, eli yhden kalenterivuoden lisäys kasvattaa naisten rintasyövän ilmaantuvuutta 2.4 % (Bayes-luottamusväli: 2.1 %, 2.6 %). Sen sijaan myöhemmillä kohorteilla riskisuhteet ovat pieniä verrattuna ensimmäisiin kohortteihin. Kohorttien riskisuhteissa on kuitenkin keskivaiheilla kohouma, jonka huippu osuu vuosina 1942-1946 syntyneiden naisten kohdalle. Rintasyövän kohdalla kaikissa malleissa tulokset ovat samansuuntaisia. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta kivessyöpävaaraan. Kivessyöpä on erityisesti nuorten miesten syöpä. Kivessyövän ilmaantuvuus on suurinta ikäryhmän 30-34 kohdalla. Myöhemmillä periodeilla on suuremmat riskisuhteet verrattuna aikaisempiin periodeihin. Keskimääräinen periodivaikutus on 1.025, joten yhden kalenterivuoden lisäys kasvattaa kivessyövän ilmaantuvuutta 2.5 % (Bayes-luottamusväli: 1.0%, 3.9 %). Kohorttien riskisuhteet laskevat ensimmäisestä kohortista kohorttiin 1957-1961 ja nousevat tämän jälkeen kohorttiin 1977-1981 asti, minkä jälkeen kohorttien riskisuhteet taas pienenevät. Rintasyöpä on naisten yleisin syöpä, ja syöpätapausten suuren määrän takia priorijakaumien ja hyperpriorijakaumien valinnalla ei ole kovin suurta vaikutusta rintasyövän tuloksiin. Kivessyöpä sen sijaan on harvinainen syöpä, joten priorijakaumien ja hyperpriorijakaumien valinnalla on melko suuri vaikutus kivessyövän tuloksiin. Erityisesti kivessyövän kohdalla eri malleissa on eroja periodin ja kohortin vaikutuksissa. Kun on kysessä mallit, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, periodilla on vähemmän vaikutusta kuin malleissa, joissa on toisen asteen satunnaiskävelypriorijakaumat. Toisaalta malleissa, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, kohortilla on enemmän vaikutusta kuin malleissa, joissa on toisen asteen satun-naiskävelypriorijakaumat. Toteutetun Bayes-mallinnuksen avulla voidaan arvioida aikaisempaa luotettavammin myös harvinaisten syöpien ikä-periodi-kohortti-malleja. Lisäksi Bayes-luottamusväleissä on tuotu parametrien epävarmuus paremmin mukaan kuin frekventistisellä lähestymistavalla.
  • Junes, Tara (2012)
    In the analyses performed for the Finnish subsample of European Community Household Panel (ECHP) it was noticed that unit nonresponse bias at the beginning of the panel faded away within time in the case of certain income variables. This kind of a research result would have substantial effects on the estimation based on panel studies and on the research arrangements. In practice the strengthening of the research result would mean that the estimates of panel studies would become unbiased in time. In that case it would be more supporting to use long panels instead of short-terms. The objective of this Thesis is to investigate the fade-away hypothesis with a different dataset and to show that the existence of the fade-away effect is not so straightforward as the results received earlier from the ECHP study pointed out. In this Thesis the main attention is given to the successor of the Finnish ECHP namely the Finnish subsample of EU Statistics of Income and Living Conditions (EU-SILC). EU-SILC is a panel study with rotational sampling design with a rotation period of four years. In this Thesis one rotation group whose register incomes come from the years 2005--2008 is selected for the analyses. The main analysis variable of this Thesis is disposable household equivalised income which is the total disposable household income adjusted by the household composition. To analyse the effects of unit nonresponse the dataset is divided into three groups with a different response profile. The transitions of the members of groups between income quintiles are examined with the help of empirical distributions and furthermore, the transitions are modelled with Markov chains. In this Thesis it is noticed that in the initial wave of the panel there is only a small amount of unit nonresponse bias. Here the initial wave refers to the year 2005. Within time the income distribution of the respondents into the quintiles computed from the actual sample becomes more biased which is caused by the panel attrition. Furthermore, it is shown with the modelling based on the Markov chains, that the unit nonresponse bias will increase after the four years analyse period. So, the estimates that have been computed from the analysed panel become unbiased in time which questions strongly the presented fade-away hypothesis.
  • Miettinen, Jani (2012)
    Internet-yhteyksien käyttö yleistyi Suomessa vuoden 1993 jälkeen, mistä lähtien Internetiä on alettu käyttämään yhä enemmän tiedonkeruun apuvälineenä. Apuvälineenä Internetiä käytetään sekä yhteydenotossa vastaajiin että vastauksien keruussa. Internetin avulla tehtyihin kyselytutkimuksiin liittyy edelleen paljon avoimia metodologisia kysymyksiä. Useimmiten perinteistä, satunnaistettua otoksen keruuta ei voida suorittaa, koska kehikkoperusjoukkoa ei pystytä määrittelemään. Tällöin joudutaan turvautumaan itsevalikoituneeseen verkkotiedonkeruuseen, jossa kyselyä mainostetaan avoimesti tutkimuksen kohteena olevalle ryhmälle ja vastaajat itse päättävät osallistuvatko kyselyyn vai eivät. Samalla Internet-populaation alipeitto voi aiheuttaa harhaa tutkimustuloksiin, jos tavoiteperusjoukkona on jokin suuri populaatio, jossa kaikki eivät käytä Internetiä. Tutkielman tavoite on antaa kuva verkkotiedonkeruun ajanmukaisista menetelmistä sekä erityisesti selvittää itsevalikoituneen verkkotiedonkeruun tilastollista metodologiaa, mahdollisuuksia ja rajoituksia. Tarkoituksena on myös selvittää, kuinka hyvin valikoituneen verkkokyselytutkimuksen harhan korjaaminen onnistuu ajanmukaisilla painotusmenetelmillä. Kyselytutkimusten vastauskadosta sekä valikoituneisuudesta johtuvaa harhaa voidaan korjata painotusmenetelmillä, jos vastauskadon mekanismia tai valikoitumismekanismia pystytään selittämään. Harhaa voidaan korjata sopivien apumuuttujien avulla, jotka korreloivat tulosmuuttujan tai osallistumispäätöksen kanssa. Apumuuttujien tiedot täytyy olla tiedossa sekä kyselyyn osallistujilta että ei-osallistujilta. Perinteisen todennäköisyysotantaan perustuvan aineiston vastauskadosta johtuvaa harhaa korjataan useimmiten jälkiosituspainoilla. Itsevalikoituneen verkkokyselytutkimuksen valikoitumisharhan korjaamiseen on esitetty kaksivaiheista painotusmenetelmää, jonka tarkoituksena on korjata harhaa, joka johtuu Internetin käyttömahdollisuudesta sekä itse osallistumispäätöksestä. Internetin käyttömahdollisuus voidaan mallintaa propensiteettipistemäärän avulla, jonka käänteislukua voidaan käyttää painokertoimena harhan korjaamiseksi. Osallistumispäätöksestä johtuvaa harhaa voidaan korjata tasaamalla aineiston apumuuttujien reunajakaumat vastaamaan populaation reunajakaumia. Tutkimuksessa tarkastellaan kolmea aineistoa. Kelan tutkimusosasto keräsi vuoden 2010 syyskuussa pilotin itsevalikoituneesta verkkokyselytutkimuksesta. Kyselyllä pyrittiin kartoittamaan Suomen 16–80-vuotiaiden kansalaisten yksityisten terveys- ja hammashoitopalvelujen hintatietoja ja tarpeita. Sama kysely lähetettiin myös otosperusteisesti Kelan työntekijöille. Molemmissa kyselyissä vastaukset kerättiin sähköisellä Internet-kyselyllä. Lisäksi tutkielmassa tarkastellaan TNS Gallupin otosperusteisesti Suomen kansalaisilta keräämään suppeampaa puhelinhaastattelukyselyä, jota käytettiin myös itsevalikoituneen aineiston kalibrointiaineistona. Kyselytutkimusaineistojen vastauskatoa korjattiin erilaisilla painotusmenetelmillä, joiden avulla pystyttiin tarkastelemaan kuinka hyvin eri painotusmenetelmät pystyvät korjaamaan valikoitumisesta johtuvaa harhaa. Otosperusteisia verkkokyselytutkimuksia korjattiin jälkiosituspainoilla ja painotuksissa onnistuttiin hyvin, koska aineistossa ei ollut suurta valikoituneisuutta. Itsevalikoituneen verkkokyselytutkimuksen painotuksessa jouduttiin kohtaamaan paljon ongelmia, koska aineisto oli suuresti valikoitunut, ja siinä oli paljon vastauskatoa. Itsevalikoituneen aineiston valikoitumisen harhaa onnistuttiin kuitenkin osaksi korjaamaan, ja osa tulosmuuttujien jakaumatiedoista vastasi lähes otosperusteisen kyselytutkimuksen jakaumatietoja. Tutkimuksen keskeisin tulos oli, että vaikka verkkokyselyn tekeminen on halvempaa ja vähemmän työläämpää kuin otosperusteisen kyselytutkimuksen tekeminen, verkkokyselytutkimuksen suunnitteluun on panostettava entistä enemmän. Itsevalikoituneen verkkokyselytutkimuksen keruussa on suunniteltava tarkemmin kyselyn mainostaminen vastaajaehdokkaille, jotta valikoitumisesta johtuvaa harhaa voidaan paremmin hallita. Tutkimuksessa kävi myös ilmi, että sekä asennetta ja käyttäytymistä kuvaavia kysymyksiä on tärkeä olla kyselytutkimuksissa mukana, koska näiden avulla pystytään selittämään paremmin valikoitumisesta johtuvaa harhaa, kuin pelkästään sosiodemografisten muuttujien avulla.
  • Vihtola, Ismo (2017)
    Tutkimuksessa haluttiin selvittää, millä pelin osa-alueilla Suomen miesten jalkapallomaajoukkueen edesottamukset poikkesivat vastustajiinsa nähden karsittaessa vuoden 2016 Euroopan mestaruus lopputurnaukseen. Tutkimuksen tarkoituksena oli luoda menetelmä, jossa tilastolliseen analyysiin perustuen voidaan osoittaa pelin yksittäiset osa-alueet, joissa joukkue suoriutuu vastustajaansa paremmin tai huonommin. Menetelmän tuottaman informaation avulla voidaan toimenpiteet kohdistaa osa-alueisiin, joilla on eniten vaikutusta ottelun lopputuloksen kannalta. Tutkimuksessa selvisi että Suomen maajoukkueella ei ollut vastustajiinsa nähden selkeää etua millään pelin osa-alueella, joita tutkimuksessa mitattiin. Sen sijaan Suomen maajoukkue oli vastustajaansa selkeästi huonompi sekä erikoistilanteissa että maalintekoyrityksissä, joissa maalintekoa yritettiin puskemalla päällä. Tutkimuksen lopputuloksena luotiin myös menetelmä, jossa pelin eri osa-alueiden vaikutus lopputulokseen nähden on kvantitatiivisesti mitattavissa. Tälläistä menetelmää ei löytynyt tutkimusta valmisteltaessa, joten se luotiin osana tutkimusta. Menetelmän kantava ajatus on pelin kuvaaminen käänteisen prosessin mallina, jossa jalkapallopeli pilkotaan pienempiin kokonaisuuksiin, joiden mittaaminen on mielekästä ja mahdollista kvantitatiivisten menetelmien avulla.
  • Buchwald, Jadwiga (2015)
    Lineaariset sekamallit mahdollistavat jatkuvaluonteisen vastemuuttujan mallintamisen yksilötason kiinteillä tekijöillä ja ryhmäkohtaisilla satunnaisilla tekijöillä. Mallin kiinteät tekijät selittävät vastemuuttujan systemaattista vaihtelua, kun taas mallin satunnaiset tekijät selittävät vastemuuttujan satunnaisvaihtelua. Mallin satunnaisosan avulla voidaan arvioida ryhmien sisäisen ja välisen vaihtelun luonnetta. Tällainen aineistossa vallitsevien kovarianssirakenteiden huomioiminen mahdollistaa löydetyn mallin yleistämisen myös sellaisiin ryhmiin, joiden havaintoja eli mittaustuloksia ei käytetty mallia muodostettaessa, mutta joiden ajatellaan kuuluvan samaan perusjoukkoon. Tässä pro gradu -tutkielmassa esitetään lineaaristen sekamallien teoriaa ja näytetään, miten lineaarisia sekamalleja voidaan soveltaa järvien kasviplanktonin tilan arvioinnissa. Päätavoitteena oli selvittää, miten järvien kasviplanktonin tilan arviointia ja seurantaa voitaisiin tehostaa lineaarisilla sekamalleilla. Runsasjärviselle Suomelle kattava järvivesien tilan seuranta on haasteellista, ja valitettavasti tärkeiden biologisten muuttujien seuranta on monin paikoin puutteellista. Järvien tilan arvioinnissa käytetään luokittelua, joka tehdään kuuden vuoden välein. Tutkimuksessa keskityttiin tarkastelemaan yhtä luokittelussa käytettyä biologista laatutekijää kasviplanktonia ja sen kolmea luokittelumuuttujaa, joista on olemassa niukemmin mittauksia. Kullekin muuttujalle muodostettiin lineaariset sekamallit olemassa olevan aineiston pohjalta. Selittäjinä malleissa oli aineistossa kattavammin edustettuja muuttujia. Tarkoituksena oli selvittää, voidaanko näiden kolmen tärkeän muuttujan arvoja estimoida luotettavasti lineaarisilla sekamalleilla kun suorat mittaukset puuttuvat. Tällöin järvikohtaiset arviot kasviplanktonmuuttujien tilasta perustuisivat kattavampaan aineistoon, ja entistä useammalle järvelle saataisiin laskettua kyseiset arviot luokittelua varten. Lisäksi tavoitteena oli selvittää, mitkä muuttujat selittävät muuttujien systemaattista vaihtelua, ja mitkä tekijät vaikuttavat muuttujien satunnaisvaihteluun ja miten. Tutkimusta varten muodostettiin vuodet 2006—2012 kattava havaintopaikka- ja päivämääräkohtainen paneeliaineisto Suomen järvien kasviplankton- ja fysikaalis-kemiallisten muuttujien havaintoarvoista. Jotta mahdollisimman moni puuttuva arvo saatiin täydennettyä estimaatilla, käytettiin kaksivaiheista mallinnusta. Puuttuvat arvot täydennettiin ensin parhaan mallin antamilla estimaateilla, jonka jälkeen mallista rajattiin sellainen selittäjä pois, josta oli vähiten havaintoarvoja, ja loppuja puuttuvia arvoja täydennettiin rajatun mallin estimaateilla. Kaikille kolmelle vastemuuttujalle löydettiin luotettavat lineaariset sekamallit ja muuttujista olevien arvojen määrä saatiin nelinkertaistettua. Edustettujen vesimuodostumien määrää saatiin kasvatettua viidenneksellä. Satunnaisosan perusteella muuttujien satunnaisvaihtelua selittää enimmäkseen vuosi, mutta yhden muuttujan kohdalla myös kuukaudella näyttäisi olevan vaikutusta. Koska muuttujien havaintoarvot saadaan samoista näytteistä, tutkimus alleviivaa sekä vuosi- että kuukausiedustuksen tärkeyttä näytteenotossa. Ennen kaikkea tässä tutkielmassa osoitetaan, että lineaarisilla sekamalleilla voidaan saavuttaa kattavampaa järvien tilan arviointia tuottamalla täydentäviä estimaatteja luokittelussa käytetyistä tärkeistä muuttujista niille järville, joista mittaukset puuttuvat tai ovat vähäiset.
  • Hämäläinen, Auli (2019)
    Surveytutkimuksessa saadaan harvoin kerättyä täydellisen edustavaa aineistoa tavoitellulta vastaajajoukolta. Lähes aina osa vastauksista tai vastaajista jää puuttumaan. Puuttuneisuudella voi olla suuri merkitys aineiston tilastollisen analyysin kannalta. Se vähentää aineistosta laskettavien estimaattien tarkkuutta ja voi pahimmillaan myös aiheuttaa harhaa estimaatteihin. Otantatutkimuksessa virhettä tulee lisäksi itse otannasta. Puuttuneisuudesta ja otannasta johtuvia virheitä surveyaineistossa pyritään usein korjaamaan aineiston uudelleenpainotuksella. Tässä työssä on tutkittu kalibrointiin ja vastaustaipumuksen mallintamiseen perustuvien uudelleenpainotusmenetelmien vaikutusta estimoinnin laatuun, kun otosaineistosta halutaan estimoida erilaisten tutkimusmuuttujien keskiarvoja perusjoukossa. Näiden kahden eri lähestymistavan vertailun lisäksi on haluttu tutkia, voisiko vastaustaipumusmallilla tuotettuja painoja parantaa kalibroimalla (eli muodostamalla ns. yhdistelmäpainot). Käytetty tutkimusaineisto on peräisin Suomessa vuosien 2009 ja 2010 taitteessa toteutetusta EU-rikosuhritutkimuksen pilottivaiheesta. Aineisto sisältää erilaisten rikosten kohteeksi joutumiseen ja turvallisuuden tunteeseen liittyviä muuttujia. Rikosuhritutkimuksessa kerätty otosaineisto on tätä tutkimusta varten monistettu koko populaatiota edustavaksi synteettiseksi dataksi. Synteettisestä perusjoukosta on poimittu satunnaisotoksia jäljitellen aitoa otantatutkimuksen tilannetta. Eri tavoin painotetuista otoksista laskettuja estimaatteja on verrattu toisiinsa sekä tunnuslukujen oikeisiin arvoihin perusjoukossa. Painojen muodostuksessa ja tunnuslukujen estimoinnissa on käytetty SAS-ohjelmistoa. Kalibrointipainot on laskettu käyttämällä Calmar 2-nimistä SAS-makroa, jonka voi ladata ilmaiseksi Ranskan kansallisen tilasto- ja taloustutkimuslaitoksen INSEEn internetsivuilta. Estimoinnin tulosten perusteella voidaan todeta, että uudelleenpainotuksella pystyttiin parantamaan estimoinnin laatua lähes kaikkien tarkasteltujen muuttujien kohdalla. Kaikki painotusmenetelmät eivät kuitenkaan toimineet kaikissa tilanteissa yhtä hyvin. Estimoitaviksi oli tarkoituksella valittu eri tyyppisiä muuttujia. Toiset muuttujista olivat helpompia estimoitavia, eli painotuksella päästiin lähelle estimoitavan muuttujan oikeita arvoja. Osa muuttujista oli kuitenkin sellaisia, joiden kohdalla mikään uudelleenpainotus ei tuonut kovin hyviä estimointituloksia, vaan estimaatteihin jäi reilusti harhaa. Estimointituloksissa näkyi selviä eroja vertailtavien menetelmien välillä. Useimpien muuttujien kohdalla parhaat estimointitulokset saatiin yhdistelmäpainoilla. Yhdistelmäpainojen etu on se, että niissä yhdistyy yksilö- ja makrotason lisäinformaation hyödyntäminen estimoinnin harhan korjaamisessa. Myös puhtailla kalibrointipainoilla saatiin joidenkin muuttujien tapauksessa muita parempia tuloksia, mutta kyse oli sellaisista muuttujista, joiden kohdalla parhaatkaan estimaatit eivät olleet kovin harhattomia. Vastaustaipumusmallinnukseen perustuva menetelmä toimi yleisesti ottaen hyvin, mutta yhdistelmäpainot olivat yleensä vähän paremmat, eli kalibroinnista oli apua. Kalibroinnin kanssa on kuitenkin noudatettava varovaisuutta, koska sillä voidaan pahimmillaan myös huonontaa estimaattien laatua, kuten yhdessä esimerkkitapauksessa näkyi. Lähes kaikkien muuttujien kohdalla estimaatteihin jäi uudelleenpainotuksenkin jälkeen vielä harhaa, joten menetelmien suhteen jäi vielä parannettavaa. Kehitettävää voi löytyä vastaustaipumuksen mallinnuksessa itse mallista. Kalibroinnin tapauksessa on huomattava, että vaikka menetelmällä saadaan reunajakaumat täsmäämään, se ei kuitenkaan takaa, että itse tutkimusmuuttujat estimoituisivat hyvin. Uudelleenpainotuksessa on myös oletettu, että puuttuvuus voidaan selittää käytettävissä olevilla taustamuuttujilla, ja ettei se riipu tutkittavista muuttujista. Näin ei kuitenkaan välttämättä aina ole.
  • Poropudas, Jirka (2011)
    The Thesis presents a state-space model for a basketball league and a Kalman filter algorithm for the estimation of the state of the league. In the state-space model, each of the basketball teams is associated with a rating that represents its strength compared to the other teams. The ratings are assumed to evolve in time following a stochastic process with independent Gaussian increments. The estimation of the team ratings is based on the observed game scores that are assumed to depend linearly on the true strengths of the teams and independent Gaussian noise. The team ratings are estimated using a recursive Kalman filter algorithm that produces least squares optimal estimates for the team strengths and predictions for the scores of the future games. Additionally, if the Gaussianity assumption holds, the predictions given by the Kalman filter maximize the likelihood of the observed scores. The team ratings allow probabilistic inference about the ranking of the teams and their relative strengths as well as about the teams’ winning probabilities in future games. The predictions about the winners of the games are correct 65-70% of the time. The team ratings explain 16% of the random variation observed in the game scores. Furthermore, the winning probabilities given by the model are concurrent with the observed scores. The state-space model includes four independent parameters that involve the variances of noise terms and the home court advantage observed in the scores. The Thesis presents the estimation of these parameters using the maximum likelihood method as well as using other techniques. The Thesis also gives various example analyses related to the American professional basketball league, i.e., National Basketball Association (NBA), and regular seasons played in year 2005 through 2010. Additionally, the season 2009-2010 is discussed in full detail, including the playoffs.
  • Tiihonen, Petri (2013)
    Opinnäytetyön tavoitteena on tutkia aineiston katkaisun ja sensuroinnin vaikutusta elinaika-analyysissa. Asiaa käsitellään mallintamalla infektion luonnollista kulkua. Analyysit tehdään simuloitujen aineistojen avulla, jotka jäljittelevät HIV-infektion kehittymistä aidsiksi ja HPV- eli papilloomavirusinfektion paranemista. Simuloitujen aineistojen käsittelyn lisäksi määritetään aidsin puhkeamisajan sekä HPV-infektion paranemisajan jakaumat aidoista aineistoista. Tutkielman aihe pohjautuu Terveyden ja hyvinvoinnin laitoksen (ent. Kansanterveyslaitos) vuonna 2008 asettaman työryhmän tutkimukseen, jossa selvitettiin HPV-rokotteen mahdollista käyttöönottoa kansallisessa rokotusohjelmassa. HPV aiheuttaa muun muassa kohdunkaulan muutoksia ja sitä kautta kohdunkaulan syöpää. Aikaisemmin infektion paranemisesta on tehty analyysejä aggregoidun aineiston perusteella ja nyt sen tuloksia verrataan yksilötason aineistosta estimoituihin tuloksiin. Infektion etenemistä kuvaavan jakauman estimointia varten muodostetaan uskottavuusfunktiot sekä katkaistun että sensuroidun aineiston tilanteessa. Uskottavuusfunktiota simuloidaan Metropolisin ja Hastingsin algoritmilla, jolloin saadaan jakaumat estimoitaville parametreille. Katkaistut ja sensuroidut aineistot ovat tyypiltään erilaisia. Katkaistuun aineistoon valikoituu vain tutkimuksen keston mukaisia tapauksia ja ääritapaukset jäävät usein kokonaan pois. Aineiston mahdollinen harha pystytään eliminoimaan oikeanlaisella uskottavuusfunktion määrittelyllä. Käytettävissä olevaa informaatiota on sensuroidun aineiston tilanteessa enemmän kuin katkaistussa aineistossa, mutta oikeanlaiset menetelmät ovat silloinkin avainasemassa. Simuloidun katkaistun aineiston tapauksessa estimoitiin sekä taudin puhkeamisajan jakauman parametrit että infektoitumisen intensiteetti. Lukumäärältään pieni tai seuranta-ajaltaan lyhyt aineisto hankaloittaa etenkin infektoitumisen intensiteetin ja jakauman skaalaparametrin estimointia. Mallin identifioituvuutta voidaan parantaa käyttämällä priorijakaumaa infektoitumisen intensiteetille. Aids-aineiston avulla estimoitu yli 60-vuotiaiden taudin puhkeamisajan jakauma ei identifioidu ilman lisäoletuksia. Parametrien estimoiminen vaatii tarkan prioritiedon infektoitumisen intensiteetistä. Simuloiduilla sensuroiduilla aineistoilla estimoitiin infektion paranemisajan jakauman parametrit. Jakauman oikeaa muotoa ei saada estimoitua, jos sensuroinnin testausvälit ovat liian pitkät. HPV-infektion kaltaisessa tilanteessa testausvälin tulee olla korkeintaan kuusi kuukautta. Maltillinen osallistumiskato testeissä ei hankaloita estimointia, vaikka testausvälit siten paikoitellen pitenevät. Käytetyn roketetutkimusaineiston avulla estimoitiin HPV-infektion paranemisajan jakaumat nopeasti ja keskinopeasti paraneville virustyypeille. Tulokset vastaavat aikaisemman tutkimuksen tuloksia, jossa infektion paranemista estimoitiin aggregoidusta aineistosta. Hitaasti paranevan virustyypin osalta paranemisajan jakauman parametrien estimaatit jäävät epävarmoiksi.
  • Sanz, Aune (2019)
    Vanhempien eroaminen koskettaa vuosittain noin 30 000 lasta, joiden oikeutta luoda ja säilyttää myönteinen ja läheinen suhde etävanhempaansa turvataan tapaamisoikeuden avulla. Tästä sopimuksesta tai tuomioistuimen päätöksestä huolimatta tapaamiset eivät aina toteudu, jolloin tapaamisoikeuden täytäntöönpanon kautta voidaan velvoittaa lapsen kanssa asuvaa vanhempaa sallimaan lapsen ja toisen vanhemman väliset tapaamiset tai yhteydenpito niiden mukaisesti. Tapaamisoikeuden täytäntöönpanoasiat muodostavat alle prosentin kaikista lapsen huoltoa ja tapaamisoikeutta koskevista riidoista ja yleensä täytäntöönpanoasiat päättyvät sovintoon. Harvalukuisuudestaan huolimatta riitaisilla asioilla, joissa tuomioistuin hylkää tai hyväksyy täytäntöönpanohakemuksen, on kuitenkin merkittävä vaikutus niin lapsiin, vanhempiin, perheisiin kuin yhteiskuntaankin käsittelyn ja ratkaisun kautta. Vaikka kyseessä on riita-asia, vain noin puolessa tapauksista hävinnyt osapuoli korvaa voittaneen oikeudenkäyntikulut. Tässä tutkielmassa pyritään kertymä-logit-mallin avulla tarkastelemaan, miten sellaiset seikat kuten täytäntöönpanoasian taustat, sovittelu, syytökset, lapsen tahto ja hakijan sukupuoli vaikuttavat käräjäoikeuden tulkintaan riidasta ja erilaisten lopputulosten todennäköisyyteen, kun huomioon otetaan täytäntöönpanon lisäksi oikeudenkäyntikulujen korvaaminen. Mallin oletusta verrannollisista vetokertoimista testataan kullekin selittäjälle erikseen. Aineistona käytetään Suomen käräjäoikeuksien tapaamisoikeuden täytäntöönpanopäätöksiä vuosilta 2000- 2018, joista osa on kerätty tutkielman yhteydessä. Lisäksi tutkielmassa avataan täytäntöönpanoasioiden käsittelyä, sekä siihen liittyviä käsitteitä ja ilmiöitä, kuten lapsen etua, vieraannuttamista ja sukupuolittuneita käsityksiä muun muassa lähi- ja etävanhemmuudesta. Valitun mallin perusteella hakijan sukupuoli ei vaikuta siihen, miten perustelluksi hakemus on nähty ja miten räikeäksi tapaamisoikeuden rikkomus tulkittu. Sen sijaan vanhemman toteen näytetyt syytökset vieraannuttamisesta, lapseen kohdistuneesta tuomitusta teosta, päihde- tai mielenterveysongelmasta, kasvatuskyvystä tai rikoksesta nostavat tälle vanhemmalle edullisemman lopputuloksen todennäköisyyttä. Tapaamisia vastustavien lasten ikä nostaa vastaajalle voitokkaamman lopputuloksen todennäköisyyttä. Vaikuttaisi kuitenkin siltä, että lapsen vastustus johtaa pikemminkin hakemuksen hylkäämiseen, kuin vastaajan oikeudenkäyntikulujen korvaamiseen. Kun vastaaja kiistää tapaamisoikeuden rikkomisen, erityisesti todennäköisyys, että hävinnyt hakija lisäksi korvaa hänen oikeudenkäyntikulunsa, kasvaa. Muita lopputulokseen vaikuttavia tekijöitä ovat sovittelijan tulkinta vastaajan myötävaikuttamisesta tapaamisiin, hakijan ulkomaalaisuus ja oikeudenkäyntiavustaja, vastaajan hakeman perustepäätöstä koskevan asian vireilläolo, vanhan uhkasakon maksettavaksi hakeminen sekä vastaajan tekemät syytökset kasvatuskyvystä tai rikoksista, jotka eivät kohdistu lapseen. Mallin selittäjien vaikutukset ovat uskottavia ja ymmärrettävissä, ja malli sopii aineistoon. Mallin ennustuskyky ei kuitenkaan ylitä hyvin ennustavan mallin rajaa, eikä verrannollisten vetokertoimien oletus pätenyt kaikkien malliin valikoituneitten selittäjien osalta. Toisenlaisen mallin, oletusta tukevien interaktiomuuttujien tai eri linkkifunktion kokeilemista voisi harkita. Tämän lisäksi voisi perehtyä enemmän siihen, mitkä taustat ja aikaisemmat lopputulokset ovat ominaisia uusiutuville riidoille.
  • Peltonen, Pauliina Maria (2013)
    Tutkielmassa vertaillaan pienalue-estimointimenetelmien toimivuutta Tilastokeskuksen Kulutustutkimus 2006 -aineistossa. Vertailussa on mukana asetelmaperusteinen Hájek-estimaattori, asetelmaperusteinen malliavusteinen GREG-estimaattori sekä malliperusteinen EBLUP-estimaattori. Vertailu suoritetaan eri aluejaotteluilla (maakunta, seutukunta, kunta), jolloin tutkittavaksi tulee hyvin erikokoisia alueita. Kuntatasolla muutamista kunnista ei ole yhtään havaintoa aineistossa. Malliavusteiset ja -perusteiset pienalue-estimointimenetelmät vaativat hyvän, koko perusjoukon kattavan lisäinformaation saatavuutta. Lisäinformaatioksi tulee valita sellaisia muuttujia, jotka korreloivat mahdollisimman voimakkaasti valitun tulosmuuttujan kanssa, mutta jotka eivät korreloi keskenään (multikollineaarisuus). Lisäinformaation käytöllä havaitaan olevan merkittävä rooli pienalue-estimaattien täsmällisyyden parantamisessa. Asetelmaperusteiset estimaattorit ovat hyvin tehottomia menetelmiä pienten osajoukkojen tapauksessa. Tällöin sekä Hájek- että GREG-estimaattorit tuottavat estimaatteja, joiden keskivirhe on hyvin suuri. Malliperusteinen EBLUP-estimaattori sen sijaan on hyvin täsmällinen osajoukon koosta riippumatta. Tutkielmassa vertaillaan yleisen tason vertailun lisäksi myös analyyttisiä ja bootstrap-menetelmällä laskettuja estimaatteja sekä niiden estimoituja keskivirheitä. Tuloksista havaitaan, että EBLUP-menetelmän tuottamat analyyttiset keskivirhe-estimaatit ovat aivan liian optimistisia (kuntatasolla bootstrap-menetelmän tuottamat keskivirhe-estimaatit ovat keskimäärin 80 % suurempia kuin analyyttiset keskivirhe-estimaatit). Hájek- ja GREG-menetelmien osalta analyyttisten ja bootstrap-keskivirheiden vastaavuus on ilmeinen. EBLUP-estimaattorin osalta testattiin myös painokertoimien vaikutusta estimaatin keskivirheeseen. Vertailusta havaittiin, että painokertoimet kasvattavat estimaatin keskivirhettä varsinkin pienissä osajoukoissa. Painokertoimien huomioiminen kuitenkin parantaa tulosten yleistettävyyttä perusjoukon tasolle. Tutkielman lopuksi keskityttiin enemmän estimoitavaksi valitun indikaattorin sisältöön, ja visualisoitiin estimoituja tuloksia Statistics Explorer -ohjelmistolla. Indikaattorina käytettiin terveyskeskuspalveluista saatuja etuuksia, josta ensin estimoitiin kuntakohtaiset vuosikeskiarvot kotitaloutta kohti. Saatuja keskiarvoestimaatteja verrattiin kuntakohtaiseen sairastavuusindeksiin, jotta saaduista tuloksista voitaisiin tehdä jonkinlaisia johtopäätöksiä. Analyysia jatkettiin siten, että estimoitiin kuntakohtaiset etuustotaalit ja suhteutettiin ne kunnan perusterveydenhuollon toimintamenoihin. Tämän suhteen ajatellaan kuvastavan sitä, kuinka monikertaisina kunnan perusterveydenhuoltoon käyttämät menot palautuvat asukkaille etuuksina.
  • Pohjanpää, Kirsti (2012)
    Merkittävä osa länsimaisesta yhteiskunnallisesta tutkimuksesta ja tilastoinnista perustuu survey-tutkimuksiin. Jokainen otokseen valituksi tullut ei kuitenkaan syystä tai toisesta anna vastauksia tutkimuskysymyksiin. Vastauskato heikentää tutkimusaineiston laatua ja kasvattaa saatujen estimaattien virhettä. Tutkimus tehtiin, koska oltiin huolestuneita survey-tutkimusten kato-osuuksien kasvamisesta ja vastauskadon vaikutuksista tutkimusten laatuun. Tutkimuksella haluttiin selvittää (a) keitä ovat ne, joita emme tutkimuksilla saa kiinni, ja (b) vastaavatko tutkimuksiin osallistumattomat samalla tapaa kuin osallistuneet. Selvitys tehtiin lähettämällä osalle aikuiskoulutustutkimuksesta vuonna 2006 poisjääneille uusi kontaktipyyntö tasan vuoden kuluttua. Näin syntyi AKU-laatutututkimus. Tiedot kerättiin käynti- ja puhelinhaastatteluin keväällä 2007. Myös laatututkimuksesta kieltäytyneille esitettiin (jos mahdollista) muutama kysymys koskien tutkimuksiin osallistumista (ns. katohaastattelu). Tutkimuksen keskeisin tulos on, että jo kertaalleen tutkimuksesta suorasti tai epäsuorasti kieltäytyneitä voidaan lähestyä uudestaan hyvinkin onnistuneesti: 59 prosenttia suostui yhteistyöhön uuden kontaktin myötä. Lisäksi osoittautui, etteivät vastaamattomat juurikaan poikenneet vastanneista taustansa ja aikuiskoulutukseen osallistumisen suhteen. Laatututkimuksen tulokset eivät tue ajatusta vastauskatoon jääneiden huonommasta yhteiskunnallisesta asemasta. Lisäksi laatututkimukseen mukaan saadut ja siis vuotta aikaisemmin vastauskatoon kuuluneet suhtautuivat survey-tutkimukseen positiivisesti. Tutkimus kuuluu survey-tutkimuskenttään, ja se tuo lisää tietoa survey-tutkimuksissa pimentoon jäävästä joukosta: tutkimuskatoon kuuluvista.
  • Huotelin, Vesa (2017)
    Tutkielmassa syvennytään lapsen huoltoa ja tapaamisoikeutta koskevaan täytäntöönpanoon kvantitatiivisin menetelmin. Analyysiä varten on kerätty 632 tapauksen aineisto kahdeksasta eri käräjäoikeudesta vuosilta 2000–2015. Tutkielma voidaan jakaa kahteen osaan: aineiston ja tilannekuvan esittelyyn sekä logistiseen regressiomalliin, joka ennustaa hakijan voittotodennäköisyyttä tapaamisoikeuden täytäntöönpanoasiassa. Tapaamisoikeuden täytäntöönpanossa hakijoiden sukupuolijakauma vastaa etävanhempien sukupuolijakaumaa väestössä. Hakija syyttää vastaajaa yleensä manipuloinnista tai vieraannuttamisesta, vastaajan syytökset liittyvät päihteisiin, väkivaltaan ja seksuaaliseen hyväksikäyttöön. Oikeus ei ota kantaa syytöksiin, ellei asian ratkaiseminen sitä edellytä. Suurin osa tapauksista päättyy sovintoon. Yli puolet riitaisista tapauksista päättyy uhkasakon asettamiseen, noutoa käytetään hyvin harvoin. Oikeudenkäyntikulut jaetaan usein tasan osapuolten kesken, vaikka asiassa olisi selvä voittaja. Joka neljäs tapaamisoikeutta koskeva täytäntöönpanoasia uusiutuu, ja lopputulos voi seuraavissa käsittelyissä muuttua kokonaan. Huoltoa koskeva aineisto on pieni, ja sitä käsitellään tutkielmassa vain lyhyesti. Isät hakevat huollon täytäntöönpanoa suhteellisesti useammin kuin äidit. Hakija syyttää vastaajaa kaappauksesta ja vieraannuttamisesta, vastaajan syytökset liittyvät useimmiten päihteisiin ja väkivallan uhkaan. Kaksi kolmesta tapauksesta päättyy lasten palauttamiseen sovinnollisesti tai täytäntöönpanon kautta. Noutoa käytetään täytäntöönpanon tehosteena usein. Logistinen regressiomalli rakennetaan pienin poikkeuksin taaksepäin askeltavalla muuttujavalinnalla. Parametrien estimoinnissa käytetään Firthin muokattua uskottavuusfunktiota, jolla kontrolloidaan pienen havaintomäärän aiheuttamaa harhaa approksimatiivisesti. Muuttujia karsitaan uskottavuusosamäärätestin sekä Akaiken informaatiokriteerin perusteella. Malli ennustaa kolme neljästä aineiston lopputuloksesta oikein. Sen erottelukykyä arvioidaan ROC-käyrällä ja yhteensopivuutta aineiston kanssa Hosmer-Lemeshow-testillä. Niiden perusteella mallia voidaan pitää käyttökelpoisena. Logistisen regressioanalyysin tulokset ovat: Toteen näytetty vastaajan syytös sekä varttuneen lapsen haluttomuus tavata hakijaa laskevat hakijan voittotodennäköisyyttä merkittävästi. Voittotodennäköisyyttä heikentävät myös vastaajan myönteinen suhtautuminen tapaamisiin sekä se, että hakija on äiti. Äidin menestymistä tutkitaan myös kahdella muulla logistisella regressiomallilla: Äidin hakema täytäntöönpanoasia päättyy sovintoon todennäköisemmin kuin isän, mutta sovinnot päättyvät hakijan kannalta yhtä hyvin tai huonosti riippumatta tämän sukupuolesta.
  • Palo-Repo, Mari (2015)
    Suomessa ei tiettävästi ole tehty tilastollista analyysia lasten huolto- ja asumisriidoista. Tutkielmaa varten on kerätty aineisto Helsingin hovioikeuden päätöksistä lasten huoltoon ja asumiseen liittyen vuosilta 2003–2006. Aineistoa tarkastellaan binomitestillä, suhteellisten osuuksien testillä ja logistisella regressiomallilla. Äiti voittaa eli saa vaatimuksensa mukaisen päätöksen lasten huolto- ja asumisriidoissa useammin kuin isä. Vanhempien vaatimukset ovat erilaisia: Isä vaatii useammin yhteis- kuin yksinhuoltoa. Äiti vaatii yhtä usein yksin- kuin yhteishuoltoa. Siten yhtäläinenkään todennäköisyys voittaa lasten huolto- ja asumisriita ei merkitse vanhempien yhdenvertaista asemaa. Lapsen sukupuolella ja iällä on vaikutusta riitoihin ja päätöksiin. Yhtä lasta koskevan riidan kohteena on useammin poika kuin tyttö. Kun riitaa on yhdestä lapsesta ja lapsi on seitsemän vuotta tai vanhempi, äiti ja isä saavat vaatimuksensa mukaisen päätöksen yhtä usein. Tällöin isä vaatii äidin lailla yhtä usein yksin- kuin yhteishuoltoa. Huolto- ja asumisriidan koskiessa yhtä kouluikäistä lasta, äiti ja isä ovat tässä mielessä yhdenvertaisessa asemassa. Tällaisia riitoja on neljäsosa lasten huolto- ja asumisriidoista. Väkivaltaisuus-, alkoholi-, huume- tai mielenterveysongelmasyytös on tehty ainakin toisesta vanhemmasta tai hänen uudesta kumppanistaan melkein joka toisessa riidassa. Oikeus on katsonut syytöksistä puolet toteennäytetyksi. Toteennäyttämättä jääneitä syytöksiä esitetään enemmän isästä tai isän uudesta kumppanista kuin äidistä tai äidin uudesta kumppanista. Mallinnuksessa selitetään äidin voittoa lasten asumisriidassa. Isästä tai isän uudesta kumppanista tehty ja oikeuden toteennäytetyksi katsoma syytös väkivaltaisuus-, alkoholi-, huume- tai mielenterveysongelmasta tuo aineistossa äidille aina voiton. Kun asumisriidassa sosiaaliviranomaisten suositus on äidin puolella, niin aineistossa äiti voittaa aina. Asumisriitamallissa äidin voittoa selittävät muuttujat ovat lasten tai lapsen edellinen asuinpaikka käräjäoikeuden päätöksen mukaan ja vanhimman tai ainoan lapsen ikä. Ensimmäisen muuttujan voi ajatella olevan osa lapsen vakiintuneita olosuhteita, jotka muodostavat keskeisen ratkaisuperiaatteen lasten asumisriidassa. Mitä vanhempi vanhin tai ainoa lapsi on, sitä suurempi on isän voittokerroin asumisriidassa. Koska käräjäoikeus on jo pohtinut riitaan liittyviä asioita päätöstä tehdessään, käräjäoikeuden päätös pitää sisällään paljon tietoa. Muuttuja voi viedä voimaa muilta mahdollisilta selittäviltä muuttujilta. Jos käräjäoikeuden päätös sekä äidin ja isän muutoksenhaku käräjäoikeuden päätökseen jätetään pois mallinnuksesta, tällöin asumisriitamallissa äidin voittoa selittävät muuttujat ovat nuorimman tai ainoan lapsen ikä ja sosiaaliviranomaisten suositus isästä. Sosiaaliviranomaisten suositus vaikuttaa hovioikeuden päätökseen asumisriidasta, suositus isästä tosin kätkeytyy mallinnuksessa käräjäoikeuden päätökseen. Lasten iällä on merkitystä asumisriidan lopputulokseen: lasten iän nousu nostaa isän voittokerrointa. On mahdollista, että havaintomäärän vähäisyyden takia jää tärkeitä selittäviä muuttujia logistisen regressiomallin ulkopuolelle. Jatkotutkimusta ajatellen olisi mielenkiintoista laajentaa aineistoa päätösten aikajaksoa pidentämällä sekä muiden hovioikeuksien päätöksien mukaan ottamisella. Nykyistä aineistoa olisi mahdollista tutkia lisää käyttämällä Firthin muokattua uskottavuusfunktiota regressiokertoimien estimoinnissa.
  • Hautakangas, Heidi (2018)
    To better understand biology of complex traits, quantifying the contribution of different genetic factors is essential. Heritability is a population parameter that estimates the proportion of phenotypic variance explained by genetic factors. A recent goal in statistical genetics has been to estimate heritability from genome-wide association study (GWAS) data. GWAS have shown that a large number of genetic variants with small effects together affect complex traits. Because the individual effects are so small, a challenge of the GWAS is to achieve enough statistical power to detect the true associations. Statistical power has been increased by increasing the GWAS sample size, typically by a meta-analysis. In a meta-analysis, summary association statistics from multiple study cohorts are jointly analysed, and therefore it is often impossible to get access to the original individual-level data underlying the meta-analysis. In this thesis, I will study linkage disequilibrium score regression (LDSC), that estimates heritability by regressing GWAS summary statistics on linkage disequilibrium (LD) scores, that measure how much genetic variation each variant tags. Importantly, LD Scores can be estimated from a reference panel without requiring any individual-level data. Furthermore, I will study stratified LD Score regression (S-LDSC), that is an extension of LDSC for partitioning heritability by functional annotations. This thesis has three aims. First, to explain the statistics behind LDSC. Second, to evaluate the effect of LD reference panel on heritability estimation of lipid levels in the Finnish population by comparing an in-sample LD reference panel to external LD reference panels. Third, to partition the heritability of lipid levels in the Finnish population by functional annotations using S-LDSC. I applied LDSC and S-LDSC to the National FINRISK Study and used four lipid levels as quantitative phenotypes: high-density lipoprotein cholesterol (HDL-C), low-density lipoprotein cholesterol (LDL-C), triglycerides (TG) and total cholesterol (TC). As results, I observed that LDSC was robust to the choice of LD reference panel when applied to the Finnish population. Heritability estimates were consistent between different LD reference panels regardless of the LD mismatch. The highest heritability point estimates and the lowest point estimates of confounding biases were produced by the Finnish specific panels, though the differences were not statistically significant. In the heritability enrichment analyses, I replicated several previous findings: for example, I observed enriched heritability for many histone marks in all four lipid traits and enriched heritability for super enhancers for HDL-C, TC and TG.
  • Kuronen, Juri (2017)
    This Master’s thesis introduces a new score-based method for learning the structure of a pairwise Markov network without imposing the assumption of chordality on the underlying graph structure by approximating the joint probability distribution using the popular pseudo-likelihood framework. Together with the local Markov property associated with the Markov network, the joint probability distribution is decomposed into node-wise conditional distributions involving only a tiny subset of variables each, getting rid of the problematic intractable normalizing constant. These conditional distributions can be naturally modeled using logistic regression, giving rise to pseudo-likelihood maximization with logistic regression (plmLR) which is designed to be especially well-suited for capturing pairwise interactions by restricting the explanatory variables to main effects (no interaction terms). To deal with overfitting, plmLR is regularized using an extended variant of the Bayesian information criterion. To select the best model out of the vast discrete model space of network structures, a dynamic greedy hill-climbing search algorithm can be readily implemented with the pseudo-likelihood framework where each Markov blanket is learned separately so that the full graph can be composed from the solutions to these subproblems. This work also presents a novel improvement to the algorithm by drastically reducing the search space associated with each node-wise hill-climbing run by first running a set of pairwise queries to isolate only the promising candidates. In experiments on data sets sampled from synthetic pairwise Markov networks, plmLR performs favorably against competing methods with respect to the Hamming distance between the learned and true network structure. Additionally, unlike most logistic regression based methods, plmLR is not limited to binary variables and performs well on learning benchmark network structures based on real-world non-binary models even though plmLR is not designed for their structural form.
  • Mäntymaa, Petteri (2020)
    Terveyden ja hyvinvoinnin laitoksen FinLapset-rekisteri tutkii lasten ja nuorten ylipainon ja lihavuuden yleisyyttä Suomessa. Tiedot perustuvat valtakunnalliseen rekisteriaineistoon neuvola- ja kouluterveydenhuollon paino- ja pituusmittauksista. Tuloksia on raportoitu poikkileikkausasetelmassa raportointivuosittain, mutta aineisto mahdollistaa myös samoilta yksilöiltä kertyneiden toistettujen mittausten analyysin pitkittäistutkimusasetelmassa. Tutkielmassa arvioimme lineaaristen sekamallien soveltuvuutta FinLapset-rekisteriaineistosta muodostetun pitkittäisaineiston analyysivälineeksi. Teoriaosassa esittelemme lineaaristen sekamallien keskeiset ominaisuudet ja estimointimenetelmät sekä tarkastelemme hyviä mallinarvioinnin käytäntöjä. Soveltavassa vaiheessa sovitamme aineistoon kaksitasoisen lineaarisen sekamallin, jolla tutkimme lasten ja nuorten painoindeksin yhteyttä ikään ja biologiseen sukupuoleen sekä arvioimme mallin kykyä selittää aineistossa esiintyvää yksilökohtaista ja yksilöiden välistä painoindeksin vaihtelua. Mallin suoriutumista tarkastellaan erityisesti rekisteriaineiston analyysin muodostamien haasteiden näkökulmasta. Lineaariset sekamallit muodostavat luontevan analyysikehikon FinLapset-rekisteriaineiston kaltaisen pitkittäisaineiston analyysiin. Yksinään iän kiinteä populaatiovaikutus, yhdessä yksilö- ja ikäkohtaisten satunnaisvaikutusten kanssa selittää mallin vaihtelua erittäin hyvin. Painoindeksin ja iän yhteyden lineaarisuusoletus jää kuitenkin epäilyksen alaiseksi ja yksilökohtaisten residuaalien autokorrelaatio sekä varianssin heteroskedastisuus osoittautuvat merkittäviksi haasteiksi. Rekisteriaineistolle tyypilliset ominaisuudet, kuten passiivisesta kertymistavasta seuraava populaatiokehikon täsmällisen määrittelyn puute ja aineistoa tuottavien prosessien tuntemattomuus vaikeuttavat mallin estimaatteihin liittyvien epävarmuustekijöiden arviointia. Suuresta havaintomäärästä seuraten estimaattien keskivirheet ovat hyvin pieniä, mikä antaa virheellisen kuvan mallin hyvyydestä, vaikka estimaatteihin liittyvä harha jää osin tunnistamatta. Tutkielmassa näytetään, että lineaarisille sekamallelle löytyy joustavia laajennoksia, joilla osa tutkielmassa esitetyn mallin haasteista on mahdollista ylittää. Osa laajennetuista malleista ovat suoraan yhteensopivia tutkielman frekventistisen lähestymistavan kanssa, mutta useat vaihtoehtoiset menetelmät suosivat bayesiläistä ajattelutapaa. Myös näkökulmia rekisteriaineiston epävarmuuslähteiden tunnistamiseksi ja edustavuuden parantamiseksi punnitaan.
  • Pankakoski, Maiju Annukka (2011)
    Opinnäytetyössä perehdytään erilaisiin tilastollisiin menetelmiin, joilla voidaan analysoida lääkityksen vaikutusta skitsofreniapotilaiden kognitiiviseen suoriutumiseen. Analysoitava aineisto on osa laajaa perheaineistoa, joka kerättiin alun perin Terveyden ja hyvinvoinnin laitoksen tutkimusprojektia varten. Projektin tarkoituksena on selvittää vakavien mielenterveyshäiriöiden geneettistä epidemiologiaa. Keskeiset työssä käsiteltävät menetelmät ovat lineaarinen regressioanalyysi, faktorianalyysi ja rakenneyhtälömallinnus. Potilaiden kognitiivista suoriutumista on mitattu neuropsykologisella testipatteristolla, joka koostuu useasta eri testistä. Lääkityksen ja kognition välisiä yhteyksiä tutkitaan aluksi lineaaristen regressiomallien avulla, joissa lääkityksen vaikutusta jokaiseen kognitiotestiin arvioidaan erikseen. Testit kuitenkin korreloivat keskenään kohtalaisen voimakkaasti muodostaen erilaisia alaryhmiä. Analyyseissa sovelletaan täten myös rakenneyhtälömallia, jossa yksittäisten testimuuttujien sijaan tarkastellaan eräänlaisia laajempia kognitiota edustavia ulottuvuuksia. Toisaalta aineistossa voidaan ajatella olevan riippuvuutta myös havaintojen tasolla. Tutkimusaineisto on kerätty hyödyntäen perhetason otantaa, joten otoksessa saattaa olla useampi samaan perheeseen kuuluva henkilö. Tällaista monitasoista aineistoa ei suoraviivaisesti voida analysoida kaikkein yleisimmin käytetyillä tilastollisilla menetelmillä, jotka yleensä on tarkoitettu satunnaisotannalla kerätyn riippumattoman aineiston analyysiin. Monitasoisuus tullaan huomioimaan analyyseissa käyttäen ns. satunnaistekijä- ja marginaalimallinnusta. Tarkastelujen tavoitteena on ennen kaikkea kokeilla erilaisten menetelmien sovellettavuutta tässä aineistossa. Huomionarvoiset seikat liittyvät toisaalta yksittäisten regressiomallien ja rakenneyhtälömallin välisiin eroihin ja toisaalta siihen, mitä merkitystä aineiston monitasoisuuden huomioimisella on. Aluksi mallinnukset suoritetaan siten, että perherakennetta ei lainkaan huomioida. Työn myöhemmässä vaiheessa samoja menetelmiä käytetään uudelleen, tällä kertaa kuitenkin olettamatta havaintoja riippumattomiksi. Otanta-asetelman huomioiminen estimoinnissa ja toisaalta erilaiset monimuuttujamenetelmät ovat tunnettuja ja yleisesti sovellettuja. Kuitenkin menetelmät, jotka yhdistävät nämä kaksi aluetta, ovat vasta melko hiljattain vakiinnuttamassa asemaansa tutkimuksessa. Työn loppuosassa perehdytään jo melko monimutkaiseen analyysitapaan, kun sovelletaan monitasoista rakenneyhtälömallia. Eri menetelmillä saadut tulokset ovat hyvin samankaltaisia, eikä monitasoisuuden huomioiminen merkittävästi muuta analyysien tuloksia ja tulkintoja tässä aineistossa. Kokeilut antavat kuitenkin hyvän ja perusteellisen kuvan lääkityksen ja kognition välisistä suhteista ja auttavat ymmärtämään eri menetelmien välisiä suhteita.
  • Lääperi, Mitja (2015)
    Coronary heart disease (CHD) is one of the leading causes of death worldwide. Linear mixed models (LMMs) are presented in this thesis and they are applied to family data from the European Multicenter Study on Familial Dyslipidemias in Patients with Premature Coronary Heart Disease (EUFAM) -project. The data contain 23 quantitative traits relating to risk of CHD and roughly 28 million genetic variants. The data consist of nearly 1600 individuals from around 150 families. Linear mixed models are used when the data contain clustering or repeated measurements. In other words, when the observations are dependent. In the EUFAM data the observations come from families. In this case, the linear mixed models take the relatedness of the individuals into account. Linear mixed models are applied for both heritability estimation and genome-wide association testing in this thesis. Both in simulations and in the analyses with the EUFAM-data the need for LMMs can be seen. The LMM has more statistical power than the standard linear model when heritability exists in the data. The standard linear model also has inflated type I error rate. Both of these occur because the standard linear model does not take the relatedness of the individuals into account. For example, in the genome-wide analysis done for the EUFAM-data the standard linear model gives a massive amount of false positives when compared to the linear mixed model. The thesis proves the usefulness of and need for linear mixed models when analyzing family data.
  • Huang, Zhiyong (2012)
    In this master's thesis we present two important classes of regularized linear models -regularized least squares regression (LS) and regularized least absolute deviation (LAD). Use of regularized regression in variable selection was pioneered by Tibshirani (1996) and his proposed LASSO rapidly became a popular and competitive method in variable selection. Properties of LASSO have been intensively studied and different algorithms to solve LASSO have been developed. While the success of LASSO was acclaimed during the process, its limitations were noticed and a number of alternative methods have been proposed in subsequent research. Among all of theses methods, adaptive LASSO (Zou, 2006) and SCAD (Fan and Li, 2001) attempt to improve the efficiency of LASSO; LAD LASSO (Wang et al., 2007) assumes non-Gaussian distributed errors; ridge, elastic net (Zou and Hastie, 2005) and Bridge (Frank and Friedman, 1993) adopt penalties other than L1; while fused LASSO (Tibshirani et al., 2005) and grouped LASSO (Yuan and Lin, 2006) take extra constrains of data into account. We discuss LASSO in length in the thesis. Its properties in orthogonal design, singular design and p > n design are examined. Its asymptotic performance is investigated and its limitations are carefully illustrated. Another two commonly used regularization methods in LS - ridge and elastic net - are discussed as well. The regularized LAD is another focus of the thesis. As a robust statistic, LAD, which fits the conditional median rather than the conditional mean of the response, has a bounded influence function and a high conditional breakdown point. It is natural to use regularized LAD to do variable selection in presence of long-tailed errors or outliers in the response. Compared with LASSO, LAD LASSO does robust estimation and variable selection simultaneously. We make a simulation study and examine two real examples on the performance of these regularized linear models. Our results demonstrate that no single one estimate dominates others in all cases. The sparsity of the true model, the distribution of the noise, noise-to-signal ratio, the sample size and the correction of predictors, all these factors matter. When the noise has a normal distribution, LASSO, adaptive LASSO and elastic net often outperform others in prediction accuracy. Adaptive LASSO is the best in variable selection and elastic net tends to reveal less sparsity than LASSO. When the noise follows a Laplace distribution, LAD LASSO is competitive with LASSO but is less efficient than adaptive LASSO. For noises with extremely long-tailed distribution such as Cauchy distribution, LAD LASSO dominates others in both the prediction accuracy and variable selection.