Browsing by discipline "Statistics"

Now showing items 41-60 of 87

Maatilapaneeliaineiston analyysi lineaarisella sekamallilla

Sinisalo, Alina (2013)

Suomessa maatalousalalla on käynnissä voimakas rakennemuutos, jonka vaikutusta maatalouden tuotantokustannuksiin on tutkittava huomioiden pitemmän aikavälin muutokset. Maatalouden kannattavuuskirjanpitotoiminnalla on Suomessa pitkät perinteet ja tietoja kerätään vuosittain noin tuhannelta toimintaan vapaaehtoisesti liittyneeltä tilalta. Maa- ja elintarviketalouden tutkimuskeskus (MTT) kerää vuosittain maa- ja puutarhatalouden yrityskohtaisen kirjanpitoaineiston. Aineiston tuloksia sopivasti painottamalla pyritään kuvaamaan koko Suomen maatalouden kannattavuutta. Suomen tulokset julkaistaan Taloustohtori–sivuston maa- ja puutarhatalousverkkopalvelussa. Tutkielman teoriaosassa tarkastellaan mikropaneeliaineiston ja lineaarisen sekamallin ominaisuuksia ja tutustutaan maatalouden kannattavuuskirjanpitoaineistoon. Soveltavassa osassa selvitetään tuotantokustannusten muuttumista suomalaisilla kannattavuuskirjanpitotoimintaan osallistuvilla maatiloilla aikajaksolla 2000–2011 sekä testataan lineaarisen sekamallin käytettävyyttä mallinnettaessa maatalousyrityksen tuotantokustannuksia. Tuotantokustannuksia tarkastellaan kokonaistuotantokustannuksina ja yksikkötuotantokustannuksina. Kokonaistuotantokustannukset ovat olleet kasvussa koko 2000-luvun ajan kaikissa tuotantosuunnissa. Yksikkötuotantokustannus maitolitraa kohden on pysytellyt tarkastelujakson lähes samalla tasolla tai hieman pienentynyt. Tulosten perusteella lehmien määrän lisääntyminen tiloilla pienentää yksikkökustannusta. Tärkeimmät tuotantokustannuksia selittävät muuttujat liittyvät aikamuutokseen ja tilan suuruutta kuvaaviin tekijöihin, kuten viljelyala ja lehmien määrä. Tutkimuksessa selvitetään myös maatilojen kokoluokan ja maantieteellisen sijainnin merkitystä kustannusten selittäjänä. Tulosten perusteella tilan sijainti ei ole kovin tärkeä selittäjä kustannusten muodostumisessa ja kokoluokista eniten erottuu pienien maatilojen joukko, joka eroaa merkitsevästi keskisuurista ja suurista tiloista siten, että yksikkökustannustaso oli suurempi. Kokonaistuotantokustannukset kasvavat tilakoon kasvaessa. Mallien toimivuustarkastelujen perusteella lineaarinen sekamalli toimii parhaiten kokonaistasolla ja keskisuurilla ja suurilla kokoluokilla. Pienien tilojen kuvaaminen lineaarisella sekamallilla on epätarkempaa. Tuotantosuunnittain katsottuna malli näyttää antavan aliarvion kokonaiskustannuksista siipikarja-, kasvihuone- ja sikatuotannossa, ja toisaalta yliarvioivan kustannukset viljanviljelyssä, muussa kasvinviljelyssä ja muussa laidunkarjatuotannossa, mutta ero ei kuitenkaan ole merkitsevä. Tilannetta voitaisiin parantaa siten, että kannattavuuskirjanpitotoimintaan pyrittäisiin rekrytoimaan lisää pieniä tiloja ja sellaisien tuotantosuuntien tiloja, joita on nyt aineistossa vähän, esimerkiksi siipikarjatuotannon ja muuta laidunkarjatuotantoa harjoittavia tiloja.
Maisteriuraseuranta-aineistojen analyysi logistisen regression avulla

Kangas, Tuukka (2018)

Maistereiden uraseuranta on vuonna 2005 alkanut kyselytutkimus. Kyselytutkimuksen kohdejoukkona ovat viisi vuotta aikaisemmin valmistuneet ylemmän korkeakoulututkinnon tai päättyvän alemman korkeakoulututkinnon suorittaneet henkilöt. Kyselyt toteutetaan kokonaistutkimuksena. Kyselytutkimusta koordinoi yliopistojen työelämä- ja urapalveluiden Aarresaari-verkosto. Helsingin yliopisto on ollut mukana kyselytutkimuksissa alusta saakka. Vuonna 2017 maisteriuraseurantoja esitettiin osaksi yliopistojen rahoitusmallia. Tämä on lisännyt tutkittavan aineiston kiinnostavuutta sekä valtakunnallisesti että yliopiston sisällä. Koska kyselytutkimus on muuttunut vuosien varrella, tässä tutkielmassa on keskitytty vain vuonna 2007, 2009 ja 2011 valmistuneiden aineistoihin. Nämä kyselyt on toteutettu vuosina 2012, 2014 ja 2016. Tutkittava kyselytutkimus on suhteellisen laaja ja sisältää useita muuttujia. Tutkielmassa on hyödynnetty binääristä ja multinomiaalista logistista regressiota. Vastemuuttujaksi valittiin kuinka tyytyväinen vastaaja oli kokonaisuudessaan suorittamaansa tutkintoonsa työuran kannalta. Tämä on myös yksi muuttujista, jota on esitetty osaksi rahoitusmallia. Muita muuttujia hyödynnettiin selittävinä muuttujina. Lopputuloksena saatiin kaksi tilastollista mallia, joista ensimmäinen oli kolmen aineiston yhdistelmästä tehty malli ja toinen vuonna 2011 valmistuneiden aineistosta tehty malli. Mallit analysoitiin hyödyntäen eri tapoja, kuten ROC-käyriä ja Hosmer-Lemeshow’n testiä. Yhdistelmäaineiston perusteella tutkintotyytyväisyyden todennäköisyyttä kasvattaa muun muassa, jos pystyy hyödyntämään oppimaansa nykyisessä työssään, työpaikan vaativuustaso vastaa koulutusta ja ei ole kohdannut työttömyyttä valmistumisen jälkeen. Samoin jos vastaaja kokee, että yliopisto-opiskelu on kehittänyt hyvin esimerkiksi teoreettista osaamista, opetustaitoja ja tietoteknisiä taitoja, niin tämä parantaa tyytyväisyyden todennäköisyyttä. Yhdistelmäaineiston perusteella sellaiset henkilöt, jotka pätevöityvät suoraan johonkin ammattiin, kuten lääkäriksi, lakimieheksi tai farmaseutiksi, ovat hieman todennäköisemmin tyytyväisempiä. Vastaavasti vuonna 2011 valmistuneiden aineistosta ns. generalistialoilta valmistuneet henkilöt ovat hieman tyytyväisempiä suhteessa professioaloihin. Uusin aineisto tukee suurelta osin yhdistelmäaineiston havaintoja, mutta sen perusteella merkittävämpiä muuttujia tyytyväisyyden todennäköisyyden selittämiselle ovat riittävien valmiuksien saaminen työelämään ja että työnantaja arvostaa tutkintoa. Näitä kahta muuttujaa ei ole käytettävissä aikaisemmissa aineistoissa.
Markov random fields and spatial smoothing in improving of forest inventory estimates

Jousimo, Jussi (2011)

Markov random fields (MRF) are popular in image processing applications to describe spatial dependencies between image units. Here, we take a look at the theory and the models of MRFs with an application to improve forest inventory estimates. Typically, autocorrelation between study units is a nuisance in statistical inference, but we take an advantage of the dependencies to smooth noisy measurements by borrowing information from the neighbouring units. We build a stochastic spatial model, which we estimate with a Markov chain Monte Carlo simulation method. The smooth values are validated against another data set increasing our confidence that the estimates are more accurate than the originals.
Matematiikan tunteiden mittarin teoreettinen tarkastelu edustavassa suomalaisten nuorten aineistossa

Holm, Marja Eliisa (2020)

Tässä tutkimuksessa oppilaiden tunnekokemuksia matematiikassa mitattiin kansainvälisesti käytössä olevalla matematiikan tunnekyselyllä (The Achievement Emotions Questionnaire-Mathematics, AEQ-M; Pekrun, Goetz & Frenzel, 2005). Tämä mittari on oppilaan itsearviointiin perustuva mittari, joka selvittää oppilaiden tunteita matematiikan luokassa, oppimisessa ja testissä. Tämän tutkimuksen tavoitteena on testata mittariin liittyviä teoreettisia malleja, faktorien luotettavuutta, erotteluvaliditeettia ja faktorien erillisyyttä. Lisäksi käsitellään tutkimusotantaa ja puuttuvan tiedon käsittelyä. Tutkimusotos (n = 1413) on maantieteellisesti edustava otos 8. luokan oppilaista (14- ja 15-vuotiaat). Tutkimusotos saatiin monivaiheisesti käyttämällä useita otantamenetelmiä kuten kouluihin pohjautuvaa ryväsotantaa, systemaattista otantaa ja implisiittistä osittamista. Konfirmatorista faktorianalyysia käytettiin tutkimaan teoreettisia AEQ-M-malleja edustavassa tutkimusotoksessa. Tulokset osoittivat, että teoreettinen tunne x tilanne -malli, jossa sekä tunteet että niihin liittyvät tilanteet huomioitiin, kuvasi dataa hyvin. Tässä mallissa kuusi matematiikkaan liittyvää tunnetta (nautinto, ylpeys, viha, ahdistus, häpeä ja tylsyys) mallinnettiin erillisinä latentteina faktoreina, ja eri tilanteiden (luokka, oppiminen ja testi) vaikutus huomioitiin antamalla samassa tilanteessa olevien tunnemuuttujien residuaalien korreloida keskenään. Vaikka tässä mallissa faktoreita vastaavien latenttimuuttujien reliabiliteetit olivat suhteellisen hyviä, tämä tutkimus kuitenkin kyseenalaistaa tunnefaktorien erotteluvaliditeetin ja samaan tilanteeseen liittyvien tunteiden residuaalien väliset korrelaatiot. Nämä tulokset osoittavat, että mittari on varsin toimiva mittaamaan suomalaisten nuorten tunteita matematiikassa. Lisäksi tutkimustulokset tukevat teoriaa siitä, että akateemisten tunteiden mittaamisessa olisi huomioitava sekä erilliset tunteet että niiden erilaisuus luokka-, oppimis- ja testitilanteessa. Tutkimustulokset herättävät kuitenkin kysymyksen siitä, onko tarkoituksenmukaista yhdistää korkeasti korreloivat tunteet samoiksi faktoreiksi vai käyttää teoreettista mallia korkeista korrelaatioista huolimatta. Vaikka teoria määrittää tunteiden vahvan yhteyden eri tilanteisiin, tämä tutkimus herättää kysymyksen, ovatko kaikki tunteet samassa tilanteessa kuitenkaan merkittävästi yhteydessä. Tulevaisuudessa olisi esitettävä laajempaa analyysia faktorien erillisyydestä ja tunteiden tilannesidonnaisuudesta.
Microsimulation : Statistical Methodology and Assessment of Uncertainty

Zhou, Meng (2012)

Nowadays, microsimulation method has been introduced to different fields, such as Social Science, Medicine research and Economic study. This method evaluates the effects of the proposed interventions or policies before they are implemented in the real world. In this article, I concentrate on microsimulation method used in Social Science by firstly explaining two main streams in microsimulation world, Static approach and Dynamic approach, in them, how statistical models are used are carefully explained by giving examples in Dynamic approach. In the following section, a Norwegian case is studied, this case gives the typical example of how the dynamic microsimulation used in the labor force and child care research, the effects of four different reform options are measured in this study. In the last section, the empirical study of a Finnish static microsimulation model-JUTTA is carried out. The uncertainty of JUTTA is assessed and one of its sub model called Toimtuki (income-related supplementary benefit) is detected to have space to be more accurate. In order to do so, two statistical models- Linear Regression model and Two-Stage Least Squares (2SLS) model are applied to it. From their results and diagnostics, we could conclude that both the Linear Regression and 2SLS successfully improves the accuracy of TOIMTUKI to some extent.
Miesten ja naisten kuolevuuden trendit Suomessa ja Ruotsissa

Eronen, Anna (2017)

Kaikkialla maailmassa naiset elävät nykyisin keskimäärin vanhemmaksi kuin miehet, mutta sukupuolten kuolleisuuserojen suuruus on vaihdellut ajasta ja paikasta riippuen. Suomessa sukupuolten kuolleisuuserot ovat suuria verrattuna muihin Länsi-Euroopan maihin. Kuolleisuuserojen on arveltu kutistuvan tulevaisuudessa miesten ja naisten elinpiirien lähentymisen takia. Erojen voimakkaalla kaventumisella voisi olla vaikutusta mm. väestöennustelaskelmien luotettavuuteen. Tässä tutkielmassa mallinnettiin ja ennustettiin ekstrapolointi perustuvilla malleilla 0-99 -vuotiaiden miesten ja naisten viisivuotisikäryhmittäisiä kuolevuuksia Suomessa ja Ruotsissa. Mallinnukseen käytettiin vuosien 1960-2015 tietoja, ja ennustettava jakso kattoi vuodet 2016-2045. Ruotsia käytettiin vertailukohtana Suomen kuolleisuuserojen kehitykselle. Mallinnuksessa käytetty aineisto on peräisin kansainvälisestä Human Mortality Database -tietokannasta sekä Suomen ja Ruotsin tilastoviranomaisten verkkosivuilta. Yksikertainen ennustemalli kuolevuudelle toteutettiin sovittamalla kuolevuuden logaritmiin trenditermillinen satunnaiskulkuprosessi. Tutkielmassa käytettiin myös Ronald Leen ja Lawrence Carterin kehittämää mallia, joka on nykyisin yksi yleisimmin käytetyistä kuolevuuden ennustemenetelmistä. Menetelmässä kuolevuuden logaritmi mallinnetaan ikä- ja aikakomponenttien avulla, joiden estimaatit saadaan ratkaistua singulaariarvohajotelmaa käyttäen. Tutkielmassa Lee-Carter – mallit sovitettiin tavanomaisesta poiketen kolmeen eri ikäryhmään (0-19 -vuotiaat, 20-59 -vuotiaat ja 60-99 -vuotiaat), sillä kuolleisuus ja elintavat ovat erilaisia eri ikäluokissa. Lee-Carter -mallien pohjalta laskettiin ennusteet kuolevuuden logaritmin tulevia arvoja ennustamalla aika-indeksiä trenditermillisenä satunnaiskulkuprosessina. Ennusteille laskettiin myös 95:n prosentin ennustevälit. Vertailun vuoksi muodostettiin ennusteet myös Tilastokeskuksen väestöennusteen kuolevuuden ennustamismenetelmään perustuen. Kuvallisten tarkastelujen perusteella trenditermilliseen satunnaiskulkuprosessiin perustavissa malleissa miesten ja naisten kuolleisuudet vaikuttaisivat konvergoituvan tai hajaantuvan joissain ikäryhmissä. t-testien perusteella kaikkien trendien keskinäiset suhteet näyttäisivät kuitenkin pysyvän ennallaan. Lee-Carter -mallien pohjalta laskettujen ennusteiden valossa miesten ja naisten kuolevuuden trendit eivät konvergoi missään ikäryhmässä Suomessa eikä Ruotsissa. Suomessa yli 35 -vuotiailla konvergoituminen on ennustevälien perusteella mahdollista ennusteajanjakson loppupuolella. Tilastokeskuksen väestöennusteessa käyttämään menetelmää perustuvien ennusteiden nojalla Suomessa miesten ja naisten kuolevuuden trendit lievästi konvergoivat 20-35 -vuotiailla sekä 50-59 -vuotiailla. Mallien tuottamien ennusteiden erot liittyvät mallinnuksessa hyödynnettäviin aikaperiodeihin; Tilastokeskuksen ennustamismenetelmässä huomioidaan vain viimeisen 28 vuoden kuolevuuden kehitys. Ruotsissa kuolevuuskertoimien pohjalta tehtyjen ennusteiden perusteella miesten ja naisten kuolevuudet konvergoivat 55-80 -vuotiaiden ikäryhmissä. Tämän tutkielman perusteella ei ole todennäköistä, että Suomen miesten ja naisten kuolevuuserot kaventuisivat väestöennusteen kannalta merkittävästi.
Moni-imputointi : vastauskadon vaikutuksien korjaaminen kuluttajabarometriaineistossa

Patronen, Mikko (2020)

Kato on yksi otanta-aineiston virhelähteistä. Se voi aiheuttaa aineistosta laskettaviin estimaatteihin harhaa, joten sen hallintaan on pyritty kehittämään erilaisia menetelmiä. Yksi tällainen menetelmä on imputointi, eli puuttuviksi jääneiden arvojen korvaaminen hyvin perustelluilla arvoilla. Estimointiin liittyvä epävarmuus tulee parhaiten huomioiduksi moni-imputoinnilla, mikä tarkoittaa useamman imputoidun aineiston muodostamista. Tässä tutkielmassa perehdytään vastauskadon ominaisuuksiin. Imputointimenetelmän valintaan vaikuttaa esimerkiksi imputoitavan muuttujan asteikko sekä oletus kadon taustalla olevasta mekanismista. Imputoinnin apuna voidaan hyödyntää myös mahdollisesti käytössä olevia taustamuuttujia, jotka ovat yhteydessä imputoitavien muuttujien arvoihin ja niissä ilmenevään vastauskatoon. Myös tutkittavan ilmiön teorian kannalta olennaisia muuttujia voidaan hyödyntää. Tutkielmassa tarkastellaan vuoden 2017 tammikuun Kuluttajabarometriaineistosta neljän kysymyksen osa-aineistoa, joka muodostaa kuluttajien luottamusindikaattorin. Kuluttajien luottamusindikaattori kuvaa 18-84 -vuotiaiden suomalaisten näkemyksiä ja odotuksia sekä henkilökohtaisesta että Suomen yleisestä taloustilanteesta. Kiinnostuksen kohteena on erityisesti selvittää, vääristääkö vastauskato aineistosta laskettavia estimaatteja. Tutkielmassa vastauskatoa paikataan moni-imputoimalla käyttäen hot deck -imputointia, jossa puuttuvat tiedot korvataan taustatiedoiltaan mahdollisimman samankaltaisilta vastaajilta kopioiduilla arvoilla. Työssä muodostetaan viisi imputointimallia käyttäen erilaisia yhdistelmiä taustamuuttujista. Taustatieto ikäluokasta osoittautuu tärkeäksi mallimuuttujaksi tulosten kannalta. Imputointimalli ilman ikäluokkatietoa pienentää luottamusindikaattorin estimaattia sekä koko aineiston tasolla että sukupuoliryhmissä. Luottamusindikaattorin arvot estimoituvat alkuperäisen aineiston estimaattia pienemmiksi myös, jos malli perustuu ainoastaan tietoon sukupuolesta.
Monitilaiset elinajantaulut avioeron todennäköisyyden tarkastelussa

Wallenius, Minna (2013)

Tutkielman tavoitteena oli perehtyä avioeron todennäköisyyden tarkasteluun käytettyihin menetelmiin, tutkia millaisia tuloksia niillä saadaan suomalaisesta aineistosta ja arvioida niiden soveltuvuutta virallisiin tilastoihin. Virallisissa tilastoissa yleisesti käytetty eronneisuuden mittari on kokonaiseronneisuusluku, jonka on yleensä tulkittu kertovan kuinka suuri osa liitoista päättyisi eroon eronneisuuden pysyessä tarkasteluvuoden tasolla. Se ei kuitenkaan ole toimiva avioeron todennäköisyyden estimaatti. Luku ei huomioi aiempaa eroamishistoriaa, joten muutokset avioerojen ajoituksessa voivat vääristää lukua kohtuuttomasti. Kokonaiseronneisuusluvun perusteella puolet avioliitoista päättyisi Suomessa eroon. Siviilisäätyjen muutoksia voidaan ajatella prosessina, jossa henkilöt siirtyvät tilasta toiseen avioliittojen, avioerojen ja kuolemien takia. Tämän tyyppisiä ilmiöitä on tarkasteltu monen tilan elinajantauluilla, joissa keinotekoinen kohortti kuljetetaan eri ikävaiheiden läpi altistettuna tutkittavan ajanjakson ikäryhmittäisille siirtymien todennäköisyyksille. Tulosten tulkitaan kertovan mitä seuraisi, jos siirtymien todennäköisyydet pysyisivät kyseisen ajanjakson tasolla. Monitilaiset elinajantaulut ovat Markovin prosesseja, jos tilaan siirtymisen todennäköisyys riippuu vain sen hetkisestä tilasta ja iästä, muttei aiemmista tiloista eikä tilassa olon kestosta. Semi-Markov-prosesseissa myös nykyisessä tilassa vietetty aika vaikuttaa siirtymien todennäköisyyteen. Tutkielmassa verrataan avioliiton kestosta riippumatonta ja keston vaikutuksen huomioivaa mallia. Lisäksi tutkitaan ikäryhmittäin avioeron suhteellista riskiä liiton keston mukaan. Tutkielma rajoittuu naisten ensimmäisiin avioliittoihin ja niiden päättymiseen. Tulosten perusteella vuoden 2011 tilanteen pysyessä voimassa Suomessa naisten ensimmäisistä avioliitoista päättyisi eroon noin 39 prosenttia, jos oletetaan ettei liiton kestolla ole yhteyttä avioeron riskiin, ja hieman alle 41 prosenttia, jos keston merkitys huomioidaan. Avioeron suhteellinen riski käyttäytyy eri ikäryhmissä hieman eri tavoin, mutta on kaikissa korkea muutaman vuoden kestäneissä liitoissa. Tulokset ovat samansuuntaisia aiemman tutkimuksen kanssa. Avioliiton kesto on yhteydessä eron todennäköisyyteen, vaikka eroavaisuudet keston huomioivien ja siitä riippumattomien elinajantaulujen välillä eivät kaikissa tilanteissa ole suuria. Ikäryhmittäisten siirtymätodennäköisyyksien estimoinnissa käytettiin ns. lineaarisuusoletusta, joka voi tuottaa teoreettisesti mahdottomia arvoja, jos ryhmien keskimääräiset siirtymäintensiteetit ovat kovin suuria. Tässä tapauksessa näin kävi keston huomioivassa mallissa, jossa väestö ja siirtymät luokiteltiin moniin pieniin ryhmiin iän lisäksi avioliiton keston mukaan. Lineaarisuusoletusta käytetään sen heikkouksista huolimatta, koska sillä saadaan useimmiten mielekkäitä tuloksia ja se on helppo toteuttaa. Ilmeisistä puutteistaan huolimatta se tuotti tässäkin tapauksessa elinajantauluja, joista saatiin avioeron todennäköisyydelle järkeviä estimaatteja. Avioeron todennäköisyyttä onkin parempi estimoida monitilaisten elinajantaulujen avulla kokonaiseronneisuuslukujen sijasta.
Nollakustannusten bayesläinen mallinnus sydänlääkkeen kustannustehokkuusanalyysissä

Göös, Jani (2016)

Tutkielman kohteena on lääketieteellinen kustannustehokkuusanalyysi ja erityisesti siinä esiintyvä problematiikka liittyen sellaisiin tutkimusten kohdehenkilöihin, joille ei ole syystä tai toisesta kertynyt tutkimuksen seurantajakson aikana kustannuksia. Tarkoituksena on kuvata kustannustehokkuusanalyysin käytännön toteutustapa keskittyen erityisesti bayesläisen päättelyn tarjoamiin mahdollisuuksiin nollakustannuspotilaiden estimoinnissa. Tutkimuksessa on käytetty akuutisti huonontuneen sydämen vajaatoiminnan lääkintään keskittyvää Revive II -tutkimusaineistoa. Täydelliselle aineistolle toteutetun kustannustehokkuusanalyysin tavoite on selvittää, onko uusi lääkintämuoto Levosimendan kustannustehokas perinteiseen käytössä olevaan lääkintätapaan verrattuna. Tehdyn analyysin perusteella laskennallinen kannattavuusrajapiste osuu 2400 dollariin päivältä, jonka jälkeen investoinnit Levosimendaniin eivät tuota enää lisähyötyä. Kannattavuusrajapistettä pienemmillä investoinneilla Levosimendan osoittautuu enintään 57 %:n todennäköisyydellä kustannustehokkaaksi vaihtoehdoksi. Toisena suurena ja pääasiallisena aihekokonaisuutena tutkielmassa paneudutaan nollakustannusten vaikutusten mallintamiseen bayesläistä päättelyä apuna käyttäen. Tutkielmassa nollakustannusten mukanaan tuomia jakaumallisia ongelmia pyritään ratkaisemaan nollakustannusten todennäköisyyttä ennustavan logistisen regressiomallin avulla. Tämän jälkeen regressiomallin tulokset yhdistetään positiiviset kustannukset omaavien henkilöiden logaritmiseen normaalimalliin tai gammamalliin. Näin saadusta sekamallista saadaan estimoitua potilaiden keskimääräiset kustannukset, jotka voidaan sijoittaa edelleen kustannustehokkuusanalyysiin. Mikäli nollakustannukset eivät ole hyväksyttäviä vaan puuttuvaa tietoa, halutaan niiden muodostama harha analyysissa minimoida. Puuttuvan tiedon paikkaaminen on toteutettu tutkielman viimeisessä osassa vahvalla informatiivisella priorijakaumalla. Sen avulla nollakustannukset omaaville potilaille tuodaan malliin ennakkotieto kustannusaineiston keskiarvosta ja hajonnasta. Sitä varten positiiviset kustannukset omaavien potilaiden ryhmän kustannuksiin sovitetaan jokin tunnettu jatkuva parametrinen todennäköisyysjakauma. Revive II -tutkimuksen kohdalla kustannuksia kuvaa parhaiten logaritminen normaalijakauma, jota lopullisessa mallissa käytetään priorijakaumana. Näin potilaiden kustannusestimaatit ovat hyväksyttäviin nollakustannuksiin verrattuna huomattavasti lähempänä täydellisen aineiston arvoja.
Otoksen edustavuuden mittaus R-indikaattorin avulla Suomen uhritutkimuspilotissa

Vartiainen, Marjukka (2011)

Tutkielmassa sovelletaan aineiston edustavuutta mittaavaa laatuindikaattoria Suomen uhritutkimuspilottiin tilanteessa, jossa ilmenee vastauskatoa. Vastauskato on kasvava ongelma tilastotutkimuksissa: jos tutkimukseen osallistuneet eivät edusta otosjoukkoa tutkittavan asian suhteen, voi vastauskadosta aiheutuva harha olla estimoiduissa tunnusluvuissa hyvinkin suuri. Tutkimuksissa näkee usein julkaistavan vastausasteen ikään kuin se kertoisi aukottomasti tutkimuksen laadusta. Pelkkä korkea vastausaste ei kuitenkaan välttämättä takaa estimaattien harhattomuutta, sillä se ei kerro mitään vastanneiden ja vastaamattomien eroista tutkittavan asian suhteen. Tarvitaan siis muita mittareita, joilla vastanneiden laatua voitaisiin paremmin arvioida, ja R-indikaattori tarjoaa yhden vaihtoehdon. R-indikaattori mittaa otosalkioiden vastausalttiuksien välistä vaihtelua. R-indikaattorin estimoiminen edellyttää siis vastausalttiuksien estimointia, mikä puolestaan edellyttää apumuuttujien olemassaoloa kaikille otosalkioille. Vastausalttiuksien estimoimiseen käytettiin linkkifunktiona sekä logistista mallia että ja Särndalin ja Lundströmin (2008) vastausvaikutusten mallia. Vastauskäyttäytymiseen vaikuttavan apumuuttujajoukon valinta tehtiin alan kirjallisuuteen perustuen (Groves & Couper 1998). Koska R-indikaattorin estimaattori on satunnaismuuttuja, täytyi sille estimoida varianssi ja mahdollinen harha (Shlomo ym. 2009). Estimoinnissa käytettiin Bootstrap-pseudotoistomenetelmää, jossa alkuperäisestä aineistosta poimitaan niin kutsuttuja pseudo-otoksia, joiden avulla R-indikaattorin estimaattorille voidaan laskea keskivirhe. Suomen uhritutkimuspilotti koostui kolmesta eri tiedonkeruumenetelmällä poimitusta otoksesta: CAPI-, CATI- CAVVIotoksesta. Vastausasteet vaihtelivat aineistoissa paljon, mutta R-indikaattorin estimaatit olivat kaikille aineistoille liki samat. Suurempi vastausaste ei siis merkinnyt parempaa edustavuutta. Lisäksi CAVVI-aineistossa muistutusviestein ja -kirjein suoritettu vastausasteen kasvattaminen huononsi edustavuutta R-indikaattorin näkökulmasta. Mielivaltainen vastausasteen kasvattaminen ei siis ole välttämättä perusteltua. R-indikaattorin estimaattorin ominaisuuksien osalta empiiriset tulokset vahvistivat RISQ-projektin aiempia tutkimustuloksia. Estimaattorin arvo oli sitä pienempi mitä enemmän vastausalttiuden mallissa oli selittäjiä, koska tällöin vastausalttiuksien varianssi kasvoi (Schouten ym. 2009). Otoskoko vaikutti merkittävästi varianssin suuruuteen: mitä pienempi otoskoko oli, sitä leveämmät olivat luottamusvälit ja sitä vaikeampi oli tehdä johtopäätöksiä edustavuudesta.
Painotusmenetelmät survey aineiston muuttujien estimoimiseen

Helminen, Ville (2017)

Survey aineistojen estimoimisessa on monia haasteita. Esimerkiksi puuttuneisuus ja kenttätyön tuomat haasteet ovat esimerkkejä asioista, jotka tuovat haasteita survey tutkimuksiin ja sitä kautta harhaa, kun tutkimuksen kiinnostuken kohteina olevia muuttujia estimoidaan. Otanta-asetelman sekä kenttätyön luomat haasteet voidaan usein ratkaista hyvällä suunnittelulla ja perusteellisella työskentelyllä. Puuttuneisuutta eli vastauskatoa ei voida kuitenkaan ehkäistä pelkästään hyvällä suunnittelulla. Puuttuneisuus onkin survey aineistoista lasketuissa estimaateissa suurin harhaa aiheuttava tekijä. Puuttuneisuus voidaan jakaa yksikkövastauskatoon sekä erävastauskatoon. Tämän tutkielman menetelmillä pyritään vähentämään nimenomaan yksikkövastauskadon tuomaa harhaa. Tätä harhaa voidaan vähentää painottamalla satunnaisotannan kautta saatu aineisto. Painotusmenetelmillä on tarkoitus painottaa otokseen valitut ja kyselyyn vastanneet vastaajat niin, että ne edustaisivat tutkimuksen tavoiteperusjoukkoa mahdollisimman hyvin. Painotusmenetelmät voidaan jakaa peruspainotukseen ja uudelleenpainotukseen. Peruspainotuksen ideana on luoda pohja uudelleenpainotukselle. Uudelleenpainotuksen ideana on eri lähteistä saatavia aputietoja hyväksikäyttäen luoda mahdollisimman hyvät uudet painot, joidenka avulla voidaan estimoida mahdollisimman harhattomasti joitakin kiinnostuksen kohteena olevia muuttujia. Tässä tutkielmassa käydään läpi niin peruspainotus, kuin uudelleenpainotuskin. Tutkielmassa esittelen tyypillisimmät uudelleenpainotus menetelmät. Näitä on muun muassa: jälkiositus, kalibrointi ja vastaustodennäköisyysmalleihin perustuvat painotus. Tutkielman lopuksi lasken joitakin estimaatteja käyttäen eri painoja, joita olen tutkielman aikana luonut. Tutkielmassa olevat kiinnostuksen kohteena olevat muuttujat ovat peräisin vuoden 2014 ESS (European social survey) datan pohjalta luodusta aineistosta. Tutkielmassa kiinnostuksen kohteena olevia muuttujia olivat muuttujat liittyen luottamukseen, terveyteen, onnellisuuteen ja kotitalouden tuloihin. Tutkielmassa saatiin selville, että sillä mitä painotusmenetelmää käytetään ja mitä aputietoja käytetään, saadaan selkeästi erilaisia painotuksia aineistoille ja sitä kautta erilaisia estimaatteja tutkittaville muuttujille. Tutkielman aikana ilmenee selkeästä, että esimerkiksi kalibroinnilla luodut painot ja niiden avulla lasketut estimaatit parantavat tuloksia selkeästi. Yksi mielenkiintoinen löydös tutkimuksessa oli se, kuinka paljon jokin yksittäinenkin lisätieto tai sen puuttuminen voi muokata painoja ja sitä kautta estimaatteja. Lopulta parhaat painot saadaan luotua vastaustodennäköisyysmallien ja kalibroinnin yhdistelmällä. Tutkielmassa laskettujen estimaattien arvot saivat liian suuret arvot, kun ne laskettiin ilman painotusta tai pelkän peruspainotuksen avulla. Tämä ilmiö tapahtui lähes kaikissa tutkielmassa lasketuissa estimaateissa. Ja lopulta pystyttiin myös toteamaan, että lähes kaikkien tutkittavien muuttujien estimaatit erosivat toisistaan tilastollisesti merkitsevästi, kun vertailtiin estimaatteja, jotka laskettiin ilman painotusta ja parhailla mahdollisilla painotus-menetelmillä.
Pienalue-estimointimenetelmät : Sovelluskohteena suomalaisten koettu toimeentulo vuonna 2009

Maunula, Nico (Helsingin yliopistoHelsingfors universitetUniversity of Helsinki, 2012)

Pienalue-estimoinnilla tarkoitetaan erilaisten tunnuslukujen estimointia jonkin perusjoukon, eli populaation osajoukoille. Osajoukkoja on tavallisesti paljon, jolloin otoskoko pienenee. Nämä osajoukot voivat olla tyypiltään esim. maantieteellisiä tai sosiaalisia (esim. ikä-sukupuoli-rotu -ryhmittely). Pienalue-estimointimenetelmiä käytetään normaalisti aluetilastoihin ja otantaperusteisiin haastattelututkimuksiin. Tutkielmassani vertaillaan eri pienalue-estimointimenetelmien ominaisuuksien eroja teoreettisesti sekä soveltamalla kahteen eri aineistoon. Sovellettuja menetelmiä on kolme: otanta-asetelmaan perustuva HT-estimointi on yksinkertaisin ja karkein menetelmä, joka toimii vertailukohtana kahdelle muulle tilastollista mallia hyödyntävälle menetelmälle. GREG ja EBLUP -estimoinnit käyttävät erilaisia malleja tuomaan vahvaa lisäinformaatiota tehostamaan estimointia. Nämä menetelmät lainaavat voimaa , eli ne käyttävät hyödykseen myös muiden kuin tutkittavana olevan osajoukon alkioiden informaatiota. Ensimmäinen aineisto on synteettinen Länsi-Suomen läänin populaatiodata, johon menetelmiä sovelletaan simulatiivisesti. Data on monistettu koko populaatioksi oikeista havainnoista, joten kyseessä on siis fiktiivinen aineisto. Tulosmuuttujan (=kotitalouksien käytettävissä olevat tulot) oikeat arvot tunnetaan kaikilta perusjoukon havainnoilta, joka mahdollistaa menetelmien harhaisuuden tutkimisen. Tämä ei ole mahdollista oikealla otosaineistolla. Kaksi eri simulointitilannetta konstruoidaan: ensimmäisenä osajoukkomuuttujana on seutukunta, jolloin osajoukkoja on 36 kpl. Toisessa tilanteessa tutkitaan ikäryhmä-sukupuoli-seutukunta -jaottelua, jolloin osajoukkojen määrä kymmenkertaistuu ja otoskoot pienenevät dramaattisesti. Tarkastelussa ovat erityisesti estimaattorien suhteellinen harha ja keskineliövirhe (MSE) tuhannen simulaation yli. Tuloksista käy ilmi, että malliperusteinen EBLUP-estimaattori on erittäin harhainen, vaikkakin tarkka menetelmä (pieni MSE). Sen sijaan asetelmaperusteiset HT ja GREG -estimaattorit ovat likimain harhattomia, mutta epätarkkoja. Estimointi paranee, kun osajoukkojen otoskoko kasvaa. Tulokset tukevat teoriaa. Toinen data on empiirinen, oikean maailman aineisto; Tilastokeskukselta saatu EU-SILC -tutkimuksen Suomen otosaineisto vuodelta 2009. Aineisto kattaa vajaan 11 000 suomalaisen vastaukset erilaisiin hyvinvointi-, elinolo- ja tulokysymyksiin. Tutkittavaksi muuttujaksi valikoitui Tilastokeskuksen toiveesta ihmisten koettu toimeentulo, joka mittaa vastaajan subjektiivista näkemystä omasta toimeentulostaan (asteikolla 1-6). Tilastokeskuksen rekistereistä linkitettiin useita voimakkaita apumuuttujia aineistoon lisäinformaation lähteeksi. Estimaattoreiden keskivirheitä sekä tulosmuuttujan osajoukkokohtaisia keskiarvoja tutkitaan, vaikkakin koettua toimeentuloa ei tulkita ilmiönä. Osajoukkomuuttujina toimivat maakunta ja seutukunta. Tuloksista havaitaan samoja asioita, kuin simulatiivisessa tarkastelussa aiemmin; estimointi tehostuu, eli keskivirheet pienenevät, kun otoskoko kasvaa ja menetelmistä EBLUP on tarkin. Harhan vaara on kuitenkin muistettava EBLUP-estimaattorin kohdalla, vaikka sitä ei voidakaan laskea tässä tapauksessa. Tilastollisia malleja käyttävät menetelmät GREG, MGREG ja EBLUP ovat reilusti yksinkertaista HT-estimaattoria tarkempia. Vahvalla lisäinformaatiolla on siis selvä vaikutus estimoinnin parantumiseen. Lineaarisen sekamallin satunnaistermillä ei ole suurta vaikutusta estimointiin, sillä kiinteiden tekijöiden mallia käyttävä GREG ja sekamallia käyttävä MGREG ovat keskivirheitä tarkasteltaessa hyvin lähellä toisiaan. Myös tunnettujen osajoukkokokojen käyttöä tutkitaan ja käy ilmi, että tunnettuja osajoukkokokoja kannattaa hyödyntää estimoinnissa, mikäli mahdollista. Sovelluksissa onnistutaan tuottamaan mielenkiintoisia, pienalue-estimoinnin teoriaa tukevia tuloksia. Asetelmaperusteiset menetelmät (HT, GREG) ovat likimain harhattomia, mutta ovat epätarkkoja menetelmiä. Sen sijaan malliperusteiset menetelmät (EBLUP) ovat harhaisia, mutta tarkkoja menetelmiä. Voimaa lainaavien, epäsuorien estimaattoreiden avulla voidaan myös tuottaa estimaatteja osajoukoille, joissa ei ole yhtään havaintoa, joskin tulokset ovat luonnollisesti tällöin harhaisia. Parasta menetelmää ei voida yksiselitteisesti määrittää; toiset soveltuvat eri tilanteisiin paremmin kuin toiset. Täytyy myös tietää, millaisia tuloksia mieluummin halutaan; harhattomia vai tarkkoja. Yleisesti ottaen pienalue-estimointimenetelmät lisäävät otosaineistojen hyödyntämismahdollisuuksia ja ovat erinomaisia työkaluja alueellisten tunnuslukujen tuottamisessa.
Probabilistic quantification of bacterial strain mixtures

Mäklin, Tommi (2017)

DNA sequencing has seen a rapid decrease in price during the last decade. As a result, routine sequencing of bacterial colonies in both clinical and environmental sources is becoming increasingly available. However, accurate identification of the bacterial strains colonizing a sample remains difficult especially in the presence of multiple organisms. Traditional methods based on culturing the bacteria are laborous and ineffective, while methods based on sequencing data have trouble differentiating between closely related variants of the species. Accurate identification of the species or strains contained in a sample would be desirable both in metagenomic studies and in improving the quality of hospital care. The aim of this thesis was to develop a computational method for accurate bacterial strain identification. Based on recent advancements in sequencing read alignment and application of Bayesian inference to bacterial strain identification, the thesis introduces a pipeline capable of rapid and accurate strain identification from high-throughput sequencing data. By representing the within-species variation with multiple reference genomes that have been clustered, the pipeline is able to accurately determine the cluster proportions in a sample from pseudoalignment of reads to the reference genomes. The proportions are estimated using a variational Bayesian method. Accuracy of the method is evaluated on both real and synthetic data containing reads originating from Staphylococcus aureus, Staphylococcus epidermidis, Klebsiella pneumoniae, Campylobacter jejuni and Campylobacter coli. In all cases the cluster proportions are accurately identified and performance is significantly better than that of existing methods.
Producing data-driven component health predictions with hidden Markov model

Soininvaara, Katri (2017)

In condition-based maintenance data is collected from a machine to provide advice on frequency and location of developing faults. Statistical inference is needed to transform the data into information on the health of the machine. The ultimate goal is to minimise the machine down-time due to unexpected breakage. Predictive maintenance attempts to forecast the condition of the machine components from the observed data, and to maintain the machine just before it breaks down. The research question this thesis aims to solve is how to diagnose and predict component health based on data collected from the machine. Based on the literature, hidden Markov model is selected for further study. There is usually uncertainty relating to the parameters and structure of the model due to the complicated causal relationships in the modelling problem. Therefore the thesis concentrates in finding a suitable inference algorithm which is able to learn the model from data. Six different frequentist and Bayesian algorithms are tested with a synthetic example. A hypothesis is put forward that a hybrid genetic variational Bayesian algorithm could be used to find the best performing hidden Markov model of component health. As expected, the hybrid variational algorithm performs better than the other examined algorithms, especially when there is uncertainty relating to the model structure. However, since there typically is an imbalance between the data depicting faults and the data depicting the normal behaviour, the simulated test case shows that even the best performing variational algorithm has difficulties in identifying the correct model. This results in increased uncertainty in the health predictions. The thesis confirms that the hidden Markov model has many good qualities for modelling component health based on remote monitoring data. Due to the versatility of the model, it can be modified to account for the many details of component degradation behaviour in different machines.
Puhelinlaitteen käyttöiän mallintaminen ja ennustaminen Satunnainen metsä -algoritmilla

Kämäräinen, Emma (2018)

Tässä työssä aiheena oleva mobiilipuhelimien käyttöiän mallintaminen ja ennustaminen on osa teleoperaattori DNA Oyj:n laitemallia. Laitemalliin kuuluu asiakkaan seuraavan puhelinlaitteen ostoajanhetken, hinnan ja valmistajan ennustaminen. Ostoajanhetken arviointi on olennainen tieto yrityksille, jotka myyvät mobiililaitteita, sillä sen avulla voidaan ajoittaa laitesuositteluja sekä tehdä asiakkaalle ajankohtaisia toimenpiteitä. Käyttöiän mallintamista varten haettiin aineisto DNA Oyj:n tietokannasta, jota jatkojalostettiin mallinnukseen sopivaksi. Aineistoa kertyy koko ajan lisää, jonka takia mallinnuksessa käytetty aineisto muuttuu jopa päivittäin. Laitemallia ajetaan DNA Oyj:n tuotantoympäristössä ja sen tulokset ovat operatiivisessa käytössä. Tutkielmani alussa esittelen mallinnuksessa käytettävän satunnainen metsä-algoritmin, joka on päätöspuiden kokoelmaan perustuva menetelmä. Ensin kerron hieman algoritmin historiasta ja sen teoreettisesta taustasta. Algoritmin toiminnan ymmärtämiseksi esittelen myös muita koneoppimisen menetelmiä, jotka ovat oleellinen osa algoritmia. Satunnainen metsä- menetelmässä on monia hyviä ominaisuuksia, joita täsmennän teoriaosuuden yhteydessä. Menetelmän suorituksen yhteydessä voidaan esimerkiksi laskea selittäville muuttujille niiden tärkeys mallinnuksessa. Algoritmin teorian esittelyn jälkeen määrittelen vielä muutamia metriikoita, joita käytän mallinnusvaiheessa tulosten analysoinnissa ja validoinnissa. Seuraavaksi kuvailen työssä käytetyn aineiston. Aineiston hakuja tehtiin kaksi, joista toinen on mallin koulutusaineistoa varten ja toinen on aineisto, jolle lopulliset ennusteet muodostetaan. Aineistoissa on paljon muuttujia, joten esittelen ne kahdessa osassa. Ensin kerron laitteeseen liittyvät ominaisuudet ja sen jälkeen asiakkaaseen liittyvät tiedot. Laitteiden ostopäivätiedoista saatiin selville mallinnuksen selitettävä muuttuja, puhelimen käyttöaika, joka luokiteltiin kolmen kuukauden tarkkuudella. Ostopäivän lisäksi puhelinlaitteesta on tiedossa monenlaisia teknisiä ominaisuuksia, muun muassa laitteen käyttöjärjestelmä sekä 4G- kyvykkyys. Asiakkaan tiedoista mallinnuksessa käytettiin demografisia tietoja, kuten sukupuolta ja ikää. Lisäksi hyödynnettiin asiakkaan ilmoittaman osoitetiedon perustella määriteltyä laajakaistasaatavuutta ja mobiilidatan käyttöön liittyviä muuttujia. Aineiston esittelyn jälkeen kerron varsinaisesta mallinnuksesta. Mallinnuksen yhteydessä tutkin eri parametrien vaikutusta ennustetuloksiin. Optimaalisten parametrien avulla luotiin luokkaennusteet mobiililaitteiden käyttöiälle. Eräs satunnainen metsä- algoritmin ominaisuus liittyy siihen, että menetelmän suorituksen yhteydessä pystytään arvioimaan sen tuottamia tuloksia aineistolle, jota menetelmä ei ole käyttänyt kyseisellä suorituskerralla mallin rakentamiseen. Arviointiin käytettiin luokittelumenetelmiin sopivia metriikoita, joiden perusteella algoritmi ennustaa onnistuneesti suuren osan aineistosta. Parametrien määrittämisen ja mallin kouluttamisen jälkeen muodostettiin luokat ennusteaineistolle. Lopullisten ennusteiden paikkansapitävyyttä ei voida arvioida, ennen kuin asiakas ostaa uuden puhelimen. Joissakin tapauksissa vaihtoon voi mennä useampi vuosi. Päätän opinnäytetyöni arvioimalla menetelmän toimivuutta ja pohtimalla laitevaihdon taustalla olevia muuttujia. Vaikka työssä oli käytössä rikas aineisto, puhelinvaihdon luultavasti yleisintä syytä eli laitteen vikatilannetta ei ollut saatavilla työn tekohetkellä. Laitevaihdon syihin perustuvan aineiston lisääminen parantaisi mallinnuksen tuloksia entisestään. Lopussa pohdin myös tuotannossa ajettavan, päivittäin muuttuvan mallinnuksen haasteita. Eräs mallinnuksen tuloksiin vaikuttava tekijä on muuttumattomat parametrit, jotka aineiston muuttuessa eivät välttämättä tuota enää parhaita ennustetuloksia. Laitemallia aiotaan kehittää entistä paremmaksi DNA Oyj:llä.
Puuttuvuus GeneRISK-tutkimuksen perustietokyselyssä

Bergman, Paula (2017)

Imputoinnilla tarkoitetaan sellaisia tilastollisia menetelmiä, joiden tarkoitus on täydentää puuttuvuutta sisältävää aineistoa. Puuttuvuus on iso ongelma tutkimuksissa, ja usein puuttuvat havainnot ja jopa kokonaiset havaintorivit jätetään huomiotta analyysejä tehdessä. Tämä voi kuitenkin merkittävästi vääristää analyysien tuloksia. Tässä tutkielmassa esitellään erilaisia puuttuvuuden tyyppejä, käydään läpi puuttuvuuden mahdollisia syitä ja perehdytään erilaisiin imputointimenetelmiin. Imputointimenetelmien käyttöä havainnollistetaan esimerkeillä, jotka liittyvät GeneRISK-tutkimuksen perustietokyselyyn. GeneRISK-tutkimuksella pyritään selvittämään erityisesti sydän- ja verisuonitautien taustalla piileviä perinnöllisiä riskitekijöitä, sekä sitä, kuinka riskitiedon saaminen vaikuttaa yksilöiden myöhempään terveyskäyttäytymiseen. Puuttuvuuden tyyppi vaikuttaa imputointimenetelmän valintaan, ja tutkielmassa esitelläänkin niin täysin satunnainen, satunnainen, kuin ei-satunnainenkin puuttuvuus. Lisäksi sivutaan suunniteltua puuttuvuutta ja aineiston rakentamisvaiheessa syntyvää puuttuvuutta. Jos vastauksia puuttuu yksittäisiltä vastaajilta osasta kysymyksiä, on kyse erävastauskadosta, ja jos aineistosta puuttuu kokonaisia havaintorivejä, puhutaan yksikkövastauskadosta. Tutkielmassa keskitytään erävastauskatoon. Tutkielmassa käytetään GeneRISK-tutkimuksen Kymenlaakson sairaanhoito- ja sosiaalipalvelujen kuntayhtymä Carean perustietokyselyaineistosta 18.1.2016 jäädytettyä otosta, ja sieltä valikoituja 1278 havaintoriviä. Tutkielmaan valikoitiin kiinnostuksen kohteena oleviksi muuttujiksi ruokailuun ja liikuntatottumuksiin liittyviä muuttujia, sekä taustamuuttujia. Aineistosta poistettiin kaikki sellaiset rivit, jotka sisälsivät puuttuvuutta näissä muuttujissa, ja tämän jälkeen täydelliseen aineistoon simuloitiin eri tyyppisiä puuttuvuuksia. Puuttuvuutta pyrittiin korjaamaan niin yksinkertaisilla imputointimenetelmillä kuin kahdella erilaisella moni-imputointimenetelmälläkin. Yksinkertaisiin imputointimenetelmiin lukeutuu mm. mediaani-imputointi. Ehdollisten mallien moni-imputoinnin ja yhdistettyjen mallien moniimputoinnin on osoitettu kirjallisuudessa toimivan paremmin kuin yksinkertaisten imputointimallien, mutta tätä ei tässä tutkielmassa pystytty osoittamaan. Yhtenä syynä tähän saattaa olla kiinnostuksen kohteeksi valikoituneiden muuttujien väliset riippumattomuudet, sekä vastaajien keskinäinen samankaltaisuus. Edelleen hyvin yleinen tapa käsitellä puuttuvuutta on jättää se kokonaan huomiotta. Tutkielmassa kuitenkin huomataan, kuinka radikaaliin aineiston hupenemiseen se voi johtaa. Tutkielmassa osoitetaankin erityisesti se, kuinka tärkeää puuttuvuutta on tarkastella monelta eri kantilta aina puuttuvuuden syistä aineiston jatkokäyttötarkoituksiin asti.
Pyöräkerran optimaalisen huoltosorvausstrategian valinta hyödyntämällä regressiomenetelmiä

Rintala, Teemu (2018)

VR:n liikkuvan kaluston huolto- ja vikakorjauskustannuksista huomattavan suuri osa kohdistuu kalustoyksilöt raiteilla pitäviin pyöräkertoihin. Pyöräkerran pyörän profiili kuluu raiteeseen kohdistuvan jatkuvan paineen ja poikittaisliikkeen aiheuttamasta rasituksesta. Laite on huollettava, kun se on kulunut lähelle ennalta määriteltyjä raja-arvoja. Ennalta määritellyt huoltovälit ja profiilista laskettavien parametrien raja-arvot perustuvat valmistajien luomiin huoltokäsikirjoihin sekä Kunnossapidon teknisten asiantuntijoiden tutkimustuloksiin. Huoltosorvausten ajankohdan valinnalla on mahdollisuus vaikuttaa pyöräkerran elinkaaren pituuteen ja sen kustannuksiin. Soveltamalla regressio- ja ryhmittelyanalyysiä sekä simulointimenetelmiä, voidaan tutkia miten pyörän profiilista laskettavalle laipan paksuudelle asetetut raja-arvot ja erityyppiset pyörän vaurioitumistiheydet vaikuttavat pyöräkerran elinkaarikustannuksiin. Tutkielmassa esitetyn työkalun avulla on mahdollista etsiä elinkaarikustannuksia minimoivaa huoltosorvausstrategiaa.
Quasi-pseudolikelihood in Markov network structure learning

Heikkilä, Mikko (2016)

Probabilistic graphical models are a versatile tool for doing statistical inference with complex models. The main impediment for their use, especially with more elaborate models, is the heavy computational cost incurred. The development of approximations that enable the use of graphical models in various tasks while requiring less computational resources is therefore an important area of research. In this thesis, we test one such recently proposed family of approximations, called quasi-pseudolikelihood (QPL). Graphical models come in two main variants: directed models and undirected models, of which the latter are also called Markov networks or Markov random fields. Here we focus solely on the undirected case with continuous valued variables. The specific inference task the QPL approximations target is model structure learning, i.e. learning the model dependence structure from data. In the theoretical part of the thesis, we define the basic concepts that underpin the use of graphical models and derive the general QPL approximation. As a novel contribution, we show that one member of the QPL approximation family is not consistent in the general case: asymptotically, for this QPL version, there exists a case where the learned dependence structure does not converge to the true model structure. In the empirical part of the thesis, we test two members of the QPL family on simulated datasets. We generate datasets from Ising models and Sherrington-Kirkpatrick models and try to learn them using QPL approximations. As a reference method, we use the well-established Graphical lasso (Glasso). Based on our results, the tested QPL approximations work well with relatively sparse dependence structures, while the more densely connected models, especially with weaker interaction strengths, present challenges that call for further research.
Robustin lineaarisen sekamallin soveltaminen DNA-metylaatiointensiteetin mallintamiseen

Karell, Pauliina (2018)

Epigenetiikka on perinnöllisyystieteen ala, jossa tutkitaan ulkoisesti mitattavia ominaisuuksia ilmiasuja, joiden muutokset ilmenevät DNA-juosteen kemiallisina muutoksina. Nämä muutokset eivät ole periytyviä, kuten ihmisen DNA, vaan muokkautuvat ympäristön vaikutuksesta. Metylaatio on eräs epigeneettisistä muutoksista, jotka vaikuttavat geenisäätelyyn. Epigenetiikan avulla on pyritty selittämään eroja muun muassa samanmunaisten kaksosten välillä, ja tutkijoiden mielenkiinto on kohdistunut erityisesti metylaatioon sen helpon mitattavuuden ansiosta. Ihmisiltä erilaisia metyaatioalueita perimästä on kartoitettu noin 400 000, joista osan on tiedetty liittyvän esimerkiksi syövän ilmenemiseen. Tämä tutkielma keskittyy epigeneettisen aineiston tilastolliseen mallinnukseen kaksosaineistossa. Tutkittavaksi ilmiasuksi on valittu ikä, sillä iän on todettu olevan yhteydessä erilaisiin metylaatiomutooksiin. Monissa epigeneettisissä tutkimuksissa käytetään usein kaksosaineistoja, sillä samanmunaiset kaksoset jakavat täysin identtisen perimän keskenään ja usein myös yhteisen kasvuympäristön. Kaksosaineistoa käyttämällä saadaan usein kontrolloitua ympäristöstä johtuvaa vaihtelua, mutta tilastollinen mallinnus vaatii havaintojen riippuvuuden huomioisen. Metylaatioaineistossa saattaa esiintyä myös paljon keskiarvosta poikkeavia havaintoja, jolloin kyseessä on paksuhäntäisestä jakaumasta. Paksuhäntäisissä jakaumissa poikkeavien havaintojen vaikutusta pyritään pienentämään käyttämällä robusteja tilastollisia menetelmiä, jolloin tulokset ovat paremmin yleistettävissä yleiseen väestöön. Tässä tutkielmassa on huomioitu tilastollisessa mallinnuksessa sekä havaintojen riippuvuus että paksuhäntäisyys käyttämällä lineaarista t-sekamallia, sillä t-jakauma on robustimpi vaihtoehto aineiston jakaumaoletukseksi kuin perinteinen normaalijakauma. Lineaarisen t-sekamallin parametrien estimoiminen on toteutettu bayesiläisellä päättelyllä, jossa estimoituja parametreja voidaan tarkastella todennäköisyysjakaumina. Bayesiläisen tilastotieteessä aineistosta tehdään päätelmiä käyttämällä erilaisia todennäköisyysmalleja, mikä mahdollistaa monipuolisen ja joustavan mallimäärittelyn. Käyttämällä erilaista prioritietoa parametrijakaumista, mallin tuloksia voidaan arvioida joustavasti ja monipuolisesti. Tässä tutkielmassa lineaarisen t-sekamallin parametreille on määrätty erilaisia jakaumaoletuksia, jotta perhettä ja kaksosuutta on kyetty mallintamaan riittävästi. Varsinainen estimoitu on toteutettu rakentamalla stokastinen Markovin ketju, jota kutsutaan myös Gibbsin otannaksi. Tässä tutkielmassa selvitettiin iän vaikutusta kolmee erilaiseen metylaatikohtaan ja havaittiin, että kaikissa kolmessa metylaatiokohdassa iän kasvaessa myös metyloituneisuus kasvoi. Eräs kolmesta metylaaatioalueesta on erityisen mielenkiintoinen, sillä vastaavissa tutkimuksissa on saatu samankaltaisia tuloksia ja kyseinen metylaatioalue sijaitsee PDE4C-geeniä ilmentävässä alueessa. Kyseinen geeni vaikuttaa monien muiden solujen aktiivisuuten tuottamalla proteiinia, joka välittää signaaleja solun ulkopuolelle.
Robustit menetelmät logistisessa regressiossa

Palviainen, Teemu (2014)

Tutkielmassa esitellään keskeisimpiä robusteja menetelmiä logistiselle regressiomallille. Menetelmien toimivuutta ja käyttökelpoisuutta selvitetään kokeellisesti empiirisen aineiston sekä simulointimallin avulla. Eri menetelmien välisiä eroja on pyritty selvittämään kokeellisten tarkasteluiden yhteydessä.

Now showing items 41-60 of 87

Browsing by discipline "Statistics"

Yhteystiedot

HELSINGIN YLIOPISTO