Browsing by discipline "Statistik"

Now showing items 1-20 of 23

Edustavuuden kehitys kuluttajabarometrissa siirryttäessä yhdistelmätiedonkeruuseen

Hyhkö, Simo Heikki (2020)

Otoksen edustavuus on yksi keskeisimpiä asioita kyselytutkimusten hyvyyttä tarkasteltaessa. Edustavuutta voi mitata usealla eri tavalla. Perinteisin mittari on vastausaste. Korkea vastausaste ei kuitenkaan ole yksinään mikään tae otoksen edustavuudesta. Toimivia edustavuusmittareita on pitkään pyritty kehittämään. Yksi näistä on $R$-indikaattori, jota tässä tutkielmassa tarkastellaan. Tilastokeskuksen perinteisen Kuluttajabarometrin sisältöä muutettiin toukokuussa 2019. Keskeisimmät muutokset olivat: 1) siirtyminen yhdistelmätiedonkeruuseen, 2) ikäjakauman kaventaminen 3) osan haastattelukysymyksistä vaihtuminen. Samassa yhteydessä tutkimuksen nimeksi vaihdettiin Kuluttajien luottamus. Tämän tutkielman kannalta keskeisin mainituista muutoksista oli siirtyminen puhelinhaastatteluista yhdistelmätiedonkeruuseen. Tutkielman tarkoituksena on selvittää haastattelutavan muutoksen vaikutusta otoksen edustavuuteen. Edustavuusmittariksi valittiin $R$-indikaattori. Tutkimusaineistona oli kuluttajabarometridata vuoden 2012 tammikuusta vuoden 2019 toukokuuhun. Kuluttajabarometridatan lisäksi käytössä oli Kuluttajien luottamus -tutkimuksen data neljältä ensimmäiseltä kuukaudelta toukokuusta elokuuhun 2019. Tutkimuksen tuloksena oli, että siirtyminen yhdistelmätiedonkeruuseen ei heikentänyt otoksen edustavuutta. Toisaalta kävi kuitenkin ilmi, että $R$-indikaattorin saamat arvot eivät koko tutkimusperiodilla olleet valittujen hyvyysrajojen mukaan riittävän korkealla tasolla. Toinen tarkastelluista muutoksista oli ikäjakauman kaventaminen molemmista päistä. Yläpäästä jätettiin kokonainen ikäluokka pois (75-84 v.). Alapäästä jätettiin pois osa nuorimmasta ikäluokasta (15-17 v.). Vanhin ikäluokka oli aktiivisin vastaajaryhmä ja vastaavasti nuorin ikäluokka oli passiivisin vastaamaan. Ikäjakauman kaventaminen ei kuitenkaan heikentänyt otoksen edustavuutta. Edustavuuden kehityksen lisäksi tarkasteltiin vaihtoehtoisia edustavuusindikaattoreita ja $R$-indikaattorin erilaisia versioita. Suurin osa vaihtoehtoisista indikaattoreista antoi hyvin samankaltaisia tuloksia, kuin $R$-indikaattori. Mikään testatuista vaihtoehtoisista indikaattoreista ei osoittautunut merkittävästi helpommin tulkittavaksi kuin $R$-indikaattori.
Effects of Corpus Size on Word Similarity Model

Oksanen, Joni (2020)

Text mining methods provide a solution to the task of extracting relevant information from large text datasets. These methods can be applied to extract the relevant parts of Suomi24 internet health discussion to analyze how people discuss and negotiate their health through words, which represents medication or symptoms. Semantic similarities between these two concepts can be examined by learning the word vector representations from data and exploring the vector space using Word2Vec, a popular word embedding method. This thesis reviews how the training of word similarity models is affected by increasing corpus size using text retrieval methods.The effects of corpus size are examined by comparing the measured cosine similarity distances between word vectors representations in two different vector spaces. Word vector representations are learned using two different sized corpora. The first corpus includes only messages from the health discussion area of Suomi24. The second corpus includes the same messages as the first corpus, but also messages from other discussion areas, which include health related words. Cosine similarities are evaluated on using concept vocabularies including relevant health related words. Increasing the number of training examples by almost 30% did not have a drastic effect on the qualities of the training data. The results did not indicate a distinct connection between corpus size and the measured cosine similarity distances between word vector representations of health related words.
Ehdollinen logit-malli ja naiivi Bayes-luokittelija : Kaksi eri tapaa diskreetin valinnan päättelyyn

Lehtimäki, Aku-Ville (2018)

Diskreetillä valinnalla tarkoitetaan tilannetta, jossa valitsijan pitää valita jokin vaihtoehto äärellisestä vaihtoehtojen joukossa. Yksilön käyttäytymisen taustalla ajatellaan yleisesti olevan taloustieteellinen, individualistinen suuntaus, jonka myötä valitsija pyrkii maksimoimaan hyötynsä. Tämän lisäksi valitsijan ajatellaan olevan rationaalinen eli toimivan tiettyjen aksiomien mukaisesti. Paradigmasta riippuen valitsijan preferenssit voivat olla satunnaiset tai deterministiset ja valitsija voi valita myös vahingossa väärin, jolloin preferenssi tai sen estimaattori on satunnaismuuttuja. Aineisto, joka kuvaa diskreettiä valintaa, kerätään siten, että valitsijalla tai valitsijoille arvotaan joukko vaihtoehtoja, jotka koostuvat eri attribuuttien tasoista. Attribuutti on ominaisuus, esimerkiksi väri, ja sen tasoja ovat esimerkiksi punainen, vihreä ja sininen. Näin yhdellä vaihtoehdolla ei voi olla saman attribuutin kahta tasoa. Toisaalta attribuuttien määrää ei ole rajoitettu. Näiden varsinaisten vaihtoehtojen lisäksi valitsijalle on tapana esittää ei mikään -vaihtoehto, jonka valitsemalla hän pääsee pois valintatilanteesta, eikä hän esimerkiksi joudu pakotettuna valitsemaan satunnaisesti jotakin vaihtoehdoista. Jokaisesta valintatilanteesta kirjataan ylös valittavina olleet vaihtoehdot sekä tieto siitä, mikä vaihtoehto valittiin. Perinteisesti edellä kuvattua tilannetta on estimoitu ehdollisella logit-mallilla. Se on yleistetty lineaarinen malli, eikä sen avulla eri vaihtoehtojen valintatodennäköisyyksille ole mahdollista saada analyyttisia ratkaisuja. Tämän lisäksi ei mikään -vaihtoehto tuottaa sille vaikeuksia, sillä se on oikeastaan multinomiaalisen logit-mallin luokka, ja esittämällä sen attribuuttien tasot neutraaleina tasoina lopputulemana on lineaarisen riippuvuuden ongelma. Asian ratkaisemiseksi jonkinlainen simulointi on välttämätön. Tässä pro gradu -tutkielmassa ehdollisen logit-mallin rinnalle tuodaan naiivi Bayes-luokittelija, jonka avulla on mahdollista laskea analyyttiset ratkaisut valintatodennäköisyyksille sekä ottaa mukaan ei mikään -vaihtoehto yhtenä luokkana. Kahden aineiston avulla osoitetaan, että molemmat menetelmät ennustavat yhtä hyvin, joten tämän perusteella naiivia Bayesluokittelijaa voi käyttää siinä missä ehdollista logit-malliakin sekä lisäksi aina silloin, kun numeerinen approksimoinnin käyttäminen ei tule kysymykseen. Tämän lisäksi todetaan, että vastaajien, jotka valitsivat ei mikään -vaihtoehdon joka kohdassa, ja täten ovat mahdollisesti vähemmän kiinnostuneita tarjotuista vaihtoehdoista, poistaminen ei tee kummastakaan mallista toista parempaa, vaikkakin osumatarkkuus molempien mallien tapauksessa parani.
Jalkapallon tilastollinen analyysi käänteisen prosessin avulla

Vihtola, Ismo (2017)

Tutkimuksessa haluttiin selvittää, millä pelin osa-alueilla Suomen miesten jalkapallomaajoukkueen edesottamukset poikkesivat vastustajiinsa nähden karsittaessa vuoden 2016 Euroopan mestaruus lopputurnaukseen. Tutkimuksen tarkoituksena oli luoda menetelmä, jossa tilastolliseen analyysiin perustuen voidaan osoittaa pelin yksittäiset osa-alueet, joissa joukkue suoriutuu vastustajaansa paremmin tai huonommin. Menetelmän tuottaman informaation avulla voidaan toimenpiteet kohdistaa osa-alueisiin, joilla on eniten vaikutusta ottelun lopputuloksen kannalta. Tutkimuksessa selvisi että Suomen maajoukkueella ei ollut vastustajiinsa nähden selkeää etua millään pelin osa-alueella, joita tutkimuksessa mitattiin. Sen sijaan Suomen maajoukkue oli vastustajaansa selkeästi huonompi sekä erikoistilanteissa että maalintekoyrityksissä, joissa maalintekoa yritettiin puskemalla päällä. Tutkimuksen lopputuloksena luotiin myös menetelmä, jossa pelin eri osa-alueiden vaikutus lopputulokseen nähden on kvantitatiivisesti mitattavissa. Tälläistä menetelmää ei löytynyt tutkimusta valmisteltaessa, joten se luotiin osana tutkimusta. Menetelmän kantava ajatus on pelin kuvaaminen käänteisen prosessin mallina, jossa jalkapallopeli pilkotaan pienempiin kokonaisuuksiin, joiden mittaaminen on mielekästä ja mahdollista kvantitatiivisten menetelmien avulla.
Kalibrointiin ja vastaustaipumusmalliin perustuvat menetelmät surveyaineiston painotuksessa

Hämäläinen, Auli (2019)

Surveytutkimuksessa saadaan harvoin kerättyä täydellisen edustavaa aineistoa tavoitellulta vastaajajoukolta. Lähes aina osa vastauksista tai vastaajista jää puuttumaan. Puuttuneisuudella voi olla suuri merkitys aineiston tilastollisen analyysin kannalta. Se vähentää aineistosta laskettavien estimaattien tarkkuutta ja voi pahimmillaan myös aiheuttaa harhaa estimaatteihin. Otantatutkimuksessa virhettä tulee lisäksi itse otannasta. Puuttuneisuudesta ja otannasta johtuvia virheitä surveyaineistossa pyritään usein korjaamaan aineiston uudelleenpainotuksella. Tässä työssä on tutkittu kalibrointiin ja vastaustaipumuksen mallintamiseen perustuvien uudelleenpainotusmenetelmien vaikutusta estimoinnin laatuun, kun otosaineistosta halutaan estimoida erilaisten tutkimusmuuttujien keskiarvoja perusjoukossa. Näiden kahden eri lähestymistavan vertailun lisäksi on haluttu tutkia, voisiko vastaustaipumusmallilla tuotettuja painoja parantaa kalibroimalla (eli muodostamalla ns. yhdistelmäpainot). Käytetty tutkimusaineisto on peräisin Suomessa vuosien 2009 ja 2010 taitteessa toteutetusta EU-rikosuhritutkimuksen pilottivaiheesta. Aineisto sisältää erilaisten rikosten kohteeksi joutumiseen ja turvallisuuden tunteeseen liittyviä muuttujia. Rikosuhritutkimuksessa kerätty otosaineisto on tätä tutkimusta varten monistettu koko populaatiota edustavaksi synteettiseksi dataksi. Synteettisestä perusjoukosta on poimittu satunnaisotoksia jäljitellen aitoa otantatutkimuksen tilannetta. Eri tavoin painotetuista otoksista laskettuja estimaatteja on verrattu toisiinsa sekä tunnuslukujen oikeisiin arvoihin perusjoukossa. Painojen muodostuksessa ja tunnuslukujen estimoinnissa on käytetty SAS-ohjelmistoa. Kalibrointipainot on laskettu käyttämällä Calmar 2-nimistä SAS-makroa, jonka voi ladata ilmaiseksi Ranskan kansallisen tilasto- ja taloustutkimuslaitoksen INSEEn internetsivuilta. Estimoinnin tulosten perusteella voidaan todeta, että uudelleenpainotuksella pystyttiin parantamaan estimoinnin laatua lähes kaikkien tarkasteltujen muuttujien kohdalla. Kaikki painotusmenetelmät eivät kuitenkaan toimineet kaikissa tilanteissa yhtä hyvin. Estimoitaviksi oli tarkoituksella valittu eri tyyppisiä muuttujia. Toiset muuttujista olivat helpompia estimoitavia, eli painotuksella päästiin lähelle estimoitavan muuttujan oikeita arvoja. Osa muuttujista oli kuitenkin sellaisia, joiden kohdalla mikään uudelleenpainotus ei tuonut kovin hyviä estimointituloksia, vaan estimaatteihin jäi reilusti harhaa. Estimointituloksissa näkyi selviä eroja vertailtavien menetelmien välillä. Useimpien muuttujien kohdalla parhaat estimointitulokset saatiin yhdistelmäpainoilla. Yhdistelmäpainojen etu on se, että niissä yhdistyy yksilö- ja makrotason lisäinformaation hyödyntäminen estimoinnin harhan korjaamisessa. Myös puhtailla kalibrointipainoilla saatiin joidenkin muuttujien tapauksessa muita parempia tuloksia, mutta kyse oli sellaisista muuttujista, joiden kohdalla parhaatkaan estimaatit eivät olleet kovin harhattomia. Vastaustaipumusmallinnukseen perustuva menetelmä toimi yleisesti ottaen hyvin, mutta yhdistelmäpainot olivat yleensä vähän paremmat, eli kalibroinnista oli apua. Kalibroinnin kanssa on kuitenkin noudatettava varovaisuutta, koska sillä voidaan pahimmillaan myös huonontaa estimaattien laatua, kuten yhdessä esimerkkitapauksessa näkyi. Lähes kaikkien muuttujien kohdalla estimaatteihin jäi uudelleenpainotuksenkin jälkeen vielä harhaa, joten menetelmien suhteen jäi vielä parannettavaa. Kehitettävää voi löytyä vastaustaipumuksen mallinnuksessa itse mallista. Kalibroinnin tapauksessa on huomattava, että vaikka menetelmällä saadaan reunajakaumat täsmäämään, se ei kuitenkaan takaa, että itse tutkimusmuuttujat estimoituisivat hyvin. Uudelleenpainotuksessa on myös oletettu, että puuttuvuus voidaan selittää käytettävissä olevilla taustamuuttujilla, ja ettei se riipu tutkittavista muuttujista. Näin ei kuitenkaan välttämättä aina ole.
Kertymä-logit-regressioanalyysi lapsen tapaamisoikeuden täytäntöönpanopäätöksistä

Sanz, Aune (2019)

Vanhempien eroaminen koskettaa vuosittain noin 30 000 lasta, joiden oikeutta luoda ja säilyttää myönteinen ja läheinen suhde etävanhempaansa turvataan tapaamisoikeuden avulla. Tästä sopimuksesta tai tuomioistuimen päätöksestä huolimatta tapaamiset eivät aina toteudu, jolloin tapaamisoikeuden täytäntöönpanon kautta voidaan velvoittaa lapsen kanssa asuvaa vanhempaa sallimaan lapsen ja toisen vanhemman väliset tapaamiset tai yhteydenpito niiden mukaisesti. Tapaamisoikeuden täytäntöönpanoasiat muodostavat alle prosentin kaikista lapsen huoltoa ja tapaamisoikeutta koskevista riidoista ja yleensä täytäntöönpanoasiat päättyvät sovintoon. Harvalukuisuudestaan huolimatta riitaisilla asioilla, joissa tuomioistuin hylkää tai hyväksyy täytäntöönpanohakemuksen, on kuitenkin merkittävä vaikutus niin lapsiin, vanhempiin, perheisiin kuin yhteiskuntaankin käsittelyn ja ratkaisun kautta. Vaikka kyseessä on riita-asia, vain noin puolessa tapauksista hävinnyt osapuoli korvaa voittaneen oikeudenkäyntikulut. Tässä tutkielmassa pyritään kertymä-logit-mallin avulla tarkastelemaan, miten sellaiset seikat kuten täytäntöönpanoasian taustat, sovittelu, syytökset, lapsen tahto ja hakijan sukupuoli vaikuttavat käräjäoikeuden tulkintaan riidasta ja erilaisten lopputulosten todennäköisyyteen, kun huomioon otetaan täytäntöönpanon lisäksi oikeudenkäyntikulujen korvaaminen. Mallin oletusta verrannollisista vetokertoimista testataan kullekin selittäjälle erikseen. Aineistona käytetään Suomen käräjäoikeuksien tapaamisoikeuden täytäntöönpanopäätöksiä vuosilta 2000- 2018, joista osa on kerätty tutkielman yhteydessä. Lisäksi tutkielmassa avataan täytäntöönpanoasioiden käsittelyä, sekä siihen liittyviä käsitteitä ja ilmiöitä, kuten lapsen etua, vieraannuttamista ja sukupuolittuneita käsityksiä muun muassa lähi- ja etävanhemmuudesta. Valitun mallin perusteella hakijan sukupuoli ei vaikuta siihen, miten perustelluksi hakemus on nähty ja miten räikeäksi tapaamisoikeuden rikkomus tulkittu. Sen sijaan vanhemman toteen näytetyt syytökset vieraannuttamisesta, lapseen kohdistuneesta tuomitusta teosta, päihde- tai mielenterveysongelmasta, kasvatuskyvystä tai rikoksesta nostavat tälle vanhemmalle edullisemman lopputuloksen todennäköisyyttä. Tapaamisia vastustavien lasten ikä nostaa vastaajalle voitokkaamman lopputuloksen todennäköisyyttä. Vaikuttaisi kuitenkin siltä, että lapsen vastustus johtaa pikemminkin hakemuksen hylkäämiseen, kuin vastaajan oikeudenkäyntikulujen korvaamiseen. Kun vastaaja kiistää tapaamisoikeuden rikkomisen, erityisesti todennäköisyys, että hävinnyt hakija lisäksi korvaa hänen oikeudenkäyntikulunsa, kasvaa. Muita lopputulokseen vaikuttavia tekijöitä ovat sovittelijan tulkinta vastaajan myötävaikuttamisesta tapaamisiin, hakijan ulkomaalaisuus ja oikeudenkäyntiavustaja, vastaajan hakeman perustepäätöstä koskevan asian vireilläolo, vanhan uhkasakon maksettavaksi hakeminen sekä vastaajan tekemät syytökset kasvatuskyvystä tai rikoksista, jotka eivät kohdistu lapseen. Mallin selittäjien vaikutukset ovat uskottavia ja ymmärrettävissä, ja malli sopii aineistoon. Mallin ennustuskyky ei kuitenkaan ylitä hyvin ennustavan mallin rajaa, eikä verrannollisten vetokertoimien oletus pätenyt kaikkien malliin valikoituneitten selittäjien osalta. Toisenlaisen mallin, oletusta tukevien interaktiomuuttujien tai eri linkkifunktion kokeilemista voisi harkita. Tämän lisäksi voisi perehtyä enemmän siihen, mitkä taustat ja aikaisemmat lopputulokset ovat ominaisia uusiutuville riidoille.
Lapsen huoltoa ja tapaamisoikeutta koskevan täytäntöönpanon tilastollinen analyysi

Huotelin, Vesa (2017)

Tutkielmassa syvennytään lapsen huoltoa ja tapaamisoikeutta koskevaan täytäntöönpanoon kvantitatiivisin menetelmin. Analyysiä varten on kerätty 632 tapauksen aineisto kahdeksasta eri käräjäoikeudesta vuosilta 2000–2015. Tutkielma voidaan jakaa kahteen osaan: aineiston ja tilannekuvan esittelyyn sekä logistiseen regressiomalliin, joka ennustaa hakijan voittotodennäköisyyttä tapaamisoikeuden täytäntöönpanoasiassa. Tapaamisoikeuden täytäntöönpanossa hakijoiden sukupuolijakauma vastaa etävanhempien sukupuolijakaumaa väestössä. Hakija syyttää vastaajaa yleensä manipuloinnista tai vieraannuttamisesta, vastaajan syytökset liittyvät päihteisiin, väkivaltaan ja seksuaaliseen hyväksikäyttöön. Oikeus ei ota kantaa syytöksiin, ellei asian ratkaiseminen sitä edellytä. Suurin osa tapauksista päättyy sovintoon. Yli puolet riitaisista tapauksista päättyy uhkasakon asettamiseen, noutoa käytetään hyvin harvoin. Oikeudenkäyntikulut jaetaan usein tasan osapuolten kesken, vaikka asiassa olisi selvä voittaja. Joka neljäs tapaamisoikeutta koskeva täytäntöönpanoasia uusiutuu, ja lopputulos voi seuraavissa käsittelyissä muuttua kokonaan. Huoltoa koskeva aineisto on pieni, ja sitä käsitellään tutkielmassa vain lyhyesti. Isät hakevat huollon täytäntöönpanoa suhteellisesti useammin kuin äidit. Hakija syyttää vastaajaa kaappauksesta ja vieraannuttamisesta, vastaajan syytökset liittyvät useimmiten päihteisiin ja väkivallan uhkaan. Kaksi kolmesta tapauksesta päättyy lasten palauttamiseen sovinnollisesti tai täytäntöönpanon kautta. Noutoa käytetään täytäntöönpanon tehosteena usein. Logistinen regressiomalli rakennetaan pienin poikkeuksin taaksepäin askeltavalla muuttujavalinnalla. Parametrien estimoinnissa käytetään Firthin muokattua uskottavuusfunktiota, jolla kontrolloidaan pienen havaintomäärän aiheuttamaa harhaa approksimatiivisesti. Muuttujia karsitaan uskottavuusosamäärätestin sekä Akaiken informaatiokriteerin perusteella. Malli ennustaa kolme neljästä aineiston lopputuloksesta oikein. Sen erottelukykyä arvioidaan ROC-käyrällä ja yhteensopivuutta aineiston kanssa Hosmer-Lemeshow-testillä. Niiden perusteella mallia voidaan pitää käyttökelpoisena. Logistisen regressioanalyysin tulokset ovat: Toteen näytetty vastaajan syytös sekä varttuneen lapsen haluttomuus tavata hakijaa laskevat hakijan voittotodennäköisyyttä merkittävästi. Voittotodennäköisyyttä heikentävät myös vastaajan myönteinen suhtautuminen tapaamisiin sekä se, että hakija on äiti. Äidin menestymistä tutkitaan myös kahdella muulla logistisella regressiomallilla: Äidin hakema täytäntöönpanoasia päättyy sovintoon todennäköisemmin kuin isän, mutta sovinnot päättyvät hakijan kannalta yhtä hyvin tai huonosti riippumatta tämän sukupuolesta.
Learning pairwise Markov Network structures with logistic regression

Kuronen, Juri (2017)

This Master’s thesis introduces a new score-based method for learning the structure of a pairwise Markov network without imposing the assumption of chordality on the underlying graph structure by approximating the joint probability distribution using the popular pseudo-likelihood framework. Together with the local Markov property associated with the Markov network, the joint probability distribution is decomposed into node-wise conditional distributions involving only a tiny subset of variables each, getting rid of the problematic intractable normalizing constant. These conditional distributions can be naturally modeled using logistic regression, giving rise to pseudo-likelihood maximization with logistic regression (plmLR) which is designed to be especially well-suited for capturing pairwise interactions by restricting the explanatory variables to main effects (no interaction terms). To deal with overfitting, plmLR is regularized using an extended variant of the Bayesian information criterion. To select the best model out of the vast discrete model space of network structures, a dynamic greedy hill-climbing search algorithm can be readily implemented with the pseudo-likelihood framework where each Markov blanket is learned separately so that the full graph can be composed from the solutions to these subproblems. This work also presents a novel improvement to the algorithm by drastically reducing the search space associated with each node-wise hill-climbing run by first running a set of pairwise queries to isolate only the promising candidates. In experiments on data sets sampled from synthetic pairwise Markov networks, plmLR performs favorably against competing methods with respect to the Hamming distance between the learned and true network structure. Additionally, unlike most logistic regression based methods, plmLR is not limited to binary variables and performs well on learning benchmark network structures based on real-world non-binary models even though plmLR is not designed for their structural form.
Lineaarinen sekamalli rekisteripohjaisen lasten ja nuorten neuvola- ja kouluterveysaineiston analyysivälineenä

Mäntymaa, Petteri (2020)

Terveyden ja hyvinvoinnin laitoksen FinLapset-rekisteri tutkii lasten ja nuorten ylipainon ja lihavuuden yleisyyttä Suomessa. Tiedot perustuvat valtakunnalliseen rekisteriaineistoon neuvola- ja kouluterveydenhuollon paino- ja pituusmittauksista. Tuloksia on raportoitu poikkileikkausasetelmassa raportointivuosittain, mutta aineisto mahdollistaa myös samoilta yksilöiltä kertyneiden toistettujen mittausten analyysin pitkittäistutkimusasetelmassa. Tutkielmassa arvioimme lineaaristen sekamallien soveltuvuutta FinLapset-rekisteriaineistosta muodostetun pitkittäisaineiston analyysivälineeksi. Teoriaosassa esittelemme lineaaristen sekamallien keskeiset ominaisuudet ja estimointimenetelmät sekä tarkastelemme hyviä mallinarvioinnin käytäntöjä. Soveltavassa vaiheessa sovitamme aineistoon kaksitasoisen lineaarisen sekamallin, jolla tutkimme lasten ja nuorten painoindeksin yhteyttä ikään ja biologiseen sukupuoleen sekä arvioimme mallin kykyä selittää aineistossa esiintyvää yksilökohtaista ja yksilöiden välistä painoindeksin vaihtelua. Mallin suoriutumista tarkastellaan erityisesti rekisteriaineiston analyysin muodostamien haasteiden näkökulmasta. Lineaariset sekamallit muodostavat luontevan analyysikehikon FinLapset-rekisteriaineiston kaltaisen pitkittäisaineiston analyysiin. Yksinään iän kiinteä populaatiovaikutus, yhdessä yksilö- ja ikäkohtaisten satunnaisvaikutusten kanssa selittää mallin vaihtelua erittäin hyvin. Painoindeksin ja iän yhteyden lineaarisuusoletus jää kuitenkin epäilyksen alaiseksi ja yksilökohtaisten residuaalien autokorrelaatio sekä varianssin heteroskedastisuus osoittautuvat merkittäviksi haasteiksi. Rekisteriaineistolle tyypilliset ominaisuudet, kuten passiivisesta kertymistavasta seuraava populaatiokehikon täsmällisen määrittelyn puute ja aineistoa tuottavien prosessien tuntemattomuus vaikeuttavat mallin estimaatteihin liittyvien epävarmuustekijöiden arviointia. Suuresta havaintomäärästä seuraten estimaattien keskivirheet ovat hyvin pieniä, mikä antaa virheellisen kuvan mallin hyvyydestä, vaikka estimaatteihin liittyvä harha jää osin tunnistamatta. Tutkielmassa näytetään, että lineaarisille sekamallelle löytyy joustavia laajennoksia, joilla osa tutkielmassa esitetyn mallin haasteista on mahdollista ylittää. Osa laajennetuista malleista ovat suoraan yhteensopivia tutkielman frekventistisen lähestymistavan kanssa, mutta useat vaihtoehtoiset menetelmät suosivat bayesiläistä ajattelutapaa. Myös näkökulmia rekisteriaineiston epävarmuuslähteiden tunnistamiseksi ja edustavuuden parantamiseksi punnitaan.
Maisteriuraseuranta-aineistojen analyysi logistisen regression avulla

Kangas, Tuukka (2018)

Maistereiden uraseuranta on vuonna 2005 alkanut kyselytutkimus. Kyselytutkimuksen kohdejoukkona ovat viisi vuotta aikaisemmin valmistuneet ylemmän korkeakoulututkinnon tai päättyvän alemman korkeakoulututkinnon suorittaneet henkilöt. Kyselyt toteutetaan kokonaistutkimuksena. Kyselytutkimusta koordinoi yliopistojen työelämä- ja urapalveluiden Aarresaari-verkosto. Helsingin yliopisto on ollut mukana kyselytutkimuksissa alusta saakka. Vuonna 2017 maisteriuraseurantoja esitettiin osaksi yliopistojen rahoitusmallia. Tämä on lisännyt tutkittavan aineiston kiinnostavuutta sekä valtakunnallisesti että yliopiston sisällä. Koska kyselytutkimus on muuttunut vuosien varrella, tässä tutkielmassa on keskitytty vain vuonna 2007, 2009 ja 2011 valmistuneiden aineistoihin. Nämä kyselyt on toteutettu vuosina 2012, 2014 ja 2016. Tutkittava kyselytutkimus on suhteellisen laaja ja sisältää useita muuttujia. Tutkielmassa on hyödynnetty binääristä ja multinomiaalista logistista regressiota. Vastemuuttujaksi valittiin kuinka tyytyväinen vastaaja oli kokonaisuudessaan suorittamaansa tutkintoonsa työuran kannalta. Tämä on myös yksi muuttujista, jota on esitetty osaksi rahoitusmallia. Muita muuttujia hyödynnettiin selittävinä muuttujina. Lopputuloksena saatiin kaksi tilastollista mallia, joista ensimmäinen oli kolmen aineiston yhdistelmästä tehty malli ja toinen vuonna 2011 valmistuneiden aineistosta tehty malli. Mallit analysoitiin hyödyntäen eri tapoja, kuten ROC-käyriä ja Hosmer-Lemeshow’n testiä. Yhdistelmäaineiston perusteella tutkintotyytyväisyyden todennäköisyyttä kasvattaa muun muassa, jos pystyy hyödyntämään oppimaansa nykyisessä työssään, työpaikan vaativuustaso vastaa koulutusta ja ei ole kohdannut työttömyyttä valmistumisen jälkeen. Samoin jos vastaaja kokee, että yliopisto-opiskelu on kehittänyt hyvin esimerkiksi teoreettista osaamista, opetustaitoja ja tietoteknisiä taitoja, niin tämä parantaa tyytyväisyyden todennäköisyyttä. Yhdistelmäaineiston perusteella sellaiset henkilöt, jotka pätevöityvät suoraan johonkin ammattiin, kuten lääkäriksi, lakimieheksi tai farmaseutiksi, ovat hieman todennäköisemmin tyytyväisempiä. Vastaavasti vuonna 2011 valmistuneiden aineistosta ns. generalistialoilta valmistuneet henkilöt ovat hieman tyytyväisempiä suhteessa professioaloihin. Uusin aineisto tukee suurelta osin yhdistelmäaineiston havaintoja, mutta sen perusteella merkittävämpiä muuttujia tyytyväisyyden todennäköisyyden selittämiselle ovat riittävien valmiuksien saaminen työelämään ja että työnantaja arvostaa tutkintoa. Näitä kahta muuttujaa ei ole käytettävissä aikaisemmissa aineistoissa.
Matematiikan tunteiden mittarin teoreettinen tarkastelu edustavassa suomalaisten nuorten aineistossa

Holm, Marja Eliisa (2020)

Tässä tutkimuksessa oppilaiden tunnekokemuksia matematiikassa mitattiin kansainvälisesti käytössä olevalla matematiikan tunnekyselyllä (The Achievement Emotions Questionnaire-Mathematics, AEQ-M; Pekrun, Goetz & Frenzel, 2005). Tämä mittari on oppilaan itsearviointiin perustuva mittari, joka selvittää oppilaiden tunteita matematiikan luokassa, oppimisessa ja testissä. Tämän tutkimuksen tavoitteena on testata mittariin liittyviä teoreettisia malleja, faktorien luotettavuutta, erotteluvaliditeettia ja faktorien erillisyyttä. Lisäksi käsitellään tutkimusotantaa ja puuttuvan tiedon käsittelyä. Tutkimusotos (n = 1413) on maantieteellisesti edustava otos 8. luokan oppilaista (14- ja 15-vuotiaat). Tutkimusotos saatiin monivaiheisesti käyttämällä useita otantamenetelmiä kuten kouluihin pohjautuvaa ryväsotantaa, systemaattista otantaa ja implisiittistä osittamista. Konfirmatorista faktorianalyysia käytettiin tutkimaan teoreettisia AEQ-M-malleja edustavassa tutkimusotoksessa. Tulokset osoittivat, että teoreettinen tunne x tilanne -malli, jossa sekä tunteet että niihin liittyvät tilanteet huomioitiin, kuvasi dataa hyvin. Tässä mallissa kuusi matematiikkaan liittyvää tunnetta (nautinto, ylpeys, viha, ahdistus, häpeä ja tylsyys) mallinnettiin erillisinä latentteina faktoreina, ja eri tilanteiden (luokka, oppiminen ja testi) vaikutus huomioitiin antamalla samassa tilanteessa olevien tunnemuuttujien residuaalien korreloida keskenään. Vaikka tässä mallissa faktoreita vastaavien latenttimuuttujien reliabiliteetit olivat suhteellisen hyviä, tämä tutkimus kuitenkin kyseenalaistaa tunnefaktorien erotteluvaliditeetin ja samaan tilanteeseen liittyvien tunteiden residuaalien väliset korrelaatiot. Nämä tulokset osoittavat, että mittari on varsin toimiva mittaamaan suomalaisten nuorten tunteita matematiikassa. Lisäksi tutkimustulokset tukevat teoriaa siitä, että akateemisten tunteiden mittaamisessa olisi huomioitava sekä erilliset tunteet että niiden erilaisuus luokka-, oppimis- ja testitilanteessa. Tutkimustulokset herättävät kuitenkin kysymyksen siitä, onko tarkoituksenmukaista yhdistää korkeasti korreloivat tunteet samoiksi faktoreiksi vai käyttää teoreettista mallia korkeista korrelaatioista huolimatta. Vaikka teoria määrittää tunteiden vahvan yhteyden eri tilanteisiin, tämä tutkimus herättää kysymyksen, ovatko kaikki tunteet samassa tilanteessa kuitenkaan merkittävästi yhteydessä. Tulevaisuudessa olisi esitettävä laajempaa analyysia faktorien erillisyydestä ja tunteiden tilannesidonnaisuudesta.
Miesten ja naisten kuolevuuden trendit Suomessa ja Ruotsissa

Eronen, Anna (2017)

Kaikkialla maailmassa naiset elävät nykyisin keskimäärin vanhemmaksi kuin miehet, mutta sukupuolten kuolleisuuserojen suuruus on vaihdellut ajasta ja paikasta riippuen. Suomessa sukupuolten kuolleisuuserot ovat suuria verrattuna muihin Länsi-Euroopan maihin. Kuolleisuuserojen on arveltu kutistuvan tulevaisuudessa miesten ja naisten elinpiirien lähentymisen takia. Erojen voimakkaalla kaventumisella voisi olla vaikutusta mm. väestöennustelaskelmien luotettavuuteen. Tässä tutkielmassa mallinnettiin ja ennustettiin ekstrapolointi perustuvilla malleilla 0-99 -vuotiaiden miesten ja naisten viisivuotisikäryhmittäisiä kuolevuuksia Suomessa ja Ruotsissa. Mallinnukseen käytettiin vuosien 1960-2015 tietoja, ja ennustettava jakso kattoi vuodet 2016-2045. Ruotsia käytettiin vertailukohtana Suomen kuolleisuuserojen kehitykselle. Mallinnuksessa käytetty aineisto on peräisin kansainvälisestä Human Mortality Database -tietokannasta sekä Suomen ja Ruotsin tilastoviranomaisten verkkosivuilta. Yksikertainen ennustemalli kuolevuudelle toteutettiin sovittamalla kuolevuuden logaritmiin trenditermillinen satunnaiskulkuprosessi. Tutkielmassa käytettiin myös Ronald Leen ja Lawrence Carterin kehittämää mallia, joka on nykyisin yksi yleisimmin käytetyistä kuolevuuden ennustemenetelmistä. Menetelmässä kuolevuuden logaritmi mallinnetaan ikä- ja aikakomponenttien avulla, joiden estimaatit saadaan ratkaistua singulaariarvohajotelmaa käyttäen. Tutkielmassa Lee-Carter – mallit sovitettiin tavanomaisesta poiketen kolmeen eri ikäryhmään (0-19 -vuotiaat, 20-59 -vuotiaat ja 60-99 -vuotiaat), sillä kuolleisuus ja elintavat ovat erilaisia eri ikäluokissa. Lee-Carter -mallien pohjalta laskettiin ennusteet kuolevuuden logaritmin tulevia arvoja ennustamalla aika-indeksiä trenditermillisenä satunnaiskulkuprosessina. Ennusteille laskettiin myös 95:n prosentin ennustevälit. Vertailun vuoksi muodostettiin ennusteet myös Tilastokeskuksen väestöennusteen kuolevuuden ennustamismenetelmään perustuen. Kuvallisten tarkastelujen perusteella trenditermilliseen satunnaiskulkuprosessiin perustavissa malleissa miesten ja naisten kuolleisuudet vaikuttaisivat konvergoituvan tai hajaantuvan joissain ikäryhmissä. t-testien perusteella kaikkien trendien keskinäiset suhteet näyttäisivät kuitenkin pysyvän ennallaan. Lee-Carter -mallien pohjalta laskettujen ennusteiden valossa miesten ja naisten kuolevuuden trendit eivät konvergoi missään ikäryhmässä Suomessa eikä Ruotsissa. Suomessa yli 35 -vuotiailla konvergoituminen on ennustevälien perusteella mahdollista ennusteajanjakson loppupuolella. Tilastokeskuksen väestöennusteessa käyttämään menetelmää perustuvien ennusteiden nojalla Suomessa miesten ja naisten kuolevuuden trendit lievästi konvergoivat 20-35 -vuotiailla sekä 50-59 -vuotiailla. Mallien tuottamien ennusteiden erot liittyvät mallinnuksessa hyödynnettäviin aikaperiodeihin; Tilastokeskuksen ennustamismenetelmässä huomioidaan vain viimeisen 28 vuoden kuolevuuden kehitys. Ruotsissa kuolevuuskertoimien pohjalta tehtyjen ennusteiden perusteella miesten ja naisten kuolevuudet konvergoivat 55-80 -vuotiaiden ikäryhmissä. Tämän tutkielman perusteella ei ole todennäköistä, että Suomen miesten ja naisten kuolevuuserot kaventuisivat väestöennusteen kannalta merkittävästi.
Moni-imputointi : vastauskadon vaikutuksien korjaaminen kuluttajabarometriaineistossa

Patronen, Mikko (2020)

Kato on yksi otanta-aineiston virhelähteistä. Se voi aiheuttaa aineistosta laskettaviin estimaatteihin harhaa, joten sen hallintaan on pyritty kehittämään erilaisia menetelmiä. Yksi tällainen menetelmä on imputointi, eli puuttuviksi jääneiden arvojen korvaaminen hyvin perustelluilla arvoilla. Estimointiin liittyvä epävarmuus tulee parhaiten huomioiduksi moni-imputoinnilla, mikä tarkoittaa useamman imputoidun aineiston muodostamista. Tässä tutkielmassa perehdytään vastauskadon ominaisuuksiin. Imputointimenetelmän valintaan vaikuttaa esimerkiksi imputoitavan muuttujan asteikko sekä oletus kadon taustalla olevasta mekanismista. Imputoinnin apuna voidaan hyödyntää myös mahdollisesti käytössä olevia taustamuuttujia, jotka ovat yhteydessä imputoitavien muuttujien arvoihin ja niissä ilmenevään vastauskatoon. Myös tutkittavan ilmiön teorian kannalta olennaisia muuttujia voidaan hyödyntää. Tutkielmassa tarkastellaan vuoden 2017 tammikuun Kuluttajabarometriaineistosta neljän kysymyksen osa-aineistoa, joka muodostaa kuluttajien luottamusindikaattorin. Kuluttajien luottamusindikaattori kuvaa 18-84 -vuotiaiden suomalaisten näkemyksiä ja odotuksia sekä henkilökohtaisesta että Suomen yleisestä taloustilanteesta. Kiinnostuksen kohteena on erityisesti selvittää, vääristääkö vastauskato aineistosta laskettavia estimaatteja. Tutkielmassa vastauskatoa paikataan moni-imputoimalla käyttäen hot deck -imputointia, jossa puuttuvat tiedot korvataan taustatiedoiltaan mahdollisimman samankaltaisilta vastaajilta kopioiduilla arvoilla. Työssä muodostetaan viisi imputointimallia käyttäen erilaisia yhdistelmiä taustamuuttujista. Taustatieto ikäluokasta osoittautuu tärkeäksi mallimuuttujaksi tulosten kannalta. Imputointimalli ilman ikäluokkatietoa pienentää luottamusindikaattorin estimaattia sekä koko aineiston tasolla että sukupuoliryhmissä. Luottamusindikaattorin arvot estimoituvat alkuperäisen aineiston estimaattia pienemmiksi myös, jos malli perustuu ainoastaan tietoon sukupuolesta.
Painotusmenetelmät survey aineiston muuttujien estimoimiseen

Helminen, Ville (2017)

Survey aineistojen estimoimisessa on monia haasteita. Esimerkiksi puuttuneisuus ja kenttätyön tuomat haasteet ovat esimerkkejä asioista, jotka tuovat haasteita survey tutkimuksiin ja sitä kautta harhaa, kun tutkimuksen kiinnostuken kohteina olevia muuttujia estimoidaan. Otanta-asetelman sekä kenttätyön luomat haasteet voidaan usein ratkaista hyvällä suunnittelulla ja perusteellisella työskentelyllä. Puuttuneisuutta eli vastauskatoa ei voida kuitenkaan ehkäistä pelkästään hyvällä suunnittelulla. Puuttuneisuus onkin survey aineistoista lasketuissa estimaateissa suurin harhaa aiheuttava tekijä. Puuttuneisuus voidaan jakaa yksikkövastauskatoon sekä erävastauskatoon. Tämän tutkielman menetelmillä pyritään vähentämään nimenomaan yksikkövastauskadon tuomaa harhaa. Tätä harhaa voidaan vähentää painottamalla satunnaisotannan kautta saatu aineisto. Painotusmenetelmillä on tarkoitus painottaa otokseen valitut ja kyselyyn vastanneet vastaajat niin, että ne edustaisivat tutkimuksen tavoiteperusjoukkoa mahdollisimman hyvin. Painotusmenetelmät voidaan jakaa peruspainotukseen ja uudelleenpainotukseen. Peruspainotuksen ideana on luoda pohja uudelleenpainotukselle. Uudelleenpainotuksen ideana on eri lähteistä saatavia aputietoja hyväksikäyttäen luoda mahdollisimman hyvät uudet painot, joidenka avulla voidaan estimoida mahdollisimman harhattomasti joitakin kiinnostuksen kohteena olevia muuttujia. Tässä tutkielmassa käydään läpi niin peruspainotus, kuin uudelleenpainotuskin. Tutkielmassa esittelen tyypillisimmät uudelleenpainotus menetelmät. Näitä on muun muassa: jälkiositus, kalibrointi ja vastaustodennäköisyysmalleihin perustuvat painotus. Tutkielman lopuksi lasken joitakin estimaatteja käyttäen eri painoja, joita olen tutkielman aikana luonut. Tutkielmassa olevat kiinnostuksen kohteena olevat muuttujat ovat peräisin vuoden 2014 ESS (European social survey) datan pohjalta luodusta aineistosta. Tutkielmassa kiinnostuksen kohteena olevia muuttujia olivat muuttujat liittyen luottamukseen, terveyteen, onnellisuuteen ja kotitalouden tuloihin. Tutkielmassa saatiin selville, että sillä mitä painotusmenetelmää käytetään ja mitä aputietoja käytetään, saadaan selkeästi erilaisia painotuksia aineistoille ja sitä kautta erilaisia estimaatteja tutkittaville muuttujille. Tutkielman aikana ilmenee selkeästä, että esimerkiksi kalibroinnilla luodut painot ja niiden avulla lasketut estimaatit parantavat tuloksia selkeästi. Yksi mielenkiintoinen löydös tutkimuksessa oli se, kuinka paljon jokin yksittäinenkin lisätieto tai sen puuttuminen voi muokata painoja ja sitä kautta estimaatteja. Lopulta parhaat painot saadaan luotua vastaustodennäköisyysmallien ja kalibroinnin yhdistelmällä. Tutkielmassa laskettujen estimaattien arvot saivat liian suuret arvot, kun ne laskettiin ilman painotusta tai pelkän peruspainotuksen avulla. Tämä ilmiö tapahtui lähes kaikissa tutkielmassa lasketuissa estimaateissa. Ja lopulta pystyttiin myös toteamaan, että lähes kaikkien tutkittavien muuttujien estimaatit erosivat toisistaan tilastollisesti merkitsevästi, kun vertailtiin estimaatteja, jotka laskettiin ilman painotusta ja parhailla mahdollisilla painotus-menetelmillä.
Puhelinlaitteen käyttöiän mallintaminen ja ennustaminen Satunnainen metsä -algoritmilla

Kämäräinen, Emma (2018)

Tässä työssä aiheena oleva mobiilipuhelimien käyttöiän mallintaminen ja ennustaminen on osa teleoperaattori DNA Oyj:n laitemallia. Laitemalliin kuuluu asiakkaan seuraavan puhelinlaitteen ostoajanhetken, hinnan ja valmistajan ennustaminen. Ostoajanhetken arviointi on olennainen tieto yrityksille, jotka myyvät mobiililaitteita, sillä sen avulla voidaan ajoittaa laitesuositteluja sekä tehdä asiakkaalle ajankohtaisia toimenpiteitä. Käyttöiän mallintamista varten haettiin aineisto DNA Oyj:n tietokannasta, jota jatkojalostettiin mallinnukseen sopivaksi. Aineistoa kertyy koko ajan lisää, jonka takia mallinnuksessa käytetty aineisto muuttuu jopa päivittäin. Laitemallia ajetaan DNA Oyj:n tuotantoympäristössä ja sen tulokset ovat operatiivisessa käytössä. Tutkielmani alussa esittelen mallinnuksessa käytettävän satunnainen metsä-algoritmin, joka on päätöspuiden kokoelmaan perustuva menetelmä. Ensin kerron hieman algoritmin historiasta ja sen teoreettisesta taustasta. Algoritmin toiminnan ymmärtämiseksi esittelen myös muita koneoppimisen menetelmiä, jotka ovat oleellinen osa algoritmia. Satunnainen metsä- menetelmässä on monia hyviä ominaisuuksia, joita täsmennän teoriaosuuden yhteydessä. Menetelmän suorituksen yhteydessä voidaan esimerkiksi laskea selittäville muuttujille niiden tärkeys mallinnuksessa. Algoritmin teorian esittelyn jälkeen määrittelen vielä muutamia metriikoita, joita käytän mallinnusvaiheessa tulosten analysoinnissa ja validoinnissa. Seuraavaksi kuvailen työssä käytetyn aineiston. Aineiston hakuja tehtiin kaksi, joista toinen on mallin koulutusaineistoa varten ja toinen on aineisto, jolle lopulliset ennusteet muodostetaan. Aineistoissa on paljon muuttujia, joten esittelen ne kahdessa osassa. Ensin kerron laitteeseen liittyvät ominaisuudet ja sen jälkeen asiakkaaseen liittyvät tiedot. Laitteiden ostopäivätiedoista saatiin selville mallinnuksen selitettävä muuttuja, puhelimen käyttöaika, joka luokiteltiin kolmen kuukauden tarkkuudella. Ostopäivän lisäksi puhelinlaitteesta on tiedossa monenlaisia teknisiä ominaisuuksia, muun muassa laitteen käyttöjärjestelmä sekä 4G- kyvykkyys. Asiakkaan tiedoista mallinnuksessa käytettiin demografisia tietoja, kuten sukupuolta ja ikää. Lisäksi hyödynnettiin asiakkaan ilmoittaman osoitetiedon perustella määriteltyä laajakaistasaatavuutta ja mobiilidatan käyttöön liittyviä muuttujia. Aineiston esittelyn jälkeen kerron varsinaisesta mallinnuksesta. Mallinnuksen yhteydessä tutkin eri parametrien vaikutusta ennustetuloksiin. Optimaalisten parametrien avulla luotiin luokkaennusteet mobiililaitteiden käyttöiälle. Eräs satunnainen metsä- algoritmin ominaisuus liittyy siihen, että menetelmän suorituksen yhteydessä pystytään arvioimaan sen tuottamia tuloksia aineistolle, jota menetelmä ei ole käyttänyt kyseisellä suorituskerralla mallin rakentamiseen. Arviointiin käytettiin luokittelumenetelmiin sopivia metriikoita, joiden perusteella algoritmi ennustaa onnistuneesti suuren osan aineistosta. Parametrien määrittämisen ja mallin kouluttamisen jälkeen muodostettiin luokat ennusteaineistolle. Lopullisten ennusteiden paikkansapitävyyttä ei voida arvioida, ennen kuin asiakas ostaa uuden puhelimen. Joissakin tapauksissa vaihtoon voi mennä useampi vuosi. Päätän opinnäytetyöni arvioimalla menetelmän toimivuutta ja pohtimalla laitevaihdon taustalla olevia muuttujia. Vaikka työssä oli käytössä rikas aineisto, puhelinvaihdon luultavasti yleisintä syytä eli laitteen vikatilannetta ei ollut saatavilla työn tekohetkellä. Laitevaihdon syihin perustuvan aineiston lisääminen parantaisi mallinnuksen tuloksia entisestään. Lopussa pohdin myös tuotannossa ajettavan, päivittäin muuttuvan mallinnuksen haasteita. Eräs mallinnuksen tuloksiin vaikuttava tekijä on muuttumattomat parametrit, jotka aineiston muuttuessa eivät välttämättä tuota enää parhaita ennustetuloksia. Laitemallia aiotaan kehittää entistä paremmaksi DNA Oyj:llä.
Pyöräkerran optimaalisen huoltosorvausstrategian valinta hyödyntämällä regressiomenetelmiä

Rintala, Teemu (2018)

VR:n liikkuvan kaluston huolto- ja vikakorjauskustannuksista huomattavan suuri osa kohdistuu kalustoyksilöt raiteilla pitäviin pyöräkertoihin. Pyöräkerran pyörän profiili kuluu raiteeseen kohdistuvan jatkuvan paineen ja poikittaisliikkeen aiheuttamasta rasituksesta. Laite on huollettava, kun se on kulunut lähelle ennalta määriteltyjä raja-arvoja. Ennalta määritellyt huoltovälit ja profiilista laskettavien parametrien raja-arvot perustuvat valmistajien luomiin huoltokäsikirjoihin sekä Kunnossapidon teknisten asiantuntijoiden tutkimustuloksiin. Huoltosorvausten ajankohdan valinnalla on mahdollisuus vaikuttaa pyöräkerran elinkaaren pituuteen ja sen kustannuksiin. Soveltamalla regressio- ja ryhmittelyanalyysiä sekä simulointimenetelmiä, voidaan tutkia miten pyörän profiilista laskettavalle laipan paksuudelle asetetut raja-arvot ja erityyppiset pyörän vaurioitumistiheydet vaikuttavat pyöräkerran elinkaarikustannuksiin. Tutkielmassa esitetyn työkalun avulla on mahdollista etsiä elinkaarikustannuksia minimoivaa huoltosorvausstrategiaa.
Robustin lineaarisen sekamallin soveltaminen DNA-metylaatiointensiteetin mallintamiseen

Karell, Pauliina (2018)

Epigenetiikka on perinnöllisyystieteen ala, jossa tutkitaan ulkoisesti mitattavia ominaisuuksia ilmiasuja, joiden muutokset ilmenevät DNA-juosteen kemiallisina muutoksina. Nämä muutokset eivät ole periytyviä, kuten ihmisen DNA, vaan muokkautuvat ympäristön vaikutuksesta. Metylaatio on eräs epigeneettisistä muutoksista, jotka vaikuttavat geenisäätelyyn. Epigenetiikan avulla on pyritty selittämään eroja muun muassa samanmunaisten kaksosten välillä, ja tutkijoiden mielenkiinto on kohdistunut erityisesti metylaatioon sen helpon mitattavuuden ansiosta. Ihmisiltä erilaisia metyaatioalueita perimästä on kartoitettu noin 400 000, joista osan on tiedetty liittyvän esimerkiksi syövän ilmenemiseen. Tämä tutkielma keskittyy epigeneettisen aineiston tilastolliseen mallinnukseen kaksosaineistossa. Tutkittavaksi ilmiasuksi on valittu ikä, sillä iän on todettu olevan yhteydessä erilaisiin metylaatiomutooksiin. Monissa epigeneettisissä tutkimuksissa käytetään usein kaksosaineistoja, sillä samanmunaiset kaksoset jakavat täysin identtisen perimän keskenään ja usein myös yhteisen kasvuympäristön. Kaksosaineistoa käyttämällä saadaan usein kontrolloitua ympäristöstä johtuvaa vaihtelua, mutta tilastollinen mallinnus vaatii havaintojen riippuvuuden huomioisen. Metylaatioaineistossa saattaa esiintyä myös paljon keskiarvosta poikkeavia havaintoja, jolloin kyseessä on paksuhäntäisestä jakaumasta. Paksuhäntäisissä jakaumissa poikkeavien havaintojen vaikutusta pyritään pienentämään käyttämällä robusteja tilastollisia menetelmiä, jolloin tulokset ovat paremmin yleistettävissä yleiseen väestöön. Tässä tutkielmassa on huomioitu tilastollisessa mallinnuksessa sekä havaintojen riippuvuus että paksuhäntäisyys käyttämällä lineaarista t-sekamallia, sillä t-jakauma on robustimpi vaihtoehto aineiston jakaumaoletukseksi kuin perinteinen normaalijakauma. Lineaarisen t-sekamallin parametrien estimoiminen on toteutettu bayesiläisellä päättelyllä, jossa estimoituja parametreja voidaan tarkastella todennäköisyysjakaumina. Bayesiläisen tilastotieteessä aineistosta tehdään päätelmiä käyttämällä erilaisia todennäköisyysmalleja, mikä mahdollistaa monipuolisen ja joustavan mallimäärittelyn. Käyttämällä erilaista prioritietoa parametrijakaumista, mallin tuloksia voidaan arvioida joustavasti ja monipuolisesti. Tässä tutkielmassa lineaarisen t-sekamallin parametreille on määrätty erilaisia jakaumaoletuksia, jotta perhettä ja kaksosuutta on kyetty mallintamaan riittävästi. Varsinainen estimoitu on toteutettu rakentamalla stokastinen Markovin ketju, jota kutsutaan myös Gibbsin otannaksi. Tässä tutkielmassa selvitettiin iän vaikutusta kolmee erilaiseen metylaatikohtaan ja havaittiin, että kaikissa kolmessa metylaatiokohdassa iän kasvaessa myös metyloituneisuus kasvoi. Eräs kolmesta metylaaatioalueesta on erityisen mielenkiintoinen, sillä vastaavissa tutkimuksissa on saatu samankaltaisia tuloksia ja kyseinen metylaatioalue sijaitsee PDE4C-geeniä ilmentävässä alueessa. Kyseinen geeni vaikuttaa monien muiden solujen aktiivisuuten tuottamalla proteiinia, joka välittää signaaleja solun ulkopuolelle.
The role of priors in a small sample Bayesian serial mediation

Vincze, László (2019)

The focus of this Master’s degree thesis is on the role of priors in a small sample Bayesian serial mediation. In particular, it examines how changing the informativeness of priors influences posterior parameter estimates and probability distributions. The empirical example in the study is taken from the field of applied linguistics. The research hypotheses address how the linguistic composition of two bilingual municipalities in Finland impact on the frequency of interpersonal contact young Finnish speakers have with Swedish speakers, which, in turn, increases young Finnish speakers’ communicative competence in Swedish enhancing the use of Swedish in interpersonal communication. The datasets used in the study are exchangeable; they were collected in the same population, in the Finnish secondary schools in Kokkola/Karleby and Pietarsaari/Jakobstad, with identical measures. The first dataset was collected in 2014 (N = 202) and it is used as prior sample in the analyses. The second dataset was collected in 2014 (N = 55) and it is used as the focal sample in the analyses. The results demonstrate that the grade of informativeness of priors fundamentally influences the outcomes of the mediational analyses. When using noninformative priors, some parameters do not differ from zero and the model suggests no mediated effect. However, when using informative priors, both parameter estimates and the mediated effect appear to be different from zero. Controversies around using priors in Bayesian analysis and their significance in empirical applications are discussed.
Työhyvinvoinnin mallintaminen rakenneyhtälömalleilla

Koufos, Mikhael (2018)

Pro gradu -tutkielman tavoitteena oli rakentaa OP Vakuutuksen henkilövakuutusyritysasiakkaiden henkilöstöille suunnatun työntekijän ja koko organisaation työhyvinvointia mittaavan Hyvinvointikartoitus-kyselyn aineiston pohjalta kokonaisvaltaista työhyvinvointia kuvaava rakenneyhtälömalli. Malli mahdollistaa siihen sisällytettyjen eli endogeenisten työhyvinvoinnin osa-alueita ilmentävien faktoreiden yhteyksien tarkastelun suhteessa työhyvinvointiin. Tämän lisäksi tarkasteluun otettiin mukaan mallin ulkopuolisia eli eksogeenisia muuttujia, jotka oli johdettu Hyvinvointikartoitus-kyselyn ikä-, sukupuoli-, asema- ja koulutusmuuttujista. Työhyvinvoinnin taloudellista vaikutusta oli mahdollista tarkastella sairauspoissaolojen määrää kuvaavan eksogeenisen muuttujan kautta. Aineisto kattoi vuosina 2015-2016 saadut Hyvinvointikartoituksen vastaukset, joskin aineistoa oli muokattu tietyiltä osin. Vastauksia tutkielmassa käytetyssä aineistossa oli yhteensä 19 832, ja oli siten rakenneyhtälömallinnukseen laaja. Kaikki vastaukset oli kerätty sähköisellä kyselylomakkeella. Nykypäivän yrityksissä ja muissa työnantajaorganisaatioissa aineettoman pääoman merkitys on korostunut suhteessa aineelliseen pääomaan. Aineetonta pääomaa pidetään koko kansantalouden kehityksen ja kasvun kannalta yhtenä tärkeimmistä tekijöistä. Tutkimusten mukaan työhyvinvoinnin puute aiheuttaa merkittäviä kustannuksia koko yhteiskunnan laajuisesti. Useimmat panostukset työhyvinvoinnin edistämiseen kasvattavat myös työnantajaorganisaation aineetonta pääomaa. Aineettoman pääoman kasvaminen realisoituu organisaation liiketaloudellisena tuloksellisuutena. Lopullisia talousvaikutuksia ovat mm. organisaation kannattavuuden korkea taso, kilpailukyky ja hyvä maine. Tutkielmassa käytettyjä monimuuttujamenetelmiä ovat faktorianalyysi ja rakenneyhtälömallit, joissa yhdistyvät konfirmatorinen faktorianalyysi ja polkuanalyysi. Koska rakenneyhtälömalleissa on tarkoitus testata niiden taustalla olevaa substanssiteoriaa eli tutkielman tapauksessa työhyvinvointiteoriaa, tutkielmassa käydään aluksi laajasti läpi työhyvinvointiin ja sen osa-alueisiin liittyvää tutkimusta. Rakenneyhtälömallien rakentamisessa on työhyvinvointiteorian lisäksi hyödynnetty eksploratiivista faktorianalyysiä. Tutkimusote on siten mallia generoiva. Lopullinen työhyvinvoinnin rakenneyhtälömalli saatiin yhdennentoista hypoteettiseen malliin tehdyn modifikaation jälkeen. Perinteisen suurimman uskottavuuden estimointimenetelmän sijaan tutkielman rakenneyhtälömalleissa käytettiin kyselyaineiston järjestysasteikollisille muuttujille sopivaa diagonaalisesti painotettua pienimmän neliösumman estimaattoria (DWLS). Uusimman tutkimuksen mukaan DWLS vaikuttaa olevan suositeltavin menetelmä eimultinormaalisesti jakautuneiden aineistojen tapauksessa. Rakenneyhtälömallien teoriaa kuitenkin kehitellään yhä jatkuvasti. Rakenneyhtälömallin työhyvinvointifaktori on määritelty tässä tutkielmassa siten, että siihen suoraan liittyvät faktorit ovat fyysinen terveys, liikunta, henkinen terveys, uni, työ, muutoshalukkuus liittyen henkilökohtaiseen hyvinvointiin ja muutoshalukkuus liittyen työhön. Rakenneyhtälömalli rakentuu edelleen siten, että nämä faktorit selittivät alemman tason faktoreita ja havaittuja muuttujia. Tutkielman hyvinvoinnin rakenneyhtälömalli on suhteellisen monimutkainen, sillä havaittuja muuttujia mallissa oli yhteensä 83 kappaletta. Mallin kompleksisuus huomion ottaen lopullisen mallin sopivuus aineistoon oli hyvyysindeksien mukaan hyvällä tasolla. Kun lopullinen rakenneyhtälömalli oli luotu, voitiin tarkastella mallin työhyvinvointifaktorin suhdetta eksogeenisiin muuttuj iin. Taustamuuttujista tilastollisesti merkitsevät yhteydet havaittiin sukupuolta, korkeakoulutusta, työntekijäasemaa ja sairauspoissaoloja selittävien muuttujien kohdalla. Naisilla havaittiin olevan miehiä hieman matalampi työhyvinvoinnin taso. Korkeakoulutuksella on työhyvinvointia lisäävä, mutta hyvin vähäinen vaikutus. Työntekijäasemassa olevilla oli suurempi työhyvinvoinnin taso kuin muissa asemissa olevilla. Työhyvinvoinnin tasolla oli lisäksi selkeä negatiivinen yhteys sairauspoissaoloihin. Hyvinvointiteorian mukaan sairauspoissaolojen vähenemisellä on suora positiivinen yhteys työnantajaorganisaation taloudelliseen menestykseen, joten tätä kautta voitiin todeta organisaation kokonaisvaltaisella työhyvinvoinnilla olevan sen taloudelliseen menestykseen positiivinen yhteys.
Vaccine safety surveillance with self-controlled study designs

Nieminen, Tuomo (2017)

All pharmaceutical products, including vaccines, can increase the risk of some undesired medical occurences (adverse events). Evaluating these risks post-licensure is essential for evaluating the safety of vaccines, since rare adverse events might go undetected in pre-licensure studies. This thesis introduces and applies a method for vaccine safety surveillance, suitable for monitoring the safety of vaccines in near real-time, utilizing electronic health care records. Adverse events are operationalized by diagnosis codes related to health care visits. Vaccine safety surveillance studies suspected, biologically plausible causal relationships between a vaccine and an adverse event. Information regarding such relationships are called safety signals. Safety surveillance can be seen as an observational study for which different study designs could be used. The popularity of vaccination, self-selection and changes in diagnosis coding practises, along with other possible sources of bias, present challenges for commonly used cohort designs. Self-controlled study designs such as the self-controlled case series (SCCS) eliminate time-invariant confounders and are therefore often more suitable for evaluating vaccine risks. This thesis introduces both a simple and a more general version of SCCS and explicitly describes the assumptions related to the method. A vaccine safety surveillance method involves a decision rule for generating safety signals. Natural goals of a safety surveillance method are to control the rates of false positive and false negative signals, as well as to generate a signal as soon as possible when an association between the vaccine and the adverse event exists. Statistical hypothesis testing can be used to derive the decision rules. This thesis describes the maximized sequential probability ratio test (maxSPRT), a hypothesis testing method designed for vaccine safety surveillance. Binomial maxSPRT (BmaxSPRT) is a variant of maxSPRT based on a self-controlled study design such as the SCCS. The BmaxSPRT method addresses hypotheses concerning the relative incidence of adverse events during specified risk and control periods. The derivation of the decision rules for BmaxSPRT, including the computation of critical values, is described in detail both mathematically and algorithmically in this work. As a proof-of-concept BmaxSPRT is retrospectively applied to Finnish register data. The relationships between the incidence of febrile seizures and three childhood vaccines, Measles-Mumps-Rubella (MMR), Pneumococcal (PCV) and the Rota virus vaccination (Rota) are studied. BmaxSPRT generated an expected safety signal related to MMR; the incidence rate of febrile seizures was higher during a period 0-13 days following MMR vaccination compared to a period 14-41 days following vaccination (relative rate RR = 1.59 at the time of signal). Results for PCV are inconclusive and the experiment highlights the need for more in depth analysis regarding PCV vaccinations and febrile seizures. The sensitivity of BmaxSPRT to the specifications of the risk and control periods is also studied in this thesis. The sensitivity analysis highlights the importance of careful consideration of the risk and control periods by quantifying the loss of power due to poor choices.

Now showing items 1-20 of 23

Browsing by discipline "Statistik"

Yhteystiedot

HELSINGIN YLIOPISTO