Browsing by discipline "Tilastotiede"

Now showing items 21-40 of 53

Lineaarinen sekamalli rekisteripohjaisen lasten ja nuorten neuvola- ja kouluterveysaineiston analyysivälineenä

Mäntymaa, Petteri (2020)

Terveyden ja hyvinvoinnin laitoksen FinLapset-rekisteri tutkii lasten ja nuorten ylipainon ja lihavuuden yleisyyttä Suomessa. Tiedot perustuvat valtakunnalliseen rekisteriaineistoon neuvola- ja kouluterveydenhuollon paino- ja pituusmittauksista. Tuloksia on raportoitu poikkileikkausasetelmassa raportointivuosittain, mutta aineisto mahdollistaa myös samoilta yksilöiltä kertyneiden toistettujen mittausten analyysin pitkittäistutkimusasetelmassa. Tutkielmassa arvioimme lineaaristen sekamallien soveltuvuutta FinLapset-rekisteriaineistosta muodostetun pitkittäisaineiston analyysivälineeksi. Teoriaosassa esittelemme lineaaristen sekamallien keskeiset ominaisuudet ja estimointimenetelmät sekä tarkastelemme hyviä mallinarvioinnin käytäntöjä. Soveltavassa vaiheessa sovitamme aineistoon kaksitasoisen lineaarisen sekamallin, jolla tutkimme lasten ja nuorten painoindeksin yhteyttä ikään ja biologiseen sukupuoleen sekä arvioimme mallin kykyä selittää aineistossa esiintyvää yksilökohtaista ja yksilöiden välistä painoindeksin vaihtelua. Mallin suoriutumista tarkastellaan erityisesti rekisteriaineiston analyysin muodostamien haasteiden näkökulmasta. Lineaariset sekamallit muodostavat luontevan analyysikehikon FinLapset-rekisteriaineiston kaltaisen pitkittäisaineiston analyysiin. Yksinään iän kiinteä populaatiovaikutus, yhdessä yksilö- ja ikäkohtaisten satunnaisvaikutusten kanssa selittää mallin vaihtelua erittäin hyvin. Painoindeksin ja iän yhteyden lineaarisuusoletus jää kuitenkin epäilyksen alaiseksi ja yksilökohtaisten residuaalien autokorrelaatio sekä varianssin heteroskedastisuus osoittautuvat merkittäviksi haasteiksi. Rekisteriaineistolle tyypilliset ominaisuudet, kuten passiivisesta kertymistavasta seuraava populaatiokehikon täsmällisen määrittelyn puute ja aineistoa tuottavien prosessien tuntemattomuus vaikeuttavat mallin estimaatteihin liittyvien epävarmuustekijöiden arviointia. Suuresta havaintomäärästä seuraten estimaattien keskivirheet ovat hyvin pieniä, mikä antaa virheellisen kuvan mallin hyvyydestä, vaikka estimaatteihin liittyvä harha jää osin tunnistamatta. Tutkielmassa näytetään, että lineaarisille sekamallelle löytyy joustavia laajennoksia, joilla osa tutkielmassa esitetyn mallin haasteista on mahdollista ylittää. Osa laajennetuista malleista ovat suoraan yhteensopivia tutkielman frekventistisen lähestymistavan kanssa, mutta useat vaihtoehtoiset menetelmät suosivat bayesiläistä ajattelutapaa. Myös näkökulmia rekisteriaineiston epävarmuuslähteiden tunnistamiseksi ja edustavuuden parantamiseksi punnitaan.
Lineaarisesta regressiomallista monitasoiseen rakenneyhtälömalliin : Menetelmien toimivuustarkasteluja skitsofreniaperheaineistossa

Pankakoski, Maiju Annukka (2011)

Opinnäytetyössä perehdytään erilaisiin tilastollisiin menetelmiin, joilla voidaan analysoida lääkityksen vaikutusta skitsofreniapotilaiden kognitiiviseen suoriutumiseen. Analysoitava aineisto on osa laajaa perheaineistoa, joka kerättiin alun perin Terveyden ja hyvinvoinnin laitoksen tutkimusprojektia varten. Projektin tarkoituksena on selvittää vakavien mielenterveyshäiriöiden geneettistä epidemiologiaa. Keskeiset työssä käsiteltävät menetelmät ovat lineaarinen regressioanalyysi, faktorianalyysi ja rakenneyhtälömallinnus. Potilaiden kognitiivista suoriutumista on mitattu neuropsykologisella testipatteristolla, joka koostuu useasta eri testistä. Lääkityksen ja kognition välisiä yhteyksiä tutkitaan aluksi lineaaristen regressiomallien avulla, joissa lääkityksen vaikutusta jokaiseen kognitiotestiin arvioidaan erikseen. Testit kuitenkin korreloivat keskenään kohtalaisen voimakkaasti muodostaen erilaisia alaryhmiä. Analyyseissa sovelletaan täten myös rakenneyhtälömallia, jossa yksittäisten testimuuttujien sijaan tarkastellaan eräänlaisia laajempia kognitiota edustavia ulottuvuuksia. Toisaalta aineistossa voidaan ajatella olevan riippuvuutta myös havaintojen tasolla. Tutkimusaineisto on kerätty hyödyntäen perhetason otantaa, joten otoksessa saattaa olla useampi samaan perheeseen kuuluva henkilö. Tällaista monitasoista aineistoa ei suoraviivaisesti voida analysoida kaikkein yleisimmin käytetyillä tilastollisilla menetelmillä, jotka yleensä on tarkoitettu satunnaisotannalla kerätyn riippumattoman aineiston analyysiin. Monitasoisuus tullaan huomioimaan analyyseissa käyttäen ns. satunnaistekijä- ja marginaalimallinnusta. Tarkastelujen tavoitteena on ennen kaikkea kokeilla erilaisten menetelmien sovellettavuutta tässä aineistossa. Huomionarvoiset seikat liittyvät toisaalta yksittäisten regressiomallien ja rakenneyhtälömallin välisiin eroihin ja toisaalta siihen, mitä merkitystä aineiston monitasoisuuden huomioimisella on. Aluksi mallinnukset suoritetaan siten, että perherakennetta ei lainkaan huomioida. Työn myöhemmässä vaiheessa samoja menetelmiä käytetään uudelleen, tällä kertaa kuitenkin olettamatta havaintoja riippumattomiksi. Otanta-asetelman huomioiminen estimoinnissa ja toisaalta erilaiset monimuuttujamenetelmät ovat tunnettuja ja yleisesti sovellettuja. Kuitenkin menetelmät, jotka yhdistävät nämä kaksi aluetta, ovat vasta melko hiljattain vakiinnuttamassa asemaansa tutkimuksessa. Työn loppuosassa perehdytään jo melko monimutkaiseen analyysitapaan, kun sovelletaan monitasoista rakenneyhtälömallia. Eri menetelmillä saadut tulokset ovat hyvin samankaltaisia, eikä monitasoisuuden huomioiminen merkittävästi muuta analyysien tuloksia ja tulkintoja tässä aineistossa. Kokeilut antavat kuitenkin hyvän ja perusteellisen kuvan lääkityksen ja kognition välisistä suhteista ja auttavat ymmärtämään eri menetelmien välisiä suhteita.
Maatilapaneeliaineiston analyysi lineaarisella sekamallilla

Sinisalo, Alina (2013)

Suomessa maatalousalalla on käynnissä voimakas rakennemuutos, jonka vaikutusta maatalouden tuotantokustannuksiin on tutkittava huomioiden pitemmän aikavälin muutokset. Maatalouden kannattavuuskirjanpitotoiminnalla on Suomessa pitkät perinteet ja tietoja kerätään vuosittain noin tuhannelta toimintaan vapaaehtoisesti liittyneeltä tilalta. Maa- ja elintarviketalouden tutkimuskeskus (MTT) kerää vuosittain maa- ja puutarhatalouden yrityskohtaisen kirjanpitoaineiston. Aineiston tuloksia sopivasti painottamalla pyritään kuvaamaan koko Suomen maatalouden kannattavuutta. Suomen tulokset julkaistaan Taloustohtori–sivuston maa- ja puutarhatalousverkkopalvelussa. Tutkielman teoriaosassa tarkastellaan mikropaneeliaineiston ja lineaarisen sekamallin ominaisuuksia ja tutustutaan maatalouden kannattavuuskirjanpitoaineistoon. Soveltavassa osassa selvitetään tuotantokustannusten muuttumista suomalaisilla kannattavuuskirjanpitotoimintaan osallistuvilla maatiloilla aikajaksolla 2000–2011 sekä testataan lineaarisen sekamallin käytettävyyttä mallinnettaessa maatalousyrityksen tuotantokustannuksia. Tuotantokustannuksia tarkastellaan kokonaistuotantokustannuksina ja yksikkötuotantokustannuksina. Kokonaistuotantokustannukset ovat olleet kasvussa koko 2000-luvun ajan kaikissa tuotantosuunnissa. Yksikkötuotantokustannus maitolitraa kohden on pysytellyt tarkastelujakson lähes samalla tasolla tai hieman pienentynyt. Tulosten perusteella lehmien määrän lisääntyminen tiloilla pienentää yksikkökustannusta. Tärkeimmät tuotantokustannuksia selittävät muuttujat liittyvät aikamuutokseen ja tilan suuruutta kuvaaviin tekijöihin, kuten viljelyala ja lehmien määrä. Tutkimuksessa selvitetään myös maatilojen kokoluokan ja maantieteellisen sijainnin merkitystä kustannusten selittäjänä. Tulosten perusteella tilan sijainti ei ole kovin tärkeä selittäjä kustannusten muodostumisessa ja kokoluokista eniten erottuu pienien maatilojen joukko, joka eroaa merkitsevästi keskisuurista ja suurista tiloista siten, että yksikkökustannustaso oli suurempi. Kokonaistuotantokustannukset kasvavat tilakoon kasvaessa. Mallien toimivuustarkastelujen perusteella lineaarinen sekamalli toimii parhaiten kokonaistasolla ja keskisuurilla ja suurilla kokoluokilla. Pienien tilojen kuvaaminen lineaarisella sekamallilla on epätarkempaa. Tuotantosuunnittain katsottuna malli näyttää antavan aliarvion kokonaiskustannuksista siipikarja-, kasvihuone- ja sikatuotannossa, ja toisaalta yliarvioivan kustannukset viljanviljelyssä, muussa kasvinviljelyssä ja muussa laidunkarjatuotannossa, mutta ero ei kuitenkaan ole merkitsevä. Tilannetta voitaisiin parantaa siten, että kannattavuuskirjanpitotoimintaan pyrittäisiin rekrytoimaan lisää pieniä tiloja ja sellaisien tuotantosuuntien tiloja, joita on nyt aineistossa vähän, esimerkiksi siipikarjatuotannon ja muuta laidunkarjatuotantoa harjoittavia tiloja.
Maisteriuraseuranta-aineistojen analyysi logistisen regression avulla

Kangas, Tuukka (2018)

Maistereiden uraseuranta on vuonna 2005 alkanut kyselytutkimus. Kyselytutkimuksen kohdejoukkona ovat viisi vuotta aikaisemmin valmistuneet ylemmän korkeakoulututkinnon tai päättyvän alemman korkeakoulututkinnon suorittaneet henkilöt. Kyselyt toteutetaan kokonaistutkimuksena. Kyselytutkimusta koordinoi yliopistojen työelämä- ja urapalveluiden Aarresaari-verkosto. Helsingin yliopisto on ollut mukana kyselytutkimuksissa alusta saakka. Vuonna 2017 maisteriuraseurantoja esitettiin osaksi yliopistojen rahoitusmallia. Tämä on lisännyt tutkittavan aineiston kiinnostavuutta sekä valtakunnallisesti että yliopiston sisällä. Koska kyselytutkimus on muuttunut vuosien varrella, tässä tutkielmassa on keskitytty vain vuonna 2007, 2009 ja 2011 valmistuneiden aineistoihin. Nämä kyselyt on toteutettu vuosina 2012, 2014 ja 2016. Tutkittava kyselytutkimus on suhteellisen laaja ja sisältää useita muuttujia. Tutkielmassa on hyödynnetty binääristä ja multinomiaalista logistista regressiota. Vastemuuttujaksi valittiin kuinka tyytyväinen vastaaja oli kokonaisuudessaan suorittamaansa tutkintoonsa työuran kannalta. Tämä on myös yksi muuttujista, jota on esitetty osaksi rahoitusmallia. Muita muuttujia hyödynnettiin selittävinä muuttujina. Lopputuloksena saatiin kaksi tilastollista mallia, joista ensimmäinen oli kolmen aineiston yhdistelmästä tehty malli ja toinen vuonna 2011 valmistuneiden aineistosta tehty malli. Mallit analysoitiin hyödyntäen eri tapoja, kuten ROC-käyriä ja Hosmer-Lemeshow’n testiä. Yhdistelmäaineiston perusteella tutkintotyytyväisyyden todennäköisyyttä kasvattaa muun muassa, jos pystyy hyödyntämään oppimaansa nykyisessä työssään, työpaikan vaativuustaso vastaa koulutusta ja ei ole kohdannut työttömyyttä valmistumisen jälkeen. Samoin jos vastaaja kokee, että yliopisto-opiskelu on kehittänyt hyvin esimerkiksi teoreettista osaamista, opetustaitoja ja tietoteknisiä taitoja, niin tämä parantaa tyytyväisyyden todennäköisyyttä. Yhdistelmäaineiston perusteella sellaiset henkilöt, jotka pätevöityvät suoraan johonkin ammattiin, kuten lääkäriksi, lakimieheksi tai farmaseutiksi, ovat hieman todennäköisemmin tyytyväisempiä. Vastaavasti vuonna 2011 valmistuneiden aineistosta ns. generalistialoilta valmistuneet henkilöt ovat hieman tyytyväisempiä suhteessa professioaloihin. Uusin aineisto tukee suurelta osin yhdistelmäaineiston havaintoja, mutta sen perusteella merkittävämpiä muuttujia tyytyväisyyden todennäköisyyden selittämiselle ovat riittävien valmiuksien saaminen työelämään ja että työnantaja arvostaa tutkintoa. Näitä kahta muuttujaa ei ole käytettävissä aikaisemmissa aineistoissa.
Markov random fields and spatial smoothing in improving of forest inventory estimates

Jousimo, Jussi (2011)

Markov random fields (MRF) are popular in image processing applications to describe spatial dependencies between image units. Here, we take a look at the theory and the models of MRFs with an application to improve forest inventory estimates. Typically, autocorrelation between study units is a nuisance in statistical inference, but we take an advantage of the dependencies to smooth noisy measurements by borrowing information from the neighbouring units. We build a stochastic spatial model, which we estimate with a Markov chain Monte Carlo simulation method. The smooth values are validated against another data set increasing our confidence that the estimates are more accurate than the originals.
Matematiikan tunteiden mittarin teoreettinen tarkastelu edustavassa suomalaisten nuorten aineistossa

Holm, Marja Eliisa (2020)

Tässä tutkimuksessa oppilaiden tunnekokemuksia matematiikassa mitattiin kansainvälisesti käytössä olevalla matematiikan tunnekyselyllä (The Achievement Emotions Questionnaire-Mathematics, AEQ-M; Pekrun, Goetz & Frenzel, 2005). Tämä mittari on oppilaan itsearviointiin perustuva mittari, joka selvittää oppilaiden tunteita matematiikan luokassa, oppimisessa ja testissä. Tämän tutkimuksen tavoitteena on testata mittariin liittyviä teoreettisia malleja, faktorien luotettavuutta, erotteluvaliditeettia ja faktorien erillisyyttä. Lisäksi käsitellään tutkimusotantaa ja puuttuvan tiedon käsittelyä. Tutkimusotos (n = 1413) on maantieteellisesti edustava otos 8. luokan oppilaista (14- ja 15-vuotiaat). Tutkimusotos saatiin monivaiheisesti käyttämällä useita otantamenetelmiä kuten kouluihin pohjautuvaa ryväsotantaa, systemaattista otantaa ja implisiittistä osittamista. Konfirmatorista faktorianalyysia käytettiin tutkimaan teoreettisia AEQ-M-malleja edustavassa tutkimusotoksessa. Tulokset osoittivat, että teoreettinen tunne x tilanne -malli, jossa sekä tunteet että niihin liittyvät tilanteet huomioitiin, kuvasi dataa hyvin. Tässä mallissa kuusi matematiikkaan liittyvää tunnetta (nautinto, ylpeys, viha, ahdistus, häpeä ja tylsyys) mallinnettiin erillisinä latentteina faktoreina, ja eri tilanteiden (luokka, oppiminen ja testi) vaikutus huomioitiin antamalla samassa tilanteessa olevien tunnemuuttujien residuaalien korreloida keskenään. Vaikka tässä mallissa faktoreita vastaavien latenttimuuttujien reliabiliteetit olivat suhteellisen hyviä, tämä tutkimus kuitenkin kyseenalaistaa tunnefaktorien erotteluvaliditeetin ja samaan tilanteeseen liittyvien tunteiden residuaalien väliset korrelaatiot. Nämä tulokset osoittavat, että mittari on varsin toimiva mittaamaan suomalaisten nuorten tunteita matematiikassa. Lisäksi tutkimustulokset tukevat teoriaa siitä, että akateemisten tunteiden mittaamisessa olisi huomioitava sekä erilliset tunteet että niiden erilaisuus luokka-, oppimis- ja testitilanteessa. Tutkimustulokset herättävät kuitenkin kysymyksen siitä, onko tarkoituksenmukaista yhdistää korkeasti korreloivat tunteet samoiksi faktoreiksi vai käyttää teoreettista mallia korkeista korrelaatioista huolimatta. Vaikka teoria määrittää tunteiden vahvan yhteyden eri tilanteisiin, tämä tutkimus herättää kysymyksen, ovatko kaikki tunteet samassa tilanteessa kuitenkaan merkittävästi yhteydessä. Tulevaisuudessa olisi esitettävä laajempaa analyysia faktorien erillisyydestä ja tunteiden tilannesidonnaisuudesta.
Microsimulation : Statistical Methodology and Assessment of Uncertainty

Zhou, Meng (2012)

Nowadays, microsimulation method has been introduced to different fields, such as Social Science, Medicine research and Economic study. This method evaluates the effects of the proposed interventions or policies before they are implemented in the real world. In this article, I concentrate on microsimulation method used in Social Science by firstly explaining two main streams in microsimulation world, Static approach and Dynamic approach, in them, how statistical models are used are carefully explained by giving examples in Dynamic approach. In the following section, a Norwegian case is studied, this case gives the typical example of how the dynamic microsimulation used in the labor force and child care research, the effects of four different reform options are measured in this study. In the last section, the empirical study of a Finnish static microsimulation model-JUTTA is carried out. The uncertainty of JUTTA is assessed and one of its sub model called Toimtuki (income-related supplementary benefit) is detected to have space to be more accurate. In order to do so, two statistical models- Linear Regression model and Two-Stage Least Squares (2SLS) model are applied to it. From their results and diagnostics, we could conclude that both the Linear Regression and 2SLS successfully improves the accuracy of TOIMTUKI to some extent.
Miesten ja naisten kuolevuuden trendit Suomessa ja Ruotsissa

Eronen, Anna (2017)

Kaikkialla maailmassa naiset elävät nykyisin keskimäärin vanhemmaksi kuin miehet, mutta sukupuolten kuolleisuuserojen suuruus on vaihdellut ajasta ja paikasta riippuen. Suomessa sukupuolten kuolleisuuserot ovat suuria verrattuna muihin Länsi-Euroopan maihin. Kuolleisuuserojen on arveltu kutistuvan tulevaisuudessa miesten ja naisten elinpiirien lähentymisen takia. Erojen voimakkaalla kaventumisella voisi olla vaikutusta mm. väestöennustelaskelmien luotettavuuteen. Tässä tutkielmassa mallinnettiin ja ennustettiin ekstrapolointi perustuvilla malleilla 0-99 -vuotiaiden miesten ja naisten viisivuotisikäryhmittäisiä kuolevuuksia Suomessa ja Ruotsissa. Mallinnukseen käytettiin vuosien 1960-2015 tietoja, ja ennustettava jakso kattoi vuodet 2016-2045. Ruotsia käytettiin vertailukohtana Suomen kuolleisuuserojen kehitykselle. Mallinnuksessa käytetty aineisto on peräisin kansainvälisestä Human Mortality Database -tietokannasta sekä Suomen ja Ruotsin tilastoviranomaisten verkkosivuilta. Yksikertainen ennustemalli kuolevuudelle toteutettiin sovittamalla kuolevuuden logaritmiin trenditermillinen satunnaiskulkuprosessi. Tutkielmassa käytettiin myös Ronald Leen ja Lawrence Carterin kehittämää mallia, joka on nykyisin yksi yleisimmin käytetyistä kuolevuuden ennustemenetelmistä. Menetelmässä kuolevuuden logaritmi mallinnetaan ikä- ja aikakomponenttien avulla, joiden estimaatit saadaan ratkaistua singulaariarvohajotelmaa käyttäen. Tutkielmassa Lee-Carter – mallit sovitettiin tavanomaisesta poiketen kolmeen eri ikäryhmään (0-19 -vuotiaat, 20-59 -vuotiaat ja 60-99 -vuotiaat), sillä kuolleisuus ja elintavat ovat erilaisia eri ikäluokissa. Lee-Carter -mallien pohjalta laskettiin ennusteet kuolevuuden logaritmin tulevia arvoja ennustamalla aika-indeksiä trenditermillisenä satunnaiskulkuprosessina. Ennusteille laskettiin myös 95:n prosentin ennustevälit. Vertailun vuoksi muodostettiin ennusteet myös Tilastokeskuksen väestöennusteen kuolevuuden ennustamismenetelmään perustuen. Kuvallisten tarkastelujen perusteella trenditermilliseen satunnaiskulkuprosessiin perustavissa malleissa miesten ja naisten kuolleisuudet vaikuttaisivat konvergoituvan tai hajaantuvan joissain ikäryhmissä. t-testien perusteella kaikkien trendien keskinäiset suhteet näyttäisivät kuitenkin pysyvän ennallaan. Lee-Carter -mallien pohjalta laskettujen ennusteiden valossa miesten ja naisten kuolevuuden trendit eivät konvergoi missään ikäryhmässä Suomessa eikä Ruotsissa. Suomessa yli 35 -vuotiailla konvergoituminen on ennustevälien perusteella mahdollista ennusteajanjakson loppupuolella. Tilastokeskuksen väestöennusteessa käyttämään menetelmää perustuvien ennusteiden nojalla Suomessa miesten ja naisten kuolevuuden trendit lievästi konvergoivat 20-35 -vuotiailla sekä 50-59 -vuotiailla. Mallien tuottamien ennusteiden erot liittyvät mallinnuksessa hyödynnettäviin aikaperiodeihin; Tilastokeskuksen ennustamismenetelmässä huomioidaan vain viimeisen 28 vuoden kuolevuuden kehitys. Ruotsissa kuolevuuskertoimien pohjalta tehtyjen ennusteiden perusteella miesten ja naisten kuolevuudet konvergoivat 55-80 -vuotiaiden ikäryhmissä. Tämän tutkielman perusteella ei ole todennäköistä, että Suomen miesten ja naisten kuolevuuserot kaventuisivat väestöennusteen kannalta merkittävästi.
Moni-imputointi : vastauskadon vaikutuksien korjaaminen kuluttajabarometriaineistossa

Patronen, Mikko (2020)

Kato on yksi otanta-aineiston virhelähteistä. Se voi aiheuttaa aineistosta laskettaviin estimaatteihin harhaa, joten sen hallintaan on pyritty kehittämään erilaisia menetelmiä. Yksi tällainen menetelmä on imputointi, eli puuttuviksi jääneiden arvojen korvaaminen hyvin perustelluilla arvoilla. Estimointiin liittyvä epävarmuus tulee parhaiten huomioiduksi moni-imputoinnilla, mikä tarkoittaa useamman imputoidun aineiston muodostamista. Tässä tutkielmassa perehdytään vastauskadon ominaisuuksiin. Imputointimenetelmän valintaan vaikuttaa esimerkiksi imputoitavan muuttujan asteikko sekä oletus kadon taustalla olevasta mekanismista. Imputoinnin apuna voidaan hyödyntää myös mahdollisesti käytössä olevia taustamuuttujia, jotka ovat yhteydessä imputoitavien muuttujien arvoihin ja niissä ilmenevään vastauskatoon. Myös tutkittavan ilmiön teorian kannalta olennaisia muuttujia voidaan hyödyntää. Tutkielmassa tarkastellaan vuoden 2017 tammikuun Kuluttajabarometriaineistosta neljän kysymyksen osa-aineistoa, joka muodostaa kuluttajien luottamusindikaattorin. Kuluttajien luottamusindikaattori kuvaa 18-84 -vuotiaiden suomalaisten näkemyksiä ja odotuksia sekä henkilökohtaisesta että Suomen yleisestä taloustilanteesta. Kiinnostuksen kohteena on erityisesti selvittää, vääristääkö vastauskato aineistosta laskettavia estimaatteja. Tutkielmassa vastauskatoa paikataan moni-imputoimalla käyttäen hot deck -imputointia, jossa puuttuvat tiedot korvataan taustatiedoiltaan mahdollisimman samankaltaisilta vastaajilta kopioiduilla arvoilla. Työssä muodostetaan viisi imputointimallia käyttäen erilaisia yhdistelmiä taustamuuttujista. Taustatieto ikäluokasta osoittautuu tärkeäksi mallimuuttujaksi tulosten kannalta. Imputointimalli ilman ikäluokkatietoa pienentää luottamusindikaattorin estimaattia sekä koko aineiston tasolla että sukupuoliryhmissä. Luottamusindikaattorin arvot estimoituvat alkuperäisen aineiston estimaattia pienemmiksi myös, jos malli perustuu ainoastaan tietoon sukupuolesta.
Nollakustannusten bayesläinen mallinnus sydänlääkkeen kustannustehokkuusanalyysissä

Göös, Jani (2016)

Tutkielman kohteena on lääketieteellinen kustannustehokkuusanalyysi ja erityisesti siinä esiintyvä problematiikka liittyen sellaisiin tutkimusten kohdehenkilöihin, joille ei ole syystä tai toisesta kertynyt tutkimuksen seurantajakson aikana kustannuksia. Tarkoituksena on kuvata kustannustehokkuusanalyysin käytännön toteutustapa keskittyen erityisesti bayesläisen päättelyn tarjoamiin mahdollisuuksiin nollakustannuspotilaiden estimoinnissa. Tutkimuksessa on käytetty akuutisti huonontuneen sydämen vajaatoiminnan lääkintään keskittyvää Revive II -tutkimusaineistoa. Täydelliselle aineistolle toteutetun kustannustehokkuusanalyysin tavoite on selvittää, onko uusi lääkintämuoto Levosimendan kustannustehokas perinteiseen käytössä olevaan lääkintätapaan verrattuna. Tehdyn analyysin perusteella laskennallinen kannattavuusrajapiste osuu 2400 dollariin päivältä, jonka jälkeen investoinnit Levosimendaniin eivät tuota enää lisähyötyä. Kannattavuusrajapistettä pienemmillä investoinneilla Levosimendan osoittautuu enintään 57 %:n todennäköisyydellä kustannustehokkaaksi vaihtoehdoksi. Toisena suurena ja pääasiallisena aihekokonaisuutena tutkielmassa paneudutaan nollakustannusten vaikutusten mallintamiseen bayesläistä päättelyä apuna käyttäen. Tutkielmassa nollakustannusten mukanaan tuomia jakaumallisia ongelmia pyritään ratkaisemaan nollakustannusten todennäköisyyttä ennustavan logistisen regressiomallin avulla. Tämän jälkeen regressiomallin tulokset yhdistetään positiiviset kustannukset omaavien henkilöiden logaritmiseen normaalimalliin tai gammamalliin. Näin saadusta sekamallista saadaan estimoitua potilaiden keskimääräiset kustannukset, jotka voidaan sijoittaa edelleen kustannustehokkuusanalyysiin. Mikäli nollakustannukset eivät ole hyväksyttäviä vaan puuttuvaa tietoa, halutaan niiden muodostama harha analyysissa minimoida. Puuttuvan tiedon paikkaaminen on toteutettu tutkielman viimeisessä osassa vahvalla informatiivisella priorijakaumalla. Sen avulla nollakustannukset omaaville potilaille tuodaan malliin ennakkotieto kustannusaineiston keskiarvosta ja hajonnasta. Sitä varten positiiviset kustannukset omaavien potilaiden ryhmän kustannuksiin sovitetaan jokin tunnettu jatkuva parametrinen todennäköisyysjakauma. Revive II -tutkimuksen kohdalla kustannuksia kuvaa parhaiten logaritminen normaalijakauma, jota lopullisessa mallissa käytetään priorijakaumana. Näin potilaiden kustannusestimaatit ovat hyväksyttäviin nollakustannuksiin verrattuna huomattavasti lähempänä täydellisen aineiston arvoja.
Otoksen edustavuuden mittaus R-indikaattorin avulla Suomen uhritutkimuspilotissa

Vartiainen, Marjukka (2011)

Tutkielmassa sovelletaan aineiston edustavuutta mittaavaa laatuindikaattoria Suomen uhritutkimuspilottiin tilanteessa, jossa ilmenee vastauskatoa. Vastauskato on kasvava ongelma tilastotutkimuksissa: jos tutkimukseen osallistuneet eivät edusta otosjoukkoa tutkittavan asian suhteen, voi vastauskadosta aiheutuva harha olla estimoiduissa tunnusluvuissa hyvinkin suuri. Tutkimuksissa näkee usein julkaistavan vastausasteen ikään kuin se kertoisi aukottomasti tutkimuksen laadusta. Pelkkä korkea vastausaste ei kuitenkaan välttämättä takaa estimaattien harhattomuutta, sillä se ei kerro mitään vastanneiden ja vastaamattomien eroista tutkittavan asian suhteen. Tarvitaan siis muita mittareita, joilla vastanneiden laatua voitaisiin paremmin arvioida, ja R-indikaattori tarjoaa yhden vaihtoehdon. R-indikaattori mittaa otosalkioiden vastausalttiuksien välistä vaihtelua. R-indikaattorin estimoiminen edellyttää siis vastausalttiuksien estimointia, mikä puolestaan edellyttää apumuuttujien olemassaoloa kaikille otosalkioille. Vastausalttiuksien estimoimiseen käytettiin linkkifunktiona sekä logistista mallia että ja Särndalin ja Lundströmin (2008) vastausvaikutusten mallia. Vastauskäyttäytymiseen vaikuttavan apumuuttujajoukon valinta tehtiin alan kirjallisuuteen perustuen (Groves & Couper 1998). Koska R-indikaattorin estimaattori on satunnaismuuttuja, täytyi sille estimoida varianssi ja mahdollinen harha (Shlomo ym. 2009). Estimoinnissa käytettiin Bootstrap-pseudotoistomenetelmää, jossa alkuperäisestä aineistosta poimitaan niin kutsuttuja pseudo-otoksia, joiden avulla R-indikaattorin estimaattorille voidaan laskea keskivirhe. Suomen uhritutkimuspilotti koostui kolmesta eri tiedonkeruumenetelmällä poimitusta otoksesta: CAPI-, CATI- CAVVIotoksesta. Vastausasteet vaihtelivat aineistoissa paljon, mutta R-indikaattorin estimaatit olivat kaikille aineistoille liki samat. Suurempi vastausaste ei siis merkinnyt parempaa edustavuutta. Lisäksi CAVVI-aineistossa muistutusviestein ja -kirjein suoritettu vastausasteen kasvattaminen huononsi edustavuutta R-indikaattorin näkökulmasta. Mielivaltainen vastausasteen kasvattaminen ei siis ole välttämättä perusteltua. R-indikaattorin estimaattorin ominaisuuksien osalta empiiriset tulokset vahvistivat RISQ-projektin aiempia tutkimustuloksia. Estimaattorin arvo oli sitä pienempi mitä enemmän vastausalttiuden mallissa oli selittäjiä, koska tällöin vastausalttiuksien varianssi kasvoi (Schouten ym. 2009). Otoskoko vaikutti merkittävästi varianssin suuruuteen: mitä pienempi otoskoko oli, sitä leveämmät olivat luottamusvälit ja sitä vaikeampi oli tehdä johtopäätöksiä edustavuudesta.
Painotusmenetelmät survey aineiston muuttujien estimoimiseen

Helminen, Ville (2017)

Survey aineistojen estimoimisessa on monia haasteita. Esimerkiksi puuttuneisuus ja kenttätyön tuomat haasteet ovat esimerkkejä asioista, jotka tuovat haasteita survey tutkimuksiin ja sitä kautta harhaa, kun tutkimuksen kiinnostuken kohteina olevia muuttujia estimoidaan. Otanta-asetelman sekä kenttätyön luomat haasteet voidaan usein ratkaista hyvällä suunnittelulla ja perusteellisella työskentelyllä. Puuttuneisuutta eli vastauskatoa ei voida kuitenkaan ehkäistä pelkästään hyvällä suunnittelulla. Puuttuneisuus onkin survey aineistoista lasketuissa estimaateissa suurin harhaa aiheuttava tekijä. Puuttuneisuus voidaan jakaa yksikkövastauskatoon sekä erävastauskatoon. Tämän tutkielman menetelmillä pyritään vähentämään nimenomaan yksikkövastauskadon tuomaa harhaa. Tätä harhaa voidaan vähentää painottamalla satunnaisotannan kautta saatu aineisto. Painotusmenetelmillä on tarkoitus painottaa otokseen valitut ja kyselyyn vastanneet vastaajat niin, että ne edustaisivat tutkimuksen tavoiteperusjoukkoa mahdollisimman hyvin. Painotusmenetelmät voidaan jakaa peruspainotukseen ja uudelleenpainotukseen. Peruspainotuksen ideana on luoda pohja uudelleenpainotukselle. Uudelleenpainotuksen ideana on eri lähteistä saatavia aputietoja hyväksikäyttäen luoda mahdollisimman hyvät uudet painot, joidenka avulla voidaan estimoida mahdollisimman harhattomasti joitakin kiinnostuksen kohteena olevia muuttujia. Tässä tutkielmassa käydään läpi niin peruspainotus, kuin uudelleenpainotuskin. Tutkielmassa esittelen tyypillisimmät uudelleenpainotus menetelmät. Näitä on muun muassa: jälkiositus, kalibrointi ja vastaustodennäköisyysmalleihin perustuvat painotus. Tutkielman lopuksi lasken joitakin estimaatteja käyttäen eri painoja, joita olen tutkielman aikana luonut. Tutkielmassa olevat kiinnostuksen kohteena olevat muuttujat ovat peräisin vuoden 2014 ESS (European social survey) datan pohjalta luodusta aineistosta. Tutkielmassa kiinnostuksen kohteena olevia muuttujia olivat muuttujat liittyen luottamukseen, terveyteen, onnellisuuteen ja kotitalouden tuloihin. Tutkielmassa saatiin selville, että sillä mitä painotusmenetelmää käytetään ja mitä aputietoja käytetään, saadaan selkeästi erilaisia painotuksia aineistoille ja sitä kautta erilaisia estimaatteja tutkittaville muuttujille. Tutkielman aikana ilmenee selkeästä, että esimerkiksi kalibroinnilla luodut painot ja niiden avulla lasketut estimaatit parantavat tuloksia selkeästi. Yksi mielenkiintoinen löydös tutkimuksessa oli se, kuinka paljon jokin yksittäinenkin lisätieto tai sen puuttuminen voi muokata painoja ja sitä kautta estimaatteja. Lopulta parhaat painot saadaan luotua vastaustodennäköisyysmallien ja kalibroinnin yhdistelmällä. Tutkielmassa laskettujen estimaattien arvot saivat liian suuret arvot, kun ne laskettiin ilman painotusta tai pelkän peruspainotuksen avulla. Tämä ilmiö tapahtui lähes kaikissa tutkielmassa lasketuissa estimaateissa. Ja lopulta pystyttiin myös toteamaan, että lähes kaikkien tutkittavien muuttujien estimaatit erosivat toisistaan tilastollisesti merkitsevästi, kun vertailtiin estimaatteja, jotka laskettiin ilman painotusta ja parhailla mahdollisilla painotus-menetelmillä.
Puhelinlaitteen käyttöiän mallintaminen ja ennustaminen Satunnainen metsä -algoritmilla

Kämäräinen, Emma (2018)

Tässä työssä aiheena oleva mobiilipuhelimien käyttöiän mallintaminen ja ennustaminen on osa teleoperaattori DNA Oyj:n laitemallia. Laitemalliin kuuluu asiakkaan seuraavan puhelinlaitteen ostoajanhetken, hinnan ja valmistajan ennustaminen. Ostoajanhetken arviointi on olennainen tieto yrityksille, jotka myyvät mobiililaitteita, sillä sen avulla voidaan ajoittaa laitesuositteluja sekä tehdä asiakkaalle ajankohtaisia toimenpiteitä. Käyttöiän mallintamista varten haettiin aineisto DNA Oyj:n tietokannasta, jota jatkojalostettiin mallinnukseen sopivaksi. Aineistoa kertyy koko ajan lisää, jonka takia mallinnuksessa käytetty aineisto muuttuu jopa päivittäin. Laitemallia ajetaan DNA Oyj:n tuotantoympäristössä ja sen tulokset ovat operatiivisessa käytössä. Tutkielmani alussa esittelen mallinnuksessa käytettävän satunnainen metsä-algoritmin, joka on päätöspuiden kokoelmaan perustuva menetelmä. Ensin kerron hieman algoritmin historiasta ja sen teoreettisesta taustasta. Algoritmin toiminnan ymmärtämiseksi esittelen myös muita koneoppimisen menetelmiä, jotka ovat oleellinen osa algoritmia. Satunnainen metsä- menetelmässä on monia hyviä ominaisuuksia, joita täsmennän teoriaosuuden yhteydessä. Menetelmän suorituksen yhteydessä voidaan esimerkiksi laskea selittäville muuttujille niiden tärkeys mallinnuksessa. Algoritmin teorian esittelyn jälkeen määrittelen vielä muutamia metriikoita, joita käytän mallinnusvaiheessa tulosten analysoinnissa ja validoinnissa. Seuraavaksi kuvailen työssä käytetyn aineiston. Aineiston hakuja tehtiin kaksi, joista toinen on mallin koulutusaineistoa varten ja toinen on aineisto, jolle lopulliset ennusteet muodostetaan. Aineistoissa on paljon muuttujia, joten esittelen ne kahdessa osassa. Ensin kerron laitteeseen liittyvät ominaisuudet ja sen jälkeen asiakkaaseen liittyvät tiedot. Laitteiden ostopäivätiedoista saatiin selville mallinnuksen selitettävä muuttuja, puhelimen käyttöaika, joka luokiteltiin kolmen kuukauden tarkkuudella. Ostopäivän lisäksi puhelinlaitteesta on tiedossa monenlaisia teknisiä ominaisuuksia, muun muassa laitteen käyttöjärjestelmä sekä 4G- kyvykkyys. Asiakkaan tiedoista mallinnuksessa käytettiin demografisia tietoja, kuten sukupuolta ja ikää. Lisäksi hyödynnettiin asiakkaan ilmoittaman osoitetiedon perustella määriteltyä laajakaistasaatavuutta ja mobiilidatan käyttöön liittyviä muuttujia. Aineiston esittelyn jälkeen kerron varsinaisesta mallinnuksesta. Mallinnuksen yhteydessä tutkin eri parametrien vaikutusta ennustetuloksiin. Optimaalisten parametrien avulla luotiin luokkaennusteet mobiililaitteiden käyttöiälle. Eräs satunnainen metsä- algoritmin ominaisuus liittyy siihen, että menetelmän suorituksen yhteydessä pystytään arvioimaan sen tuottamia tuloksia aineistolle, jota menetelmä ei ole käyttänyt kyseisellä suorituskerralla mallin rakentamiseen. Arviointiin käytettiin luokittelumenetelmiin sopivia metriikoita, joiden perusteella algoritmi ennustaa onnistuneesti suuren osan aineistosta. Parametrien määrittämisen ja mallin kouluttamisen jälkeen muodostettiin luokat ennusteaineistolle. Lopullisten ennusteiden paikkansapitävyyttä ei voida arvioida, ennen kuin asiakas ostaa uuden puhelimen. Joissakin tapauksissa vaihtoon voi mennä useampi vuosi. Päätän opinnäytetyöni arvioimalla menetelmän toimivuutta ja pohtimalla laitevaihdon taustalla olevia muuttujia. Vaikka työssä oli käytössä rikas aineisto, puhelinvaihdon luultavasti yleisintä syytä eli laitteen vikatilannetta ei ollut saatavilla työn tekohetkellä. Laitevaihdon syihin perustuvan aineiston lisääminen parantaisi mallinnuksen tuloksia entisestään. Lopussa pohdin myös tuotannossa ajettavan, päivittäin muuttuvan mallinnuksen haasteita. Eräs mallinnuksen tuloksiin vaikuttava tekijä on muuttumattomat parametrit, jotka aineiston muuttuessa eivät välttämättä tuota enää parhaita ennustetuloksia. Laitemallia aiotaan kehittää entistä paremmaksi DNA Oyj:llä.
Pyöräkerran optimaalisen huoltosorvausstrategian valinta hyödyntämällä regressiomenetelmiä

Rintala, Teemu (2018)

VR:n liikkuvan kaluston huolto- ja vikakorjauskustannuksista huomattavan suuri osa kohdistuu kalustoyksilöt raiteilla pitäviin pyöräkertoihin. Pyöräkerran pyörän profiili kuluu raiteeseen kohdistuvan jatkuvan paineen ja poikittaisliikkeen aiheuttamasta rasituksesta. Laite on huollettava, kun se on kulunut lähelle ennalta määriteltyjä raja-arvoja. Ennalta määritellyt huoltovälit ja profiilista laskettavien parametrien raja-arvot perustuvat valmistajien luomiin huoltokäsikirjoihin sekä Kunnossapidon teknisten asiantuntijoiden tutkimustuloksiin. Huoltosorvausten ajankohdan valinnalla on mahdollisuus vaikuttaa pyöräkerran elinkaaren pituuteen ja sen kustannuksiin. Soveltamalla regressio- ja ryhmittelyanalyysiä sekä simulointimenetelmiä, voidaan tutkia miten pyörän profiilista laskettavalle laipan paksuudelle asetetut raja-arvot ja erityyppiset pyörän vaurioitumistiheydet vaikuttavat pyöräkerran elinkaarikustannuksiin. Tutkielmassa esitetyn työkalun avulla on mahdollista etsiä elinkaarikustannuksia minimoivaa huoltosorvausstrategiaa.
Robustin lineaarisen sekamallin soveltaminen DNA-metylaatiointensiteetin mallintamiseen

Karell, Pauliina (2018)

Epigenetiikka on perinnöllisyystieteen ala, jossa tutkitaan ulkoisesti mitattavia ominaisuuksia ilmiasuja, joiden muutokset ilmenevät DNA-juosteen kemiallisina muutoksina. Nämä muutokset eivät ole periytyviä, kuten ihmisen DNA, vaan muokkautuvat ympäristön vaikutuksesta. Metylaatio on eräs epigeneettisistä muutoksista, jotka vaikuttavat geenisäätelyyn. Epigenetiikan avulla on pyritty selittämään eroja muun muassa samanmunaisten kaksosten välillä, ja tutkijoiden mielenkiinto on kohdistunut erityisesti metylaatioon sen helpon mitattavuuden ansiosta. Ihmisiltä erilaisia metyaatioalueita perimästä on kartoitettu noin 400 000, joista osan on tiedetty liittyvän esimerkiksi syövän ilmenemiseen. Tämä tutkielma keskittyy epigeneettisen aineiston tilastolliseen mallinnukseen kaksosaineistossa. Tutkittavaksi ilmiasuksi on valittu ikä, sillä iän on todettu olevan yhteydessä erilaisiin metylaatiomutooksiin. Monissa epigeneettisissä tutkimuksissa käytetään usein kaksosaineistoja, sillä samanmunaiset kaksoset jakavat täysin identtisen perimän keskenään ja usein myös yhteisen kasvuympäristön. Kaksosaineistoa käyttämällä saadaan usein kontrolloitua ympäristöstä johtuvaa vaihtelua, mutta tilastollinen mallinnus vaatii havaintojen riippuvuuden huomioisen. Metylaatioaineistossa saattaa esiintyä myös paljon keskiarvosta poikkeavia havaintoja, jolloin kyseessä on paksuhäntäisestä jakaumasta. Paksuhäntäisissä jakaumissa poikkeavien havaintojen vaikutusta pyritään pienentämään käyttämällä robusteja tilastollisia menetelmiä, jolloin tulokset ovat paremmin yleistettävissä yleiseen väestöön. Tässä tutkielmassa on huomioitu tilastollisessa mallinnuksessa sekä havaintojen riippuvuus että paksuhäntäisyys käyttämällä lineaarista t-sekamallia, sillä t-jakauma on robustimpi vaihtoehto aineiston jakaumaoletukseksi kuin perinteinen normaalijakauma. Lineaarisen t-sekamallin parametrien estimoiminen on toteutettu bayesiläisellä päättelyllä, jossa estimoituja parametreja voidaan tarkastella todennäköisyysjakaumina. Bayesiläisen tilastotieteessä aineistosta tehdään päätelmiä käyttämällä erilaisia todennäköisyysmalleja, mikä mahdollistaa monipuolisen ja joustavan mallimäärittelyn. Käyttämällä erilaista prioritietoa parametrijakaumista, mallin tuloksia voidaan arvioida joustavasti ja monipuolisesti. Tässä tutkielmassa lineaarisen t-sekamallin parametreille on määrätty erilaisia jakaumaoletuksia, jotta perhettä ja kaksosuutta on kyetty mallintamaan riittävästi. Varsinainen estimoitu on toteutettu rakentamalla stokastinen Markovin ketju, jota kutsutaan myös Gibbsin otannaksi. Tässä tutkielmassa selvitettiin iän vaikutusta kolmee erilaiseen metylaatikohtaan ja havaittiin, että kaikissa kolmessa metylaatiokohdassa iän kasvaessa myös metyloituneisuus kasvoi. Eräs kolmesta metylaaatioalueesta on erityisen mielenkiintoinen, sillä vastaavissa tutkimuksissa on saatu samankaltaisia tuloksia ja kyseinen metylaatioalue sijaitsee PDE4C-geeniä ilmentävässä alueessa. Kyseinen geeni vaikuttaa monien muiden solujen aktiivisuuten tuottamalla proteiinia, joka välittää signaaleja solun ulkopuolelle.
Robustit menetelmät logistisessa regressiossa

Palviainen, Teemu (2014)

Tutkielmassa esitellään keskeisimpiä robusteja menetelmiä logistiselle regressiomallille. Menetelmien toimivuutta ja käyttökelpoisuutta selvitetään kokeellisesti empiirisen aineiston sekä simulointimallin avulla. Eri menetelmien välisiä eroja on pyritty selvittämään kokeellisten tarkasteluiden yhteydessä.
Ryhmien moniulotteisten erojen testaus

Suolinna, Satu (2011)

Empiirisissä tutkimuksissa on kiinnostuksen kohteena perusjoukko, josta yritetään tehdä johtopäätöksiä siitä poimitun otoksen perusteella. Otoksen arvot voivat poiketa perusjoukon arvoista sekä sattuman aiheuttaman että otoksesta riippumattoman vaihtelun takia. Tilastollisessa testauksessa asetetaan perusjoukkoa koskevat oletukset kyseenalaisiksi. Testit jaetaan parametrisiin ja parametrittomiin testeihin riippuen siitä, tehdäänkö testattavista muuttujista jonkinlaisia jakaumaoletuksia perusjoukossa. Tutkielmassa otetaan kantaa numeerisesti mitattavien muuttujien testaukseen sopiviin parametrisiin testeihin. Tutkimusten yhteydessä ollaan usein kiinnostuneita, miten tulokset eroavat perusjoukon ryhmien kesken. Tutkielmassa tarkastellaan perusjoukon ryhmien eroihin perustuvia tilastollisia testejä. Kiinnostuksen kohteena on yleisesti ryhmien odotusarvojen erojen testaus yhden ryhmittelevän muuttujan suhteen. Aluksi lähdetään liikkeelle kahden ryhmän ja yhden muuttujan tilanteesta, jota laajennetaan sekä ryhmien että testattavien muuttujien määrää lisäämällä. Yhden testattavan muuttujan kohdalla käytetään menetelmänä kahden riippumattoman ryhmän t-testiä sekä varianssianalyysia. Useiden testattavien muuttujien kohdalla otetaan käyttöön moniulotteinen Hotellingin T2-testi sekä moniulotteinen varianssianalyysi. Moniulotteisten testien pohjalta laajennetaan ryhmien erojen näkökulma myös siihen, mitkä tekijät erottavat ryhmät toisistaan. Menetelmänä käytetään tällöin erotteluanalyysia, joka perustuu moniulotteisen varianssianalyysin tuloksiin. Parametria testejä on olemassa paljon, ja sopivan testin valinta riippuu testin oletuksien voimassaolosta. Ryhmien odotusarvojen testauksessa otetaan kantaa testattavan muuttujan jakaumaan perusjoukossa sekä ryhmien testattavan muuttujan varianssien yhtäsuuruuteen. Moniulotteisten ryhmien odotusarvovektoreiden testauksessa laajennetaan oletukset useisiin testattaviin muuttujiin sekä yhteisjakauman että ryhmien kovarianssimatriisien yhtäsuuruuden suhteen. Tällöin testit perustuvat samoihin periaatteisiin sekä yksiulotteisten oletuksien että moniulotteisten oletuksien testauksessa. Tutkielman lähestymistapa on melko tekninen. Ryhmien odotusarvojen eroihin perustuvat testit laajennetaan yksiulotteisesta testauksesta moniulotteisiksi. Jokaisen testin teorian jälkeen osoitetaan esimerkin avulla, miten testiä sovelletaan käytännössä. Esimerkit perustuvat teorian yksityiskohtaiseen osoittamiseen. Vasta erotteluanalyysin yhteydessä otetaan teknisen näkökulman lisäksi kantaa myös tulkintaan. Kokonaisuudessa tarkoituksena on korostaa menetelmien yhteyksiä toisiinsa sekä antaa kokonaiskuva ryhmien erojen testauksesta. Menetelmiä yhdistää periaate havaintojen kokonaisvaihtelun jakamisesta ryhmien väliseen ja ryhmien sisäiseen vaihteluun. Tämän periaatteen pohjalta ryhmien välisiä eroja voidaan tutkia näkökulmasta tai ryhmien ja muuttujien määrästä riippumatta samojen tilastollisten todisteiden nojalla. Sovellan menetelmien yhteydessä Tilastokeskuksen keräämää kyselytutkimusaineistoa vuodelta 2002, jossa kartoitettiin asenteita työ- ja perhe-elämän yhteensovittamisesta ja kotitalouden työnjaosta. Mielipidekysymykset sopivat luonteensa takia testauksiin ja taustatietokysymykset jakavat perusjoukkoa kiinnostaviin ryhmiin. Kaikki tutkielman esimerkit perustuvat tähän aineistoon. Tutkielman teknisen lähestymistavan takia aineiston rooli on kuitenkin melko mekaaninen. Tutkielman keskeisiä lähteitä ovat Richard A. Johnsonin ja Dean W. Wichernin teos Applied Multivariate Statistical Analysis sekä useat perusjoukon ominaisuuksien testausta käsittelevät artikkelit Biometrika -lehdestä.
Suomalaisten yksityismetsien raakapuun tarjonta 1999-2009

Järvenpää, Sauli (2011)

Pro gradu -tutkielman tavoite on mallintaa suomalaisten yksityismetsien raakapuun tarjontaa vuosien 1999-2009 puukauppa-aineistolla. Tutkielman tulos on raakapuun kantohinnasta ja muista tarpeellisista selittävistä muuttujista riippuva tarjonnan funktio kaikille käsitellyille raakapuulajeille. Tutkielman toimeksiantaa UPM-Kymmene Oyj. Tarkoitus on, että tarjontafunktioiden ja lopputuotteidensa kysynnän tuntemuksen avulla UPM-Kymmene voi tarkastella mahdollisuuksiaan puunhankintaan tulevaisuudessa. Tutkielma esittelee suomalaisen raakapuumarkkinan erityispiirteitä, metsäekonomista teoriaa raakapuun tarjonnasta sekä aihetta koskevien aiempien empiiristen tutkimusten tuloksia. Esittelyn perusteella löydetään kysymyksenasettelun kannalta hinnan lisäksi kiinnostavimmat muuttujat tarjonnan vaihtelun selittämiseen. Osoittautuu, että vaikka kysyntäfunktion olemassaolon taloustieteellinen perusteltavuus suomalaisella raakapuumarkkinalla on kyseenalainen, ostomäärän ja hinnan samanaikainen määräytyminen aiheuttaa aineistossa riippuvuutta tarjontamallien virhetermin ja selittävänä muuttujana käytettävän kantohinnan välillä. Tutkielma jatkuu simultaanisuusharhan, instrumenttimuuttujamenetelmän ja kaksivaiheisen pienimmän neliösumman menetelmän esittelyllä seuraten Hamiltonin kirjaa 77me Serres Analysis (1994) sekä Davidsonin ja MacKinnonin kirjaa Econometric Theory and Methods (2004). Tarkentuvaa estimaattoria varten tarvitaan instrumenttimuuttujia, jotka valitaan kunkin raakapuulajin mallille erikseen. Osassa tarjontamalleista havaitaan estimolntimenetelmän kannalta olennaista muuttujien epästationaarisuutta, joka perustellaan seurauksettomaksi soveltaen johtopäätöksiä Hsiaon artikkelista Statistical Properties of the Tvvo-Stage Least Squares Estimator Under Cointegration (1997). Diagnostisen tarkastelun jälkeen mallit todetaan moitteettomiksi. Tulosten mukaan raakapuun tarjonnan hintajousto on korkeampi kuin esitellyissä aikaisemmissa empiirisissä tutkimuksissa. Lisäksi käsiteltyjen kuitupuulajien tarjontojen hintajoustot ovat tukkipuulajien joustoja korkeampia, mikä on metsänhoidollisin syin perusteltavaa. Tarjonta ei sen sijaan näytä juuri reagoineen käsitellylle aikajaksolle sattuneisiin veromuutoksiin. Osoittautuu myös, ettei tarjonta riipu voimakkaasti sijoitetun pääoman hinnasta eli korosta. Valtiotieteellisen tiedekunnan dekaani ja UPM-Kymmene sopivat vuonna 2009, että pro gradu -tutkielmasta säilytetään valtiotieteellisen tiedekunnan kirjastossa sensuroitua kappaletta, josta yksityiskohtaisimmat lopputulokset jätetään pois. Tämä tutkielman kappale on suppea, siten sivumäärältään tiivistelmäsivun tietoa lyhyempi.
Taulukkoaineistojen tilastolliset tietosuojamenetelmät

Nissinen, Annu (2012)

Tutkielmassa käsitellään taulukkoaineistoihin liittyviä tilastollisia tietosuojakysymyksiä, kuten milloin julkaistavan taulukkoaineiston tilastoyksiköihin kohdistuu paljastumisriski ja millä menetelmillä tätä riskiä voidaan pienentää. Taulukkoaineistojen tilastollisia tietosuojamenetelmiä on tutkittu jo kymmeniä vuosia, mutta edelleen niiden soveltamiseen liittyy haasteita ja ratkaisemattomia kysymyksiä. Taulukkoaineistolla tai taulukolla tarkoitetaan tässä tutkielmassa taulukkomuotoon järjestettyä aggregoitua aineistoa. Yhteiskunta tarvitsee toimiakseen luotettavia tilastotietoja ja tilastoviranomaisten tehtävä on tuottaa niitä. Taulukko on perinteinen muoto julkaista tilastotietoja, joten niille on välttämätön tarve. Paitsi lainsäädäntö, myös tilastoalan eettiset periaatteet edellyttävät tilastoinnin kohteiden yksityisyyden suojaamista. Taulukkoaineisto on näin ollen suojattava ennen julkaisua, jos taulukkoon kohdistuu paljastumisriski. Taulukon paljastumisriski määritellään solukohtaisen paljastumisriskin avulla: taulukkoon kohdistuu riski, jos yhteenkin sen soluun kohdistuu riski. Soluun kohdistuu paljastumisriski, jos yksikin siihen kuuluva tilastoyksikkö on vaarassa paljastua julkaistun taulukon avulla. Paljastumisriskiä ei kokonaan voida poistaa, mutta tilastollisilla tietosuojamenetelmillä se pyritään laskemaan hyväksyttävälle tasolle. Tilastolliset tietosuojamenetelmät muokkaavat aineistoa rajoittamalla, muuntamalla tai korvaamalla, jolloin tietoa väistämättä menetetään. Samalla aineiston laatu, oikeellisuus, tarkkuus, täydellisyys ja käytettävyys kärsivät. Eri menetelmiä sovellettaessa eri määrä informaatiota häviää. Oikean tietosuojamenetelmän valinnassa tärkeimmät kriteerit ovat vaaditun suojaustason saavuttaminen ja taulukon tärkeiden analyyttisten ominaisuuksien säilyminen. Haasteena on löytää kunkin taulukon kohdalla oikea tasapaino tilastoyksiköihin kohdistuvan paljastumisriskin sekä menetetyn tiedon ja hyödyn välillä. Tilastollinen tietosuoja on haastava tilastotieteen osa-alue, koska jokaisella suojattavalla tilastolla on omat huomioonotettavat erityispiirteensä. Voidaan sanoa, että jokainen tilasto muodostaa suojaamisen kannalta oman erikoistapauksensa. Paljastumisriskiä ja erilaisia tilastollisia tietosuojamenetelmiä käsitellään tutkielmassa ensin teoreettisesti. Teoreettinen tarkastelu keskittyy kahteen menetelmään: peittämiseen ja kontrolloituun taulukon säätöön, eli CTA:han (engl. controlled tabular adjustment). Peittäminen on 1970-luvulta asti ollut suosittu suojausmenetelmä, mutta sen myötä taulukosta häviää liikaa tietoa. 2000-luvulla kehitetty vaihtoehtoinen menetelmä CTA pyrkii peittämistä paremmin säilyttämään suojattujen taulukoiden tärkeät ominaisuudet, kuten taulukon additiivisuuden ja soluarvojen jakauman. Tutkielman lopussa on lyhyt empiirinen osa, jossa peittämisen ja CTA:n toimivuutta käytännössä testataan todellisen yritysaineiston avulla. Menetelmiä vertailtaessa tultiin tulokseen, että taulukon laadun ja hyödyn säilyttämisen näkökulmasta CTA on peittämistä parempi menetelmä. Koska CTA on uusi menetelmä, sen soveltamiseen liittyy kuitenkin vielä ongelmia. CTA voi johtaa taulukon käyttäjää harhaan, jos käyttäjä ei ymmärrä menetelmän periaatteita.
The role of priors in a small sample Bayesian serial mediation

Vincze, László (2019)

The focus of this Master’s degree thesis is on the role of priors in a small sample Bayesian serial mediation. In particular, it examines how changing the informativeness of priors influences posterior parameter estimates and probability distributions. The empirical example in the study is taken from the field of applied linguistics. The research hypotheses address how the linguistic composition of two bilingual municipalities in Finland impact on the frequency of interpersonal contact young Finnish speakers have with Swedish speakers, which, in turn, increases young Finnish speakers’ communicative competence in Swedish enhancing the use of Swedish in interpersonal communication. The datasets used in the study are exchangeable; they were collected in the same population, in the Finnish secondary schools in Kokkola/Karleby and Pietarsaari/Jakobstad, with identical measures. The first dataset was collected in 2014 (N = 202) and it is used as prior sample in the analyses. The second dataset was collected in 2014 (N = 55) and it is used as the focal sample in the analyses. The results demonstrate that the grade of informativeness of priors fundamentally influences the outcomes of the mediational analyses. When using noninformative priors, some parameters do not differ from zero and the model suggests no mediated effect. However, when using informative priors, both parameter estimates and the mediated effect appear to be different from zero. Controversies around using priors in Bayesian analysis and their significance in empirical applications are discussed.

Now showing items 21-40 of 53

Browsing by discipline "Tilastotiede"

Yhteystiedot

HELSINGIN YLIOPISTO