Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Tilastotiede"

Sort by: Order: Results:

  • Pohjanpää, Kirsti (2012)
    Merkittävä osa länsimaisesta yhteiskunnallisesta tutkimuksesta ja tilastoinnista perustuu survey-tutkimuksiin. Jokainen otokseen valituksi tullut ei kuitenkaan syystä tai toisesta anna vastauksia tutkimuskysymyksiin. Vastauskato heikentää tutkimusaineiston laatua ja kasvattaa saatujen estimaattien virhettä. Tutkimus tehtiin, koska oltiin huolestuneita survey-tutkimusten kato-osuuksien kasvamisesta ja vastauskadon vaikutuksista tutkimusten laatuun. Tutkimuksella haluttiin selvittää (a) keitä ovat ne, joita emme tutkimuksilla saa kiinni, ja (b) vastaavatko tutkimuksiin osallistumattomat samalla tapaa kuin osallistuneet. Selvitys tehtiin lähettämällä osalle aikuiskoulutustutkimuksesta vuonna 2006 poisjääneille uusi kontaktipyyntö tasan vuoden kuluttua. Näin syntyi AKU-laatutututkimus. Tiedot kerättiin käynti- ja puhelinhaastatteluin keväällä 2007. Myös laatututkimuksesta kieltäytyneille esitettiin (jos mahdollista) muutama kysymys koskien tutkimuksiin osallistumista (ns. katohaastattelu). Tutkimuksen keskeisin tulos on, että jo kertaalleen tutkimuksesta suorasti tai epäsuorasti kieltäytyneitä voidaan lähestyä uudestaan hyvinkin onnistuneesti: 59 prosenttia suostui yhteistyöhön uuden kontaktin myötä. Lisäksi osoittautui, etteivät vastaamattomat juurikaan poikenneet vastanneista taustansa ja aikuiskoulutukseen osallistumisen suhteen. Laatututkimuksen tulokset eivät tue ajatusta vastauskatoon jääneiden huonommasta yhteiskunnallisesta asemasta. Lisäksi laatututkimukseen mukaan saadut ja siis vuotta aikaisemmin vastauskatoon kuuluneet suhtautuivat survey-tutkimukseen positiivisesti. Tutkimus kuuluu survey-tutkimuskenttään, ja se tuo lisää tietoa survey-tutkimuksissa pimentoon jäävästä joukosta: tutkimuskatoon kuuluvista.
  • Huotelin, Vesa (2017)
    Tutkielmassa syvennytään lapsen huoltoa ja tapaamisoikeutta koskevaan täytäntöönpanoon kvantitatiivisin menetelmin. Analyysiä varten on kerätty 632 tapauksen aineisto kahdeksasta eri käräjäoikeudesta vuosilta 2000–2015. Tutkielma voidaan jakaa kahteen osaan: aineiston ja tilannekuvan esittelyyn sekä logistiseen regressiomalliin, joka ennustaa hakijan voittotodennäköisyyttä tapaamisoikeuden täytäntöönpanoasiassa. Tapaamisoikeuden täytäntöönpanossa hakijoiden sukupuolijakauma vastaa etävanhempien sukupuolijakaumaa väestössä. Hakija syyttää vastaajaa yleensä manipuloinnista tai vieraannuttamisesta, vastaajan syytökset liittyvät päihteisiin, väkivaltaan ja seksuaaliseen hyväksikäyttöön. Oikeus ei ota kantaa syytöksiin, ellei asian ratkaiseminen sitä edellytä. Suurin osa tapauksista päättyy sovintoon. Yli puolet riitaisista tapauksista päättyy uhkasakon asettamiseen, noutoa käytetään hyvin harvoin. Oikeudenkäyntikulut jaetaan usein tasan osapuolten kesken, vaikka asiassa olisi selvä voittaja. Joka neljäs tapaamisoikeutta koskeva täytäntöönpanoasia uusiutuu, ja lopputulos voi seuraavissa käsittelyissä muuttua kokonaan. Huoltoa koskeva aineisto on pieni, ja sitä käsitellään tutkielmassa vain lyhyesti. Isät hakevat huollon täytäntöönpanoa suhteellisesti useammin kuin äidit. Hakija syyttää vastaajaa kaappauksesta ja vieraannuttamisesta, vastaajan syytökset liittyvät useimmiten päihteisiin ja väkivallan uhkaan. Kaksi kolmesta tapauksesta päättyy lasten palauttamiseen sovinnollisesti tai täytäntöönpanon kautta. Noutoa käytetään täytäntöönpanon tehosteena usein. Logistinen regressiomalli rakennetaan pienin poikkeuksin taaksepäin askeltavalla muuttujavalinnalla. Parametrien estimoinnissa käytetään Firthin muokattua uskottavuusfunktiota, jolla kontrolloidaan pienen havaintomäärän aiheuttamaa harhaa approksimatiivisesti. Muuttujia karsitaan uskottavuusosamäärätestin sekä Akaiken informaatiokriteerin perusteella. Malli ennustaa kolme neljästä aineiston lopputuloksesta oikein. Sen erottelukykyä arvioidaan ROC-käyrällä ja yhteensopivuutta aineiston kanssa Hosmer-Lemeshow-testillä. Niiden perusteella mallia voidaan pitää käyttökelpoisena. Logistisen regressioanalyysin tulokset ovat: Toteen näytetty vastaajan syytös sekä varttuneen lapsen haluttomuus tavata hakijaa laskevat hakijan voittotodennäköisyyttä merkittävästi. Voittotodennäköisyyttä heikentävät myös vastaajan myönteinen suhtautuminen tapaamisiin sekä se, että hakija on äiti. Äidin menestymistä tutkitaan myös kahdella muulla logistisella regressiomallilla: Äidin hakema täytäntöönpanoasia päättyy sovintoon todennäköisemmin kuin isän, mutta sovinnot päättyvät hakijan kannalta yhtä hyvin tai huonosti riippumatta tämän sukupuolesta.
  • Palo-Repo, Mari (2015)
    Suomessa ei tiettävästi ole tehty tilastollista analyysia lasten huolto- ja asumisriidoista. Tutkielmaa varten on kerätty aineisto Helsingin hovioikeuden päätöksistä lasten huoltoon ja asumiseen liittyen vuosilta 2003–2006. Aineistoa tarkastellaan binomitestillä, suhteellisten osuuksien testillä ja logistisella regressiomallilla. Äiti voittaa eli saa vaatimuksensa mukaisen päätöksen lasten huolto- ja asumisriidoissa useammin kuin isä. Vanhempien vaatimukset ovat erilaisia: Isä vaatii useammin yhteis- kuin yksinhuoltoa. Äiti vaatii yhtä usein yksin- kuin yhteishuoltoa. Siten yhtäläinenkään todennäköisyys voittaa lasten huolto- ja asumisriita ei merkitse vanhempien yhdenvertaista asemaa. Lapsen sukupuolella ja iällä on vaikutusta riitoihin ja päätöksiin. Yhtä lasta koskevan riidan kohteena on useammin poika kuin tyttö. Kun riitaa on yhdestä lapsesta ja lapsi on seitsemän vuotta tai vanhempi, äiti ja isä saavat vaatimuksensa mukaisen päätöksen yhtä usein. Tällöin isä vaatii äidin lailla yhtä usein yksin- kuin yhteishuoltoa. Huolto- ja asumisriidan koskiessa yhtä kouluikäistä lasta, äiti ja isä ovat tässä mielessä yhdenvertaisessa asemassa. Tällaisia riitoja on neljäsosa lasten huolto- ja asumisriidoista. Väkivaltaisuus-, alkoholi-, huume- tai mielenterveysongelmasyytös on tehty ainakin toisesta vanhemmasta tai hänen uudesta kumppanistaan melkein joka toisessa riidassa. Oikeus on katsonut syytöksistä puolet toteennäytetyksi. Toteennäyttämättä jääneitä syytöksiä esitetään enemmän isästä tai isän uudesta kumppanista kuin äidistä tai äidin uudesta kumppanista. Mallinnuksessa selitetään äidin voittoa lasten asumisriidassa. Isästä tai isän uudesta kumppanista tehty ja oikeuden toteennäytetyksi katsoma syytös väkivaltaisuus-, alkoholi-, huume- tai mielenterveysongelmasta tuo aineistossa äidille aina voiton. Kun asumisriidassa sosiaaliviranomaisten suositus on äidin puolella, niin aineistossa äiti voittaa aina. Asumisriitamallissa äidin voittoa selittävät muuttujat ovat lasten tai lapsen edellinen asuinpaikka käräjäoikeuden päätöksen mukaan ja vanhimman tai ainoan lapsen ikä. Ensimmäisen muuttujan voi ajatella olevan osa lapsen vakiintuneita olosuhteita, jotka muodostavat keskeisen ratkaisuperiaatteen lasten asumisriidassa. Mitä vanhempi vanhin tai ainoa lapsi on, sitä suurempi on isän voittokerroin asumisriidassa. Koska käräjäoikeus on jo pohtinut riitaan liittyviä asioita päätöstä tehdessään, käräjäoikeuden päätös pitää sisällään paljon tietoa. Muuttuja voi viedä voimaa muilta mahdollisilta selittäviltä muuttujilta. Jos käräjäoikeuden päätös sekä äidin ja isän muutoksenhaku käräjäoikeuden päätökseen jätetään pois mallinnuksesta, tällöin asumisriitamallissa äidin voittoa selittävät muuttujat ovat nuorimman tai ainoan lapsen ikä ja sosiaaliviranomaisten suositus isästä. Sosiaaliviranomaisten suositus vaikuttaa hovioikeuden päätökseen asumisriidasta, suositus isästä tosin kätkeytyy mallinnuksessa käräjäoikeuden päätökseen. Lasten iällä on merkitystä asumisriidan lopputulokseen: lasten iän nousu nostaa isän voittokerrointa. On mahdollista, että havaintomäärän vähäisyyden takia jää tärkeitä selittäviä muuttujia logistisen regressiomallin ulkopuolelle. Jatkotutkimusta ajatellen olisi mielenkiintoista laajentaa aineistoa päätösten aikajaksoa pidentämällä sekä muiden hovioikeuksien päätöksien mukaan ottamisella. Nykyistä aineistoa olisi mahdollista tutkia lisää käyttämällä Firthin muokattua uskottavuusfunktiota regressiokertoimien estimoinnissa.
  • Hautakangas, Heidi (2018)
    To better understand biology of complex traits, quantifying the contribution of different genetic factors is essential. Heritability is a population parameter that estimates the proportion of phenotypic variance explained by genetic factors. A recent goal in statistical genetics has been to estimate heritability from genome-wide association study (GWAS) data. GWAS have shown that a large number of genetic variants with small effects together affect complex traits. Because the individual effects are so small, a challenge of the GWAS is to achieve enough statistical power to detect the true associations. Statistical power has been increased by increasing the GWAS sample size, typically by a meta-analysis. In a meta-analysis, summary association statistics from multiple study cohorts are jointly analysed, and therefore it is often impossible to get access to the original individual-level data underlying the meta-analysis. In this thesis, I will study linkage disequilibrium score regression (LDSC), that estimates heritability by regressing GWAS summary statistics on linkage disequilibrium (LD) scores, that measure how much genetic variation each variant tags. Importantly, LD Scores can be estimated from a reference panel without requiring any individual-level data. Furthermore, I will study stratified LD Score regression (S-LDSC), that is an extension of LDSC for partitioning heritability by functional annotations. This thesis has three aims. First, to explain the statistics behind LDSC. Second, to evaluate the effect of LD reference panel on heritability estimation of lipid levels in the Finnish population by comparing an in-sample LD reference panel to external LD reference panels. Third, to partition the heritability of lipid levels in the Finnish population by functional annotations using S-LDSC. I applied LDSC and S-LDSC to the National FINRISK Study and used four lipid levels as quantitative phenotypes: high-density lipoprotein cholesterol (HDL-C), low-density lipoprotein cholesterol (LDL-C), triglycerides (TG) and total cholesterol (TC). As results, I observed that LDSC was robust to the choice of LD reference panel when applied to the Finnish population. Heritability estimates were consistent between different LD reference panels regardless of the LD mismatch. The highest heritability point estimates and the lowest point estimates of confounding biases were produced by the Finnish specific panels, though the differences were not statistically significant. In the heritability enrichment analyses, I replicated several previous findings: for example, I observed enriched heritability for many histone marks in all four lipid traits and enriched heritability for super enhancers for HDL-C, TC and TG.
  • Kuronen, Juri (2017)
    This Master’s thesis introduces a new score-based method for learning the structure of a pairwise Markov network without imposing the assumption of chordality on the underlying graph structure by approximating the joint probability distribution using the popular pseudo-likelihood framework. Together with the local Markov property associated with the Markov network, the joint probability distribution is decomposed into node-wise conditional distributions involving only a tiny subset of variables each, getting rid of the problematic intractable normalizing constant. These conditional distributions can be naturally modeled using logistic regression, giving rise to pseudo-likelihood maximization with logistic regression (plmLR) which is designed to be especially well-suited for capturing pairwise interactions by restricting the explanatory variables to main effects (no interaction terms). To deal with overfitting, plmLR is regularized using an extended variant of the Bayesian information criterion. To select the best model out of the vast discrete model space of network structures, a dynamic greedy hill-climbing search algorithm can be readily implemented with the pseudo-likelihood framework where each Markov blanket is learned separately so that the full graph can be composed from the solutions to these subproblems. This work also presents a novel improvement to the algorithm by drastically reducing the search space associated with each node-wise hill-climbing run by first running a set of pairwise queries to isolate only the promising candidates. In experiments on data sets sampled from synthetic pairwise Markov networks, plmLR performs favorably against competing methods with respect to the Hamming distance between the learned and true network structure. Additionally, unlike most logistic regression based methods, plmLR is not limited to binary variables and performs well on learning benchmark network structures based on real-world non-binary models even though plmLR is not designed for their structural form.
  • Mäntymaa, Petteri (2020)
    Terveyden ja hyvinvoinnin laitoksen FinLapset-rekisteri tutkii lasten ja nuorten ylipainon ja lihavuuden yleisyyttä Suomessa. Tiedot perustuvat valtakunnalliseen rekisteriaineistoon neuvola- ja kouluterveydenhuollon paino- ja pituusmittauksista. Tuloksia on raportoitu poikkileikkausasetelmassa raportointivuosittain, mutta aineisto mahdollistaa myös samoilta yksilöiltä kertyneiden toistettujen mittausten analyysin pitkittäistutkimusasetelmassa. Tutkielmassa arvioimme lineaaristen sekamallien soveltuvuutta FinLapset-rekisteriaineistosta muodostetun pitkittäisaineiston analyysivälineeksi. Teoriaosassa esittelemme lineaaristen sekamallien keskeiset ominaisuudet ja estimointimenetelmät sekä tarkastelemme hyviä mallinarvioinnin käytäntöjä. Soveltavassa vaiheessa sovitamme aineistoon kaksitasoisen lineaarisen sekamallin, jolla tutkimme lasten ja nuorten painoindeksin yhteyttä ikään ja biologiseen sukupuoleen sekä arvioimme mallin kykyä selittää aineistossa esiintyvää yksilökohtaista ja yksilöiden välistä painoindeksin vaihtelua. Mallin suoriutumista tarkastellaan erityisesti rekisteriaineiston analyysin muodostamien haasteiden näkökulmasta. Lineaariset sekamallit muodostavat luontevan analyysikehikon FinLapset-rekisteriaineiston kaltaisen pitkittäisaineiston analyysiin. Yksinään iän kiinteä populaatiovaikutus, yhdessä yksilö- ja ikäkohtaisten satunnaisvaikutusten kanssa selittää mallin vaihtelua erittäin hyvin. Painoindeksin ja iän yhteyden lineaarisuusoletus jää kuitenkin epäilyksen alaiseksi ja yksilökohtaisten residuaalien autokorrelaatio sekä varianssin heteroskedastisuus osoittautuvat merkittäviksi haasteiksi. Rekisteriaineistolle tyypilliset ominaisuudet, kuten passiivisesta kertymistavasta seuraava populaatiokehikon täsmällisen määrittelyn puute ja aineistoa tuottavien prosessien tuntemattomuus vaikeuttavat mallin estimaatteihin liittyvien epävarmuustekijöiden arviointia. Suuresta havaintomäärästä seuraten estimaattien keskivirheet ovat hyvin pieniä, mikä antaa virheellisen kuvan mallin hyvyydestä, vaikka estimaatteihin liittyvä harha jää osin tunnistamatta. Tutkielmassa näytetään, että lineaarisille sekamallelle löytyy joustavia laajennoksia, joilla osa tutkielmassa esitetyn mallin haasteista on mahdollista ylittää. Osa laajennetuista malleista ovat suoraan yhteensopivia tutkielman frekventistisen lähestymistavan kanssa, mutta useat vaihtoehtoiset menetelmät suosivat bayesiläistä ajattelutapaa. Myös näkökulmia rekisteriaineiston epävarmuuslähteiden tunnistamiseksi ja edustavuuden parantamiseksi punnitaan.
  • Pankakoski, Maiju Annukka (2011)
    Opinnäytetyössä perehdytään erilaisiin tilastollisiin menetelmiin, joilla voidaan analysoida lääkityksen vaikutusta skitsofreniapotilaiden kognitiiviseen suoriutumiseen. Analysoitava aineisto on osa laajaa perheaineistoa, joka kerättiin alun perin Terveyden ja hyvinvoinnin laitoksen tutkimusprojektia varten. Projektin tarkoituksena on selvittää vakavien mielenterveyshäiriöiden geneettistä epidemiologiaa. Keskeiset työssä käsiteltävät menetelmät ovat lineaarinen regressioanalyysi, faktorianalyysi ja rakenneyhtälömallinnus. Potilaiden kognitiivista suoriutumista on mitattu neuropsykologisella testipatteristolla, joka koostuu useasta eri testistä. Lääkityksen ja kognition välisiä yhteyksiä tutkitaan aluksi lineaaristen regressiomallien avulla, joissa lääkityksen vaikutusta jokaiseen kognitiotestiin arvioidaan erikseen. Testit kuitenkin korreloivat keskenään kohtalaisen voimakkaasti muodostaen erilaisia alaryhmiä. Analyyseissa sovelletaan täten myös rakenneyhtälömallia, jossa yksittäisten testimuuttujien sijaan tarkastellaan eräänlaisia laajempia kognitiota edustavia ulottuvuuksia. Toisaalta aineistossa voidaan ajatella olevan riippuvuutta myös havaintojen tasolla. Tutkimusaineisto on kerätty hyödyntäen perhetason otantaa, joten otoksessa saattaa olla useampi samaan perheeseen kuuluva henkilö. Tällaista monitasoista aineistoa ei suoraviivaisesti voida analysoida kaikkein yleisimmin käytetyillä tilastollisilla menetelmillä, jotka yleensä on tarkoitettu satunnaisotannalla kerätyn riippumattoman aineiston analyysiin. Monitasoisuus tullaan huomioimaan analyyseissa käyttäen ns. satunnaistekijä- ja marginaalimallinnusta. Tarkastelujen tavoitteena on ennen kaikkea kokeilla erilaisten menetelmien sovellettavuutta tässä aineistossa. Huomionarvoiset seikat liittyvät toisaalta yksittäisten regressiomallien ja rakenneyhtälömallin välisiin eroihin ja toisaalta siihen, mitä merkitystä aineiston monitasoisuuden huomioimisella on. Aluksi mallinnukset suoritetaan siten, että perherakennetta ei lainkaan huomioida. Työn myöhemmässä vaiheessa samoja menetelmiä käytetään uudelleen, tällä kertaa kuitenkin olettamatta havaintoja riippumattomiksi. Otanta-asetelman huomioiminen estimoinnissa ja toisaalta erilaiset monimuuttujamenetelmät ovat tunnettuja ja yleisesti sovellettuja. Kuitenkin menetelmät, jotka yhdistävät nämä kaksi aluetta, ovat vasta melko hiljattain vakiinnuttamassa asemaansa tutkimuksessa. Työn loppuosassa perehdytään jo melko monimutkaiseen analyysitapaan, kun sovelletaan monitasoista rakenneyhtälömallia. Eri menetelmillä saadut tulokset ovat hyvin samankaltaisia, eikä monitasoisuuden huomioiminen merkittävästi muuta analyysien tuloksia ja tulkintoja tässä aineistossa. Kokeilut antavat kuitenkin hyvän ja perusteellisen kuvan lääkityksen ja kognition välisistä suhteista ja auttavat ymmärtämään eri menetelmien välisiä suhteita.
  • Lääperi, Mitja (2015)
    Coronary heart disease (CHD) is one of the leading causes of death worldwide. Linear mixed models (LMMs) are presented in this thesis and they are applied to family data from the European Multicenter Study on Familial Dyslipidemias in Patients with Premature Coronary Heart Disease (EUFAM) -project. The data contain 23 quantitative traits relating to risk of CHD and roughly 28 million genetic variants. The data consist of nearly 1600 individuals from around 150 families. Linear mixed models are used when the data contain clustering or repeated measurements. In other words, when the observations are dependent. In the EUFAM data the observations come from families. In this case, the linear mixed models take the relatedness of the individuals into account. Linear mixed models are applied for both heritability estimation and genome-wide association testing in this thesis. Both in simulations and in the analyses with the EUFAM-data the need for LMMs can be seen. The LMM has more statistical power than the standard linear model when heritability exists in the data. The standard linear model also has inflated type I error rate. Both of these occur because the standard linear model does not take the relatedness of the individuals into account. For example, in the genome-wide analysis done for the EUFAM-data the standard linear model gives a massive amount of false positives when compared to the linear mixed model. The thesis proves the usefulness of and need for linear mixed models when analyzing family data.
  • Huang, Zhiyong (2012)
    In this master's thesis we present two important classes of regularized linear models -regularized least squares regression (LS) and regularized least absolute deviation (LAD). Use of regularized regression in variable selection was pioneered by Tibshirani (1996) and his proposed LASSO rapidly became a popular and competitive method in variable selection. Properties of LASSO have been intensively studied and different algorithms to solve LASSO have been developed. While the success of LASSO was acclaimed during the process, its limitations were noticed and a number of alternative methods have been proposed in subsequent research. Among all of theses methods, adaptive LASSO (Zou, 2006) and SCAD (Fan and Li, 2001) attempt to improve the efficiency of LASSO; LAD LASSO (Wang et al., 2007) assumes non-Gaussian distributed errors; ridge, elastic net (Zou and Hastie, 2005) and Bridge (Frank and Friedman, 1993) adopt penalties other than L1; while fused LASSO (Tibshirani et al., 2005) and grouped LASSO (Yuan and Lin, 2006) take extra constrains of data into account. We discuss LASSO in length in the thesis. Its properties in orthogonal design, singular design and p > n design are examined. Its asymptotic performance is investigated and its limitations are carefully illustrated. Another two commonly used regularization methods in LS - ridge and elastic net - are discussed as well. The regularized LAD is another focus of the thesis. As a robust statistic, LAD, which fits the conditional median rather than the conditional mean of the response, has a bounded influence function and a high conditional breakdown point. It is natural to use regularized LAD to do variable selection in presence of long-tailed errors or outliers in the response. Compared with LASSO, LAD LASSO does robust estimation and variable selection simultaneously. We make a simulation study and examine two real examples on the performance of these regularized linear models. Our results demonstrate that no single one estimate dominates others in all cases. The sparsity of the true model, the distribution of the noise, noise-to-signal ratio, the sample size and the correction of predictors, all these factors matter. When the noise has a normal distribution, LASSO, adaptive LASSO and elastic net often outperform others in prediction accuracy. Adaptive LASSO is the best in variable selection and elastic net tends to reveal less sparsity than LASSO. When the noise follows a Laplace distribution, LAD LASSO is competitive with LASSO but is less efficient than adaptive LASSO. For noises with extremely long-tailed distribution such as Cauchy distribution, LAD LASSO dominates others in both the prediction accuracy and variable selection.
  • Sinisalo, Alina (2013)
    Suomessa maatalousalalla on käynnissä voimakas rakennemuutos, jonka vaikutusta maatalouden tuotantokustannuksiin on tutkittava huomioiden pitemmän aikavälin muutokset. Maatalouden kannattavuuskirjanpitotoiminnalla on Suomessa pitkät perinteet ja tietoja kerätään vuosittain noin tuhannelta toimintaan vapaaehtoisesti liittyneeltä tilalta. Maa- ja elintarviketalouden tutkimuskeskus (MTT) kerää vuosittain maa- ja puutarhatalouden yrityskohtaisen kirjanpitoaineiston. Aineiston tuloksia sopivasti painottamalla pyritään kuvaamaan koko Suomen maatalouden kannattavuutta. Suomen tulokset julkaistaan Taloustohtori–sivuston maa- ja puutarhatalousverkkopalvelussa. Tutkielman teoriaosassa tarkastellaan mikropaneeliaineiston ja lineaarisen sekamallin ominaisuuksia ja tutustutaan maatalouden kannattavuuskirjanpitoaineistoon. Soveltavassa osassa selvitetään tuotantokustannusten muuttumista suomalaisilla kannattavuuskirjanpitotoimintaan osallistuvilla maatiloilla aikajaksolla 2000–2011 sekä testataan lineaarisen sekamallin käytettävyyttä mallinnettaessa maatalousyrityksen tuotantokustannuksia. Tuotantokustannuksia tarkastellaan kokonaistuotantokustannuksina ja yksikkötuotantokustannuksina. Kokonaistuotantokustannukset ovat olleet kasvussa koko 2000-luvun ajan kaikissa tuotantosuunnissa. Yksikkötuotantokustannus maitolitraa kohden on pysytellyt tarkastelujakson lähes samalla tasolla tai hieman pienentynyt. Tulosten perusteella lehmien määrän lisääntyminen tiloilla pienentää yksikkökustannusta. Tärkeimmät tuotantokustannuksia selittävät muuttujat liittyvät aikamuutokseen ja tilan suuruutta kuvaaviin tekijöihin, kuten viljelyala ja lehmien määrä. Tutkimuksessa selvitetään myös maatilojen kokoluokan ja maantieteellisen sijainnin merkitystä kustannusten selittäjänä. Tulosten perusteella tilan sijainti ei ole kovin tärkeä selittäjä kustannusten muodostumisessa ja kokoluokista eniten erottuu pienien maatilojen joukko, joka eroaa merkitsevästi keskisuurista ja suurista tiloista siten, että yksikkökustannustaso oli suurempi. Kokonaistuotantokustannukset kasvavat tilakoon kasvaessa. Mallien toimivuustarkastelujen perusteella lineaarinen sekamalli toimii parhaiten kokonaistasolla ja keskisuurilla ja suurilla kokoluokilla. Pienien tilojen kuvaaminen lineaarisella sekamallilla on epätarkempaa. Tuotantosuunnittain katsottuna malli näyttää antavan aliarvion kokonaiskustannuksista siipikarja-, kasvihuone- ja sikatuotannossa, ja toisaalta yliarvioivan kustannukset viljanviljelyssä, muussa kasvinviljelyssä ja muussa laidunkarjatuotannossa, mutta ero ei kuitenkaan ole merkitsevä. Tilannetta voitaisiin parantaa siten, että kannattavuuskirjanpitotoimintaan pyrittäisiin rekrytoimaan lisää pieniä tiloja ja sellaisien tuotantosuuntien tiloja, joita on nyt aineistossa vähän, esimerkiksi siipikarjatuotannon ja muuta laidunkarjatuotantoa harjoittavia tiloja.
  • Kangas, Tuukka (2018)
    Maistereiden uraseuranta on vuonna 2005 alkanut kyselytutkimus. Kyselytutkimuksen kohdejoukkona ovat viisi vuotta aikaisemmin valmistuneet ylemmän korkeakoulututkinnon tai päättyvän alemman korkeakoulututkinnon suorittaneet henkilöt. Kyselyt toteutetaan kokonaistutkimuksena. Kyselytutkimusta koordinoi yliopistojen työelämä- ja urapalveluiden Aarresaari-verkosto. Helsingin yliopisto on ollut mukana kyselytutkimuksissa alusta saakka. Vuonna 2017 maisteriuraseurantoja esitettiin osaksi yliopistojen rahoitusmallia. Tämä on lisännyt tutkittavan aineiston kiinnostavuutta sekä valtakunnallisesti että yliopiston sisällä. Koska kyselytutkimus on muuttunut vuosien varrella, tässä tutkielmassa on keskitytty vain vuonna 2007, 2009 ja 2011 valmistuneiden aineistoihin. Nämä kyselyt on toteutettu vuosina 2012, 2014 ja 2016. Tutkittava kyselytutkimus on suhteellisen laaja ja sisältää useita muuttujia. Tutkielmassa on hyödynnetty binääristä ja multinomiaalista logistista regressiota. Vastemuuttujaksi valittiin kuinka tyytyväinen vastaaja oli kokonaisuudessaan suorittamaansa tutkintoonsa työuran kannalta. Tämä on myös yksi muuttujista, jota on esitetty osaksi rahoitusmallia. Muita muuttujia hyödynnettiin selittävinä muuttujina. Lopputuloksena saatiin kaksi tilastollista mallia, joista ensimmäinen oli kolmen aineiston yhdistelmästä tehty malli ja toinen vuonna 2011 valmistuneiden aineistosta tehty malli. Mallit analysoitiin hyödyntäen eri tapoja, kuten ROC-käyriä ja Hosmer-Lemeshow’n testiä. Yhdistelmäaineiston perusteella tutkintotyytyväisyyden todennäköisyyttä kasvattaa muun muassa, jos pystyy hyödyntämään oppimaansa nykyisessä työssään, työpaikan vaativuustaso vastaa koulutusta ja ei ole kohdannut työttömyyttä valmistumisen jälkeen. Samoin jos vastaaja kokee, että yliopisto-opiskelu on kehittänyt hyvin esimerkiksi teoreettista osaamista, opetustaitoja ja tietoteknisiä taitoja, niin tämä parantaa tyytyväisyyden todennäköisyyttä. Yhdistelmäaineiston perusteella sellaiset henkilöt, jotka pätevöityvät suoraan johonkin ammattiin, kuten lääkäriksi, lakimieheksi tai farmaseutiksi, ovat hieman todennäköisemmin tyytyväisempiä. Vastaavasti vuonna 2011 valmistuneiden aineistosta ns. generalistialoilta valmistuneet henkilöt ovat hieman tyytyväisempiä suhteessa professioaloihin. Uusin aineisto tukee suurelta osin yhdistelmäaineiston havaintoja, mutta sen perusteella merkittävämpiä muuttujia tyytyväisyyden todennäköisyyden selittämiselle ovat riittävien valmiuksien saaminen työelämään ja että työnantaja arvostaa tutkintoa. Näitä kahta muuttujaa ei ole käytettävissä aikaisemmissa aineistoissa.
  • Jousimo, Jussi (2011)
    Markov random fields (MRF) are popular in image processing applications to describe spatial dependencies between image units. Here, we take a look at the theory and the models of MRFs with an application to improve forest inventory estimates. Typically, autocorrelation between study units is a nuisance in statistical inference, but we take an advantage of the dependencies to smooth noisy measurements by borrowing information from the neighbouring units. We build a stochastic spatial model, which we estimate with a Markov chain Monte Carlo simulation method. The smooth values are validated against another data set increasing our confidence that the estimates are more accurate than the originals.
  • Holm, Marja Eliisa (2020)
    Tässä tutkimuksessa oppilaiden tunnekokemuksia matematiikassa mitattiin kansainvälisesti käytössä olevalla matematiikan tunnekyselyllä (The Achievement Emotions Questionnaire-Mathematics, AEQ-M; Pekrun, Goetz & Frenzel, 2005). Tämä mittari on oppilaan itsearviointiin perustuva mittari, joka selvittää oppilaiden tunteita matematiikan luokassa, oppimisessa ja testissä. Tämän tutkimuksen tavoitteena on testata mittariin liittyviä teoreettisia malleja, faktorien luotettavuutta, erotteluvaliditeettia ja faktorien erillisyyttä. Lisäksi käsitellään tutkimusotantaa ja puuttuvan tiedon käsittelyä. Tutkimusotos (n = 1413) on maantieteellisesti edustava otos 8. luokan oppilaista (14- ja 15-vuotiaat). Tutkimusotos saatiin monivaiheisesti käyttämällä useita otantamenetelmiä kuten kouluihin pohjautuvaa ryväsotantaa, systemaattista otantaa ja implisiittistä osittamista. Konfirmatorista faktorianalyysia käytettiin tutkimaan teoreettisia AEQ-M-malleja edustavassa tutkimusotoksessa. Tulokset osoittivat, että teoreettinen tunne x tilanne -malli, jossa sekä tunteet että niihin liittyvät tilanteet huomioitiin, kuvasi dataa hyvin. Tässä mallissa kuusi matematiikkaan liittyvää tunnetta (nautinto, ylpeys, viha, ahdistus, häpeä ja tylsyys) mallinnettiin erillisinä latentteina faktoreina, ja eri tilanteiden (luokka, oppiminen ja testi) vaikutus huomioitiin antamalla samassa tilanteessa olevien tunnemuuttujien residuaalien korreloida keskenään. Vaikka tässä mallissa faktoreita vastaavien latenttimuuttujien reliabiliteetit olivat suhteellisen hyviä, tämä tutkimus kuitenkin kyseenalaistaa tunnefaktorien erotteluvaliditeetin ja samaan tilanteeseen liittyvien tunteiden residuaalien väliset korrelaatiot. Nämä tulokset osoittavat, että mittari on varsin toimiva mittaamaan suomalaisten nuorten tunteita matematiikassa. Lisäksi tutkimustulokset tukevat teoriaa siitä, että akateemisten tunteiden mittaamisessa olisi huomioitava sekä erilliset tunteet että niiden erilaisuus luokka-, oppimis- ja testitilanteessa. Tutkimustulokset herättävät kuitenkin kysymyksen siitä, onko tarkoituksenmukaista yhdistää korkeasti korreloivat tunteet samoiksi faktoreiksi vai käyttää teoreettista mallia korkeista korrelaatioista huolimatta. Vaikka teoria määrittää tunteiden vahvan yhteyden eri tilanteisiin, tämä tutkimus herättää kysymyksen, ovatko kaikki tunteet samassa tilanteessa kuitenkaan merkittävästi yhteydessä. Tulevaisuudessa olisi esitettävä laajempaa analyysia faktorien erillisyydestä ja tunteiden tilannesidonnaisuudesta.
  • Zhou, Meng (2012)
    Nowadays, microsimulation method has been introduced to different fields, such as Social Science, Medicine research and Economic study. This method evaluates the effects of the proposed interventions or policies before they are implemented in the real world. In this article, I concentrate on microsimulation method used in Social Science by firstly explaining two main streams in microsimulation world, Static approach and Dynamic approach, in them, how statistical models are used are carefully explained by giving examples in Dynamic approach. In the following section, a Norwegian case is studied, this case gives the typical example of how the dynamic microsimulation used in the labor force and child care research, the effects of four different reform options are measured in this study. In the last section, the empirical study of a Finnish static microsimulation model-JUTTA is carried out. The uncertainty of JUTTA is assessed and one of its sub model called Toimtuki (income-related supplementary benefit) is detected to have space to be more accurate. In order to do so, two statistical models- Linear Regression model and Two-Stage Least Squares (2SLS) model are applied to it. From their results and diagnostics, we could conclude that both the Linear Regression and 2SLS successfully improves the accuracy of TOIMTUKI to some extent.
  • Eronen, Anna (2017)
    Kaikkialla maailmassa naiset elävät nykyisin keskimäärin vanhemmaksi kuin miehet, mutta sukupuolten kuolleisuuserojen suuruus on vaihdellut ajasta ja paikasta riippuen. Suomessa sukupuolten kuolleisuuserot ovat suuria verrattuna muihin Länsi-Euroopan maihin. Kuolleisuuserojen on arveltu kutistuvan tulevaisuudessa miesten ja naisten elinpiirien lähentymisen takia. Erojen voimakkaalla kaventumisella voisi olla vaikutusta mm. väestöennustelaskelmien luotettavuuteen. Tässä tutkielmassa mallinnettiin ja ennustettiin ekstrapolointi perustuvilla malleilla 0-99 -vuotiaiden miesten ja naisten viisivuotisikäryhmittäisiä kuolevuuksia Suomessa ja Ruotsissa. Mallinnukseen käytettiin vuosien 1960-2015 tietoja, ja ennustettava jakso kattoi vuodet 2016-2045. Ruotsia käytettiin vertailukohtana Suomen kuolleisuuserojen kehitykselle. Mallinnuksessa käytetty aineisto on peräisin kansainvälisestä Human Mortality Database -tietokannasta sekä Suomen ja Ruotsin tilastoviranomaisten verkkosivuilta. Yksikertainen ennustemalli kuolevuudelle toteutettiin sovittamalla kuolevuuden logaritmiin trenditermillinen satunnaiskulkuprosessi. Tutkielmassa käytettiin myös Ronald Leen ja Lawrence Carterin kehittämää mallia, joka on nykyisin yksi yleisimmin käytetyistä kuolevuuden ennustemenetelmistä. Menetelmässä kuolevuuden logaritmi mallinnetaan ikä- ja aikakomponenttien avulla, joiden estimaatit saadaan ratkaistua singulaariarvohajotelmaa käyttäen. Tutkielmassa Lee-Carter – mallit sovitettiin tavanomaisesta poiketen kolmeen eri ikäryhmään (0-19 -vuotiaat, 20-59 -vuotiaat ja 60-99 -vuotiaat), sillä kuolleisuus ja elintavat ovat erilaisia eri ikäluokissa. Lee-Carter -mallien pohjalta laskettiin ennusteet kuolevuuden logaritmin tulevia arvoja ennustamalla aika-indeksiä trenditermillisenä satunnaiskulkuprosessina. Ennusteille laskettiin myös 95:n prosentin ennustevälit. Vertailun vuoksi muodostettiin ennusteet myös Tilastokeskuksen väestöennusteen kuolevuuden ennustamismenetelmään perustuen. Kuvallisten tarkastelujen perusteella trenditermilliseen satunnaiskulkuprosessiin perustavissa malleissa miesten ja naisten kuolleisuudet vaikuttaisivat konvergoituvan tai hajaantuvan joissain ikäryhmissä. t-testien perusteella kaikkien trendien keskinäiset suhteet näyttäisivät kuitenkin pysyvän ennallaan. Lee-Carter -mallien pohjalta laskettujen ennusteiden valossa miesten ja naisten kuolevuuden trendit eivät konvergoi missään ikäryhmässä Suomessa eikä Ruotsissa. Suomessa yli 35 -vuotiailla konvergoituminen on ennustevälien perusteella mahdollista ennusteajanjakson loppupuolella. Tilastokeskuksen väestöennusteessa käyttämään menetelmää perustuvien ennusteiden nojalla Suomessa miesten ja naisten kuolevuuden trendit lievästi konvergoivat 20-35 -vuotiailla sekä 50-59 -vuotiailla. Mallien tuottamien ennusteiden erot liittyvät mallinnuksessa hyödynnettäviin aikaperiodeihin; Tilastokeskuksen ennustamismenetelmässä huomioidaan vain viimeisen 28 vuoden kuolevuuden kehitys. Ruotsissa kuolevuuskertoimien pohjalta tehtyjen ennusteiden perusteella miesten ja naisten kuolevuudet konvergoivat 55-80 -vuotiaiden ikäryhmissä. Tämän tutkielman perusteella ei ole todennäköistä, että Suomen miesten ja naisten kuolevuuserot kaventuisivat väestöennusteen kannalta merkittävästi.
  • Patronen, Mikko (2020)
    Kato on yksi otanta-aineiston virhelähteistä. Se voi aiheuttaa aineistosta laskettaviin estimaatteihin harhaa, joten sen hallintaan on pyritty kehittämään erilaisia menetelmiä. Yksi tällainen menetelmä on imputointi, eli puuttuviksi jääneiden arvojen korvaaminen hyvin perustelluilla arvoilla. Estimointiin liittyvä epävarmuus tulee parhaiten huomioiduksi moni-imputoinnilla, mikä tarkoittaa useamman imputoidun aineiston muodostamista. Tässä tutkielmassa perehdytään vastauskadon ominaisuuksiin. Imputointimenetelmän valintaan vaikuttaa esimerkiksi imputoitavan muuttujan asteikko sekä oletus kadon taustalla olevasta mekanismista. Imputoinnin apuna voidaan hyödyntää myös mahdollisesti käytössä olevia taustamuuttujia, jotka ovat yhteydessä imputoitavien muuttujien arvoihin ja niissä ilmenevään vastauskatoon. Myös tutkittavan ilmiön teorian kannalta olennaisia muuttujia voidaan hyödyntää. Tutkielmassa tarkastellaan vuoden 2017 tammikuun Kuluttajabarometriaineistosta neljän kysymyksen osa-aineistoa, joka muodostaa kuluttajien luottamusindikaattorin. Kuluttajien luottamusindikaattori kuvaa 18-84 -vuotiaiden suomalaisten näkemyksiä ja odotuksia sekä henkilökohtaisesta että Suomen yleisestä taloustilanteesta. Kiinnostuksen kohteena on erityisesti selvittää, vääristääkö vastauskato aineistosta laskettavia estimaatteja. Tutkielmassa vastauskatoa paikataan moni-imputoimalla käyttäen hot deck -imputointia, jossa puuttuvat tiedot korvataan taustatiedoiltaan mahdollisimman samankaltaisilta vastaajilta kopioiduilla arvoilla. Työssä muodostetaan viisi imputointimallia käyttäen erilaisia yhdistelmiä taustamuuttujista. Taustatieto ikäluokasta osoittautuu tärkeäksi mallimuuttujaksi tulosten kannalta. Imputointimalli ilman ikäluokkatietoa pienentää luottamusindikaattorin estimaattia sekä koko aineiston tasolla että sukupuoliryhmissä. Luottamusindikaattorin arvot estimoituvat alkuperäisen aineiston estimaattia pienemmiksi myös, jos malli perustuu ainoastaan tietoon sukupuolesta.
  • Wallenius, Minna (2013)
    Tutkielman tavoitteena oli perehtyä avioeron todennäköisyyden tarkasteluun käytettyihin menetelmiin, tutkia millaisia tuloksia niillä saadaan suomalaisesta aineistosta ja arvioida niiden soveltuvuutta virallisiin tilastoihin. Virallisissa tilastoissa yleisesti käytetty eronneisuuden mittari on kokonaiseronneisuusluku, jonka on yleensä tulkittu kertovan kuinka suuri osa liitoista päättyisi eroon eronneisuuden pysyessä tarkasteluvuoden tasolla. Se ei kuitenkaan ole toimiva avioeron todennäköisyyden estimaatti. Luku ei huomioi aiempaa eroamishistoriaa, joten muutokset avioerojen ajoituksessa voivat vääristää lukua kohtuuttomasti. Kokonaiseronneisuusluvun perusteella puolet avioliitoista päättyisi Suomessa eroon. Siviilisäätyjen muutoksia voidaan ajatella prosessina, jossa henkilöt siirtyvät tilasta toiseen avioliittojen, avioerojen ja kuolemien takia. Tämän tyyppisiä ilmiöitä on tarkasteltu monen tilan elinajantauluilla, joissa keinotekoinen kohortti kuljetetaan eri ikävaiheiden läpi altistettuna tutkittavan ajanjakson ikäryhmittäisille siirtymien todennäköisyyksille. Tulosten tulkitaan kertovan mitä seuraisi, jos siirtymien todennäköisyydet pysyisivät kyseisen ajanjakson tasolla. Monitilaiset elinajantaulut ovat Markovin prosesseja, jos tilaan siirtymisen todennäköisyys riippuu vain sen hetkisestä tilasta ja iästä, muttei aiemmista tiloista eikä tilassa olon kestosta. Semi-Markov-prosesseissa myös nykyisessä tilassa vietetty aika vaikuttaa siirtymien todennäköisyyteen. Tutkielmassa verrataan avioliiton kestosta riippumatonta ja keston vaikutuksen huomioivaa mallia. Lisäksi tutkitaan ikäryhmittäin avioeron suhteellista riskiä liiton keston mukaan. Tutkielma rajoittuu naisten ensimmäisiin avioliittoihin ja niiden päättymiseen. Tulosten perusteella vuoden 2011 tilanteen pysyessä voimassa Suomessa naisten ensimmäisistä avioliitoista päättyisi eroon noin 39 prosenttia, jos oletetaan ettei liiton kestolla ole yhteyttä avioeron riskiin, ja hieman alle 41 prosenttia, jos keston merkitys huomioidaan. Avioeron suhteellinen riski käyttäytyy eri ikäryhmissä hieman eri tavoin, mutta on kaikissa korkea muutaman vuoden kestäneissä liitoissa. Tulokset ovat samansuuntaisia aiemman tutkimuksen kanssa. Avioliiton kesto on yhteydessä eron todennäköisyyteen, vaikka eroavaisuudet keston huomioivien ja siitä riippumattomien elinajantaulujen välillä eivät kaikissa tilanteissa ole suuria. Ikäryhmittäisten siirtymätodennäköisyyksien estimoinnissa käytettiin ns. lineaarisuusoletusta, joka voi tuottaa teoreettisesti mahdottomia arvoja, jos ryhmien keskimääräiset siirtymäintensiteetit ovat kovin suuria. Tässä tapauksessa näin kävi keston huomioivassa mallissa, jossa väestö ja siirtymät luokiteltiin moniin pieniin ryhmiin iän lisäksi avioliiton keston mukaan. Lineaarisuusoletusta käytetään sen heikkouksista huolimatta, koska sillä saadaan useimmiten mielekkäitä tuloksia ja se on helppo toteuttaa. Ilmeisistä puutteistaan huolimatta se tuotti tässäkin tapauksessa elinajantauluja, joista saatiin avioeron todennäköisyydelle järkeviä estimaatteja. Avioeron todennäköisyyttä onkin parempi estimoida monitilaisten elinajantaulujen avulla kokonaiseronneisuuslukujen sijasta.
  • Göös, Jani (2016)
    Tutkielman kohteena on lääketieteellinen kustannustehokkuusanalyysi ja erityisesti siinä esiintyvä problematiikka liittyen sellaisiin tutkimusten kohdehenkilöihin, joille ei ole syystä tai toisesta kertynyt tutkimuksen seurantajakson aikana kustannuksia. Tarkoituksena on kuvata kustannustehokkuusanalyysin käytännön toteutustapa keskittyen erityisesti bayesläisen päättelyn tarjoamiin mahdollisuuksiin nollakustannuspotilaiden estimoinnissa. Tutkimuksessa on käytetty akuutisti huonontuneen sydämen vajaatoiminnan lääkintään keskittyvää Revive II -tutkimusaineistoa. Täydelliselle aineistolle toteutetun kustannustehokkuusanalyysin tavoite on selvittää, onko uusi lääkintämuoto Levosimendan kustannustehokas perinteiseen käytössä olevaan lääkintätapaan verrattuna. Tehdyn analyysin perusteella laskennallinen kannattavuusrajapiste osuu 2400 dollariin päivältä, jonka jälkeen investoinnit Levosimendaniin eivät tuota enää lisähyötyä. Kannattavuusrajapistettä pienemmillä investoinneilla Levosimendan osoittautuu enintään 57 %:n todennäköisyydellä kustannustehokkaaksi vaihtoehdoksi. Toisena suurena ja pääasiallisena aihekokonaisuutena tutkielmassa paneudutaan nollakustannusten vaikutusten mallintamiseen bayesläistä päättelyä apuna käyttäen. Tutkielmassa nollakustannusten mukanaan tuomia jakaumallisia ongelmia pyritään ratkaisemaan nollakustannusten todennäköisyyttä ennustavan logistisen regressiomallin avulla. Tämän jälkeen regressiomallin tulokset yhdistetään positiiviset kustannukset omaavien henkilöiden logaritmiseen normaalimalliin tai gammamalliin. Näin saadusta sekamallista saadaan estimoitua potilaiden keskimääräiset kustannukset, jotka voidaan sijoittaa edelleen kustannustehokkuusanalyysiin. Mikäli nollakustannukset eivät ole hyväksyttäviä vaan puuttuvaa tietoa, halutaan niiden muodostama harha analyysissa minimoida. Puuttuvan tiedon paikkaaminen on toteutettu tutkielman viimeisessä osassa vahvalla informatiivisella priorijakaumalla. Sen avulla nollakustannukset omaaville potilaille tuodaan malliin ennakkotieto kustannusaineiston keskiarvosta ja hajonnasta. Sitä varten positiiviset kustannukset omaavien potilaiden ryhmän kustannuksiin sovitetaan jokin tunnettu jatkuva parametrinen todennäköisyysjakauma. Revive II -tutkimuksen kohdalla kustannuksia kuvaa parhaiten logaritminen normaalijakauma, jota lopullisessa mallissa käytetään priorijakaumana. Näin potilaiden kustannusestimaatit ovat hyväksyttäviin nollakustannuksiin verrattuna huomattavasti lähempänä täydellisen aineiston arvoja.
  • Vartiainen, Marjukka (2011)
    Tutkielmassa sovelletaan aineiston edustavuutta mittaavaa laatuindikaattoria Suomen uhritutkimuspilottiin tilanteessa, jossa ilmenee vastauskatoa. Vastauskato on kasvava ongelma tilastotutkimuksissa: jos tutkimukseen osallistuneet eivät edusta otosjoukkoa tutkittavan asian suhteen, voi vastauskadosta aiheutuva harha olla estimoiduissa tunnusluvuissa hyvinkin suuri. Tutkimuksissa näkee usein julkaistavan vastausasteen ikään kuin se kertoisi aukottomasti tutkimuksen laadusta. Pelkkä korkea vastausaste ei kuitenkaan välttämättä takaa estimaattien harhattomuutta, sillä se ei kerro mitään vastanneiden ja vastaamattomien eroista tutkittavan asian suhteen. Tarvitaan siis muita mittareita, joilla vastanneiden laatua voitaisiin paremmin arvioida, ja R-indikaattori tarjoaa yhden vaihtoehdon. R-indikaattori mittaa otosalkioiden vastausalttiuksien välistä vaihtelua. R-indikaattorin estimoiminen edellyttää siis vastausalttiuksien estimointia, mikä puolestaan edellyttää apumuuttujien olemassaoloa kaikille otosalkioille. Vastausalttiuksien estimoimiseen käytettiin linkkifunktiona sekä logistista mallia että ja Särndalin ja Lundströmin (2008) vastausvaikutusten mallia. Vastauskäyttäytymiseen vaikuttavan apumuuttujajoukon valinta tehtiin alan kirjallisuuteen perustuen (Groves & Couper 1998). Koska R-indikaattorin estimaattori on satunnaismuuttuja, täytyi sille estimoida varianssi ja mahdollinen harha (Shlomo ym. 2009). Estimoinnissa käytettiin Bootstrap-pseudotoistomenetelmää, jossa alkuperäisestä aineistosta poimitaan niin kutsuttuja pseudo-otoksia, joiden avulla R-indikaattorin estimaattorille voidaan laskea keskivirhe. Suomen uhritutkimuspilotti koostui kolmesta eri tiedonkeruumenetelmällä poimitusta otoksesta: CAPI-, CATI- CAVVIotoksesta. Vastausasteet vaihtelivat aineistoissa paljon, mutta R-indikaattorin estimaatit olivat kaikille aineistoille liki samat. Suurempi vastausaste ei siis merkinnyt parempaa edustavuutta. Lisäksi CAVVI-aineistossa muistutusviestein ja -kirjein suoritettu vastausasteen kasvattaminen huononsi edustavuutta R-indikaattorin näkökulmasta. Mielivaltainen vastausasteen kasvattaminen ei siis ole välttämättä perusteltua. R-indikaattorin estimaattorin ominaisuuksien osalta empiiriset tulokset vahvistivat RISQ-projektin aiempia tutkimustuloksia. Estimaattorin arvo oli sitä pienempi mitä enemmän vastausalttiuden mallissa oli selittäjiä, koska tällöin vastausalttiuksien varianssi kasvoi (Schouten ym. 2009). Otoskoko vaikutti merkittävästi varianssin suuruuteen: mitä pienempi otoskoko oli, sitä leveämmät olivat luottamusvälit ja sitä vaikeampi oli tehdä johtopäätöksiä edustavuudesta.
  • Helminen, Ville (2017)
    Survey aineistojen estimoimisessa on monia haasteita. Esimerkiksi puuttuneisuus ja kenttätyön tuomat haasteet ovat esimerkkejä asioista, jotka tuovat haasteita survey tutkimuksiin ja sitä kautta harhaa, kun tutkimuksen kiinnostuken kohteina olevia muuttujia estimoidaan. Otanta-asetelman sekä kenttätyön luomat haasteet voidaan usein ratkaista hyvällä suunnittelulla ja perusteellisella työskentelyllä. Puuttuneisuutta eli vastauskatoa ei voida kuitenkaan ehkäistä pelkästään hyvällä suunnittelulla. Puuttuneisuus onkin survey aineistoista lasketuissa estimaateissa suurin harhaa aiheuttava tekijä. Puuttuneisuus voidaan jakaa yksikkövastauskatoon sekä erävastauskatoon. Tämän tutkielman menetelmillä pyritään vähentämään nimenomaan yksikkövastauskadon tuomaa harhaa. Tätä harhaa voidaan vähentää painottamalla satunnaisotannan kautta saatu aineisto. Painotusmenetelmillä on tarkoitus painottaa otokseen valitut ja kyselyyn vastanneet vastaajat niin, että ne edustaisivat tutkimuksen tavoiteperusjoukkoa mahdollisimman hyvin. Painotusmenetelmät voidaan jakaa peruspainotukseen ja uudelleenpainotukseen. Peruspainotuksen ideana on luoda pohja uudelleenpainotukselle. Uudelleenpainotuksen ideana on eri lähteistä saatavia aputietoja hyväksikäyttäen luoda mahdollisimman hyvät uudet painot, joidenka avulla voidaan estimoida mahdollisimman harhattomasti joitakin kiinnostuksen kohteena olevia muuttujia. Tässä tutkielmassa käydään läpi niin peruspainotus, kuin uudelleenpainotuskin. Tutkielmassa esittelen tyypillisimmät uudelleenpainotus menetelmät. Näitä on muun muassa: jälkiositus, kalibrointi ja vastaustodennäköisyysmalleihin perustuvat painotus. Tutkielman lopuksi lasken joitakin estimaatteja käyttäen eri painoja, joita olen tutkielman aikana luonut. Tutkielmassa olevat kiinnostuksen kohteena olevat muuttujat ovat peräisin vuoden 2014 ESS (European social survey) datan pohjalta luodusta aineistosta. Tutkielmassa kiinnostuksen kohteena olevia muuttujia olivat muuttujat liittyen luottamukseen, terveyteen, onnellisuuteen ja kotitalouden tuloihin. Tutkielmassa saatiin selville, että sillä mitä painotusmenetelmää käytetään ja mitä aputietoja käytetään, saadaan selkeästi erilaisia painotuksia aineistoille ja sitä kautta erilaisia estimaatteja tutkittaville muuttujille. Tutkielman aikana ilmenee selkeästä, että esimerkiksi kalibroinnilla luodut painot ja niiden avulla lasketut estimaatit parantavat tuloksia selkeästi. Yksi mielenkiintoinen löydös tutkimuksessa oli se, kuinka paljon jokin yksittäinenkin lisätieto tai sen puuttuminen voi muokata painoja ja sitä kautta estimaatteja. Lopulta parhaat painot saadaan luotua vastaustodennäköisyysmallien ja kalibroinnin yhdistelmällä. Tutkielmassa laskettujen estimaattien arvot saivat liian suuret arvot, kun ne laskettiin ilman painotusta tai pelkän peruspainotuksen avulla. Tämä ilmiö tapahtui lähes kaikissa tutkielmassa lasketuissa estimaateissa. Ja lopulta pystyttiin myös toteamaan, että lähes kaikkien tutkittavien muuttujien estimaatit erosivat toisistaan tilastollisesti merkitsevästi, kun vertailtiin estimaatteja, jotka laskettiin ilman painotusta ja parhailla mahdollisilla painotus-menetelmillä.