Browsing by discipline "Statistics"

Now showing items 1-20 of 53

Analysing bacterial data obtained with phenotype microarrays

Grönfors, Markus (2014)

In this thesis the main idea is analyse bacterial data obtained with specific technology called phenotype microarrays. The goal is to implement statistical methods and model cell respiration over period of 48 hours. The data are a bacterium called yersinia enterocolitica, which is a pathogen mainly carried by animals. Data was originally published in a scientific journal called Proceedings of the National Acedemy of Sciences of the United States of America and a small part of strain was chosen for thesis. Data consists about 110 000 rows of observations and it is divided to two experimental setups that are tested in two different temperatures. Data analysis consists three steps: cluster analysis, data normalization and comparing experimental setups. Statistical methods used are k-means clustering, Michaelis-Menten kinetics for growth curves, linear mixed effects models, restricted maximum likelihood estimation, random walk Metropolis-Hastings algorithm and highest posterior density intervals. Main results are there is a recognizable cluster for substrates implying grow and there are no differences between experimental setups. In conclusion statistical methods used in thesis are satisfactory for modelling data and while there are noticeable clusters, there lies no differences between experimental setups. In further analyses it should be better to include more experimental setups in one analysis.
Edustavuuden kehitys kuluttajabarometrissa siirryttäessä yhdistelmätiedonkeruuseen

Hyhkö, Simo Heikki (2020)

Otoksen edustavuus on yksi keskeisimpiä asioita kyselytutkimusten hyvyyttä tarkasteltaessa. Edustavuutta voi mitata usealla eri tavalla. Perinteisin mittari on vastausaste. Korkea vastausaste ei kuitenkaan ole yksinään mikään tae otoksen edustavuudesta. Toimivia edustavuusmittareita on pitkään pyritty kehittämään. Yksi näistä on $R$-indikaattori, jota tässä tutkielmassa tarkastellaan. Tilastokeskuksen perinteisen Kuluttajabarometrin sisältöä muutettiin toukokuussa 2019. Keskeisimmät muutokset olivat: 1) siirtyminen yhdistelmätiedonkeruuseen, 2) ikäjakauman kaventaminen 3) osan haastattelukysymyksistä vaihtuminen. Samassa yhteydessä tutkimuksen nimeksi vaihdettiin Kuluttajien luottamus. Tämän tutkielman kannalta keskeisin mainituista muutoksista oli siirtyminen puhelinhaastatteluista yhdistelmätiedonkeruuseen. Tutkielman tarkoituksena on selvittää haastattelutavan muutoksen vaikutusta otoksen edustavuuteen. Edustavuusmittariksi valittiin $R$-indikaattori. Tutkimusaineistona oli kuluttajabarometridata vuoden 2012 tammikuusta vuoden 2019 toukokuuhun. Kuluttajabarometridatan lisäksi käytössä oli Kuluttajien luottamus -tutkimuksen data neljältä ensimmäiseltä kuukaudelta toukokuusta elokuuhun 2019. Tutkimuksen tuloksena oli, että siirtyminen yhdistelmätiedonkeruuseen ei heikentänyt otoksen edustavuutta. Toisaalta kävi kuitenkin ilmi, että $R$-indikaattorin saamat arvot eivät koko tutkimusperiodilla olleet valittujen hyvyysrajojen mukaan riittävän korkealla tasolla. Toinen tarkastelluista muutoksista oli ikäjakauman kaventaminen molemmista päistä. Yläpäästä jätettiin kokonainen ikäluokka pois (75-84 v.). Alapäästä jätettiin pois osa nuorimmasta ikäluokasta (15-17 v.). Vanhin ikäluokka oli aktiivisin vastaajaryhmä ja vastaavasti nuorin ikäluokka oli passiivisin vastaamaan. Ikäjakauman kaventaminen ei kuitenkaan heikentänyt otoksen edustavuutta. Edustavuuden kehityksen lisäksi tarkasteltiin vaihtoehtoisia edustavuusindikaattoreita ja $R$-indikaattorin erilaisia versioita. Suurin osa vaihtoehtoisista indikaattoreista antoi hyvin samankaltaisia tuloksia, kuin $R$-indikaattori. Mikään testatuista vaihtoehtoisista indikaattoreista ei osoittautunut merkittävästi helpommin tulkittavaksi kuin $R$-indikaattori.
Effects of Corpus Size on Word Similarity Model

Oksanen, Joni (2020)

Text mining methods provide a solution to the task of extracting relevant information from large text datasets. These methods can be applied to extract the relevant parts of Suomi24 internet health discussion to analyze how people discuss and negotiate their health through words, which represents medication or symptoms. Semantic similarities between these two concepts can be examined by learning the word vector representations from data and exploring the vector space using Word2Vec, a popular word embedding method. This thesis reviews how the training of word similarity models is affected by increasing corpus size using text retrieval methods.The effects of corpus size are examined by comparing the measured cosine similarity distances between word vectors representations in two different vector spaces. Word vector representations are learned using two different sized corpora. The first corpus includes only messages from the health discussion area of Suomi24. The second corpus includes the same messages as the first corpus, but also messages from other discussion areas, which include health related words. Cosine similarities are evaluated on using concept vocabularies including relevant health related words. Increasing the number of training examples by almost 30% did not have a drastic effect on the qualities of the training data. The results did not indicate a distinct connection between corpus size and the measured cosine similarity distances between word vector representations of health related words.
Ehdollinen logit-malli ja naiivi Bayes-luokittelija : Kaksi eri tapaa diskreetin valinnan päättelyyn

Lehtimäki, Aku-Ville (2018)

Diskreetillä valinnalla tarkoitetaan tilannetta, jossa valitsijan pitää valita jokin vaihtoehto äärellisestä vaihtoehtojen joukossa. Yksilön käyttäytymisen taustalla ajatellaan yleisesti olevan taloustieteellinen, individualistinen suuntaus, jonka myötä valitsija pyrkii maksimoimaan hyötynsä. Tämän lisäksi valitsijan ajatellaan olevan rationaalinen eli toimivan tiettyjen aksiomien mukaisesti. Paradigmasta riippuen valitsijan preferenssit voivat olla satunnaiset tai deterministiset ja valitsija voi valita myös vahingossa väärin, jolloin preferenssi tai sen estimaattori on satunnaismuuttuja. Aineisto, joka kuvaa diskreettiä valintaa, kerätään siten, että valitsijalla tai valitsijoille arvotaan joukko vaihtoehtoja, jotka koostuvat eri attribuuttien tasoista. Attribuutti on ominaisuus, esimerkiksi väri, ja sen tasoja ovat esimerkiksi punainen, vihreä ja sininen. Näin yhdellä vaihtoehdolla ei voi olla saman attribuutin kahta tasoa. Toisaalta attribuuttien määrää ei ole rajoitettu. Näiden varsinaisten vaihtoehtojen lisäksi valitsijalle on tapana esittää ei mikään -vaihtoehto, jonka valitsemalla hän pääsee pois valintatilanteesta, eikä hän esimerkiksi joudu pakotettuna valitsemaan satunnaisesti jotakin vaihtoehdoista. Jokaisesta valintatilanteesta kirjataan ylös valittavina olleet vaihtoehdot sekä tieto siitä, mikä vaihtoehto valittiin. Perinteisesti edellä kuvattua tilannetta on estimoitu ehdollisella logit-mallilla. Se on yleistetty lineaarinen malli, eikä sen avulla eri vaihtoehtojen valintatodennäköisyyksille ole mahdollista saada analyyttisia ratkaisuja. Tämän lisäksi ei mikään -vaihtoehto tuottaa sille vaikeuksia, sillä se on oikeastaan multinomiaalisen logit-mallin luokka, ja esittämällä sen attribuuttien tasot neutraaleina tasoina lopputulemana on lineaarisen riippuvuuden ongelma. Asian ratkaisemiseksi jonkinlainen simulointi on välttämätön. Tässä pro gradu -tutkielmassa ehdollisen logit-mallin rinnalle tuodaan naiivi Bayes-luokittelija, jonka avulla on mahdollista laskea analyyttiset ratkaisut valintatodennäköisyyksille sekä ottaa mukaan ei mikään -vaihtoehto yhtenä luokkana. Kahden aineiston avulla osoitetaan, että molemmat menetelmät ennustavat yhtä hyvin, joten tämän perusteella naiivia Bayesluokittelijaa voi käyttää siinä missä ehdollista logit-malliakin sekä lisäksi aina silloin, kun numeerinen approksimoinnin käyttäminen ei tule kysymykseen. Tämän lisäksi todetaan, että vastaajien, jotka valitsivat ei mikään -vaihtoehdon joka kohdassa, ja täten ovat mahdollisesti vähemmän kiinnostuneita tarjotuista vaihtoehdoista, poistaminen ei tee kummastakaan mallista toista parempaa, vaikkakin osumatarkkuus molempien mallien tapauksessa parani.
Epidemiological and spatial study of a community-wide waterborne outbreak

Jalava, Katri (2014)

Failures in the drinking water distribution system often cause gastrointestinal outbreaks associated with multiple pathogens. We investigated a community-wide waterborne outbreak using a polyphasic approach combining advanced epidemiological, statistical, spatial and microbiological methods. A water pipeline breakage due to construction works occurred in the water distribution line in Vuorela, Eastern Finland on July 4th 2012. Two weeks later, gastrointestinal illness in the community increased and immediate control measures were implemented. Of 2931 inhabitants of the defined outbreak area, a total of 473 (16 %) responded to the web-based questionnaire. Samples from patients and water were analyzed for multiple microbial targets, subjected to appropriate molecular typing and microbial community analysis. We developed a method that enabled us to calculate the distance between the water pipe line breakage point and inhabitant locations. We used the responses obtained from the questionnaires in the univariate and multivariate analysis as explanatory variables. In addition, we used spatial logistic regression model to further analyze the data. The main symptoms in the cohort were stomach ache, nausea and diarrhoea. The clinical picture was mild and the length of the illness had a median of three days. Several pathogens and/or faecal indicators were detected by from the patient faecal and/or water samples, including sapovirus, single Campylobacter jejuni, arcobacters and various E. coli types (EHEC, EPEC, EAEC and EHEC). A case definition was created based on the clinical symptoms, which was used as a response variable in the statistical models. Drinking untreated tap water from the defined outbreak area had a risk ratio (proportion of those exposed among ill to those exposed among healthy) of 5.6 (95% CI 1.9-16.4) increasing in a dose response manner. We were able to calculate the distance between the water breakage point and the inhabitant position by the path of the water distribution network with the method developed for this study. The closer a person lived to the water distribution breakage point, the higher the risk of becoming ill. Children were more likely to fall ill. In the multiple log and logistic regression models, age (inversely), distance from the breakage point (inversely) and drinking the tap water were significant. In addition, a spatial term (describing the spread of the infection between close contacts, inaccuracy in the distance variable and nonlinear fluctuation of the water in the distribution network) was significant. Transmission between persons is common among children and with viral infections. The novel methods used in this study improved the characterization of the source of the infections, and aided to define the extent and magnitude of this outbreak. These methods may be applied to wide range of future outbreaks.
Espoolaisten koettu terveys : Pienalue-estimoinnin soveltaminen aluetasoisen tiedon tuottamiseen

Lindroth, Tanja (2011)

Koettu terveys on subjektiivinen mittari, jota voidaan käyttää objektiivisten mittareiden ohella kunnan sosiaali- ja terveyspolitiikan onnistumisen arviointiin sekä ohjaamaan palveluiden järjestämistä. Tutkimuksessa selvitettiin mahdollisuuksia tuottaa pienalue-estimointimenetelmillä tietoa Espoon eri alueiden 20–64 -vuotiaan väestön kokemasta terveydestä. Erityisesti työ keskittyi selvittämään; kuinka pienille Espoon alueille voidaan tuottaa luotettavaa tietoa käytettävissä olevasta otosaineistosta ja miten käytetty mallitaso sekä otoskoon kasvattaminen muiden pääkaupunkiseudun asukkaiden vastauksilla vaikuttaa estimointitulokseen? Tutkimusaineistona käytettiin vuoden 2008 aikana Helsingin sosiaalialan osaamiskeskuksen keräämän Pääkaupunkiseudun hyvinvointitutkimus -aineiston lisäksi Aluesarjat-tilastotietokannasta sekä Tilastokeskuksen Väestötilastopalvelusta saatavaa tietoa. Pienalue-estimointimenetelminä käytettiin malliavusteista GREG-estimointia sekä malliperusteista EBLUP-estimointia. Sekä Espoon että koko pääkaupunkiseudun otosaineistosta muodostettujen yksikkö- ja aluetason mallien parametrien ja Espoon eri alueiden 20–64 -vuotiaaseen väestöön liittyvän tiedon avulla tuotettiin alue-estimaatteja Espoon pien-, tilasto- ja suuralueille. Koetun terveyden aluekeskiarvon estimointi onnistui kaikilla aluetasoilla kyseisen aluetason malliin perustuvalla EBLUP-estimaattorilla. GREG-estimaattori onnistui vain suuraluetason estimoinnissa, muilla aluetasoilla alueiden pienet otoskoot huononsivat GREG-estimaatin tarkkuutta. Yksikkötason sekamallin huono selitysvoima ja mallista puuttuva selittäjä huononsivat siihen perustuvan EBLUP-estimaattorin tarkkuutta. Estimoinnin kannalta mallitasoa tärkeämmäksi osoittautui mallin hyvyyden toteutuminen. Voiman lainaaminen kohdejoukon ulkopuoliselta otokselta heikensi satunnaisvaikutuksen merkitsevyyttä ja alue-estimaattien välistä vaihtelua sekä lisäsi estimaattien tarkkuutta. Pienaluetiedon tuottaminen onnistuu EBLUP-estimaattoreilla jopa 85 pienalueelle noin 800 havainnon otosaineistosta, mikäli käytössä on luotettavaa lisäinformaatiota ja hyvä malli. GREG-estimaattori sallii huonomman mallin käytön, mutta edellyttää suurempia pienalueittaisia otoskokoja kuin EBLUP-estimaattorit. EBLUP-estimaattoreiden etuna on alueittaisen otoskoon lisäksi mahdollisuus perustaa estimointi sekä yksikkötasoiseen että aluetasoiseen malliin. Pienalue-estimointimenetelmät lisäävät otosaineistojen hyödyntämismahdollisuuksia. Onnistumisen takaa menetelmiin sisältyvien, aineistoon ja malliin kohdistuvien vaatimusten huomiointi tiedonkeruun suunnitteluvaiheessa mm. kysymysten asettelussa. Pienalue-estimointimenetelmien käyttö edellyttää tilastollista osaamista, kriittisyyttä saatuja tuloksia kohtaan ja vastuullisuutta tuloksia julkaistaessa. Laatuvaatimukset täyttävät pienalue-estimaatit soveltuvat hyvin päätöksenteon tueksi, kun halutaan vertailla alueita ja kohdentaa resursseja tarvelähtöisesti.
Eturauhaussyöpäkuolleisuuden selittäminen elinaika-analyysin avulla

Asikainen, Timo (2011)

Eturauhassyöpä on miesten yleisin syöpä länsimaissa. Suomessa se aiheuttaa vuosittain noin 800 kuolemaa ja uusia eturauhassyöpiä diagnosoidaan vuosittain yli 4 000 kappaletta. Eturauhassyövän tarkasteleminen tilastotieteen keinoin on lähtökohtaisesti kannattavaa, koska eturauhassyövän diagnosoinnista ja hoidosta kerätään laajoja ja kattavia tietoaineistoja. Aineistojen otoskoot ovat lisäksi sairauden yleisyydestä johtuen verrattain suuria, mikä edesauttaa tilastollisia analyyseja. Tässä tutkielmassa analysoidaan tilastollisesti suomalaisesta eturauhassyövän seulontatutkimuksesta peräisin olevaa aineistoa ($n$=1 608) elinaika-analyysin keinoin. Elinaika-analyysi on tilastotieteen osa-alue, jonka tehtävänä on antaa vastauksia kysymyksiin, jotka liittyvät tiettyjen kiinnostavien tapahtumien ilmenemiseen ja selittävien tekijöiden vaikutukseen tapahtumien ilmenemiseen. Elinaika-analyysin menetelmistä sovelletaan regressiomalleihin kuuluvaa Coxin suhteellisten riskitiheyksien mallia ja Kaplan-Meierin estimaattoreita. Sovelletut menetelmät ovat yleisesti sovellettuja eturauhassyövän tilastollisessa analyysissa. Analyysin tulokset osoittavat, että diagnoosihetkellä määritetyt muuttujat selittävät eturauhassyöpäkuolleisuutta tilastollisesti merkitsevällä tavalla. Merkittävä osa kuolleisuudesta jää kuitenkin selittämättä, minkä vuoksi saatujen tulosten sovellettavuus rajoittuu väestötason tarkasteluun; yksittäisiä potilaita koskevien hoitopäätösten teko vaatii diagnoosihetkellä määritettyjen muuttujien lisäksi muita tutkimuksia. Analyysiin sisältyvät diagnostiset tarkastelut eivät paljasta merkittäviä poikkeamia sovellettuihin tilastollisiin menetelmiin sisältyvistä oletuksista.
Haastattelijavaikutus EU-rikosuhritutkimuksessa ja kansallisessa uhritutkimuksessa

Pelanteri, Antti (2012)

Haastattelu on yksi yleisimmistä tiedonkeruun menetelmistä, ja sitä käytetään useilla yhteiskuntaa käsittelevillä aloilla. Siihen, kuten kaikkiin tiedonkeruumenetelmiin, liittyy virhelähteitä. Tämä tutkielma tarkastelee haastattelijoiden vaikutusta kerättyyn aineistoon. Tarkoituksena on selvittää, miten haastattelijat ja haastattelutilanne vaikuttavat vastauksiin, miten näitä vaikutuksia mitataan sekä mikä on niiden suuruusluokka ja merkitys survey-tutkimuksessa. Haastattelu on erittäin monimutkainen survey-toiminto, sillä se sisältää kognitiivista vuorovaikutusta haastattelijan ja vastaajan välillä. Haastattelijan toimenkuvaan kuuluu paljon muutakin kuin vain kysymyksen lukeminen ääneen vastaajalle: haastattelijan pitää lisäksi muun muassa selvittää, onko henkilö oikeutettu vastaamaan tutkimukseen, suostutella hänet osallistumaan ja kysyä häneltä tarvittaessa tarkentavia kysymyksiä. Haastattelijan tehtävien monimutkaisuus altistaa helposti virheille ja vaihtelulle eri haastattelijoiden välillä. Käyntihaastatteluin suoritettavissa survey-tutkimuksissa ei yleensä ole kustannustehokkuuden vuoksi mahdollista osittaa vastaajajoukkoa haastattelijoille täysin satunnaisesti. Puhelinhaastatteluissa vastaavaa ongelmaa ei periaatteessa ole, mutta tämän tutkielman aineistoissa vastaajat oli silti allokoitu haastattelijoille alueellisin perustein myös puhelinhaastatteluissa. Näistä seikoista johtuen analyysiasetelmaa ei voitu rakentaa yksinkertaisen varianssianalyysin pohjalta, sillä tällöin alueiden ja haastattelijoiden vaikutukset olisivat sekoittuneet toisiinsa. Näin ollen tutkielmassa tarvittiin monitasomallien soveltamista. Käytetyn mallin hierarkkisessa rakenteessa vastaajat ovat alimmalla tasolla ja haastattelijat ja alueet molemmat toisella asteella, mutta keskenään ristiinkytkeytyneinä. Tutkielman empiirisessä osiossa aineistona on kaksi Tilastokeskuksen keräämää uhritutkimusaineistoa: EU-rikosuhritutkimus ja kansallinen uhritutkimus. Rikoksista kerätään luonnollisesti tietoa suoraan viranomaisilta, mutta koska kaikki rikokset tai uhrikokemukset eivät tule viranomaisten tietoon, tarvitaan survey-tutkimusta. Herkän aihealueen vuoksi hypoteesina oli, että haastattelijavaikutusta esiintyy enemmän kuin sellaisissa tutkimuksissa, joissa aiheet ovat olleet neutraalimpia. Aineiston perusteella tutkielmassa vastataan erityisesti kysymyksiin, kuinka paljon haastattelijavarianssi selittää tulosmuuttujien kokonaisvarianssista, kuinka suuri on asetelmakerroin ja mitkä ovat alueellisten ja haastattelijavaikutusten suuruuksien suhteet. Lisäksi on mallinnettu haastattelijoiden vaikutusta vastauskatoon. Havaitut haastattelijavaikutukset poikkeavat suuresti toisistaan eri tulosmuuttujien välillä. Keskimäärin havaitut vaikutukset ovat kansainvälisissä verrokkitutkimuksissa havaittuja vaikutuksia pienempiä. Suomalaisia vertailukohteita varsinaisista analyysin kohteista ei ole. Haastattelijavaikutukset ovat paikoin suurempia kuin aluevaikutukset, erityisesti kaikkein herkimmiksi koetuissa kysymyksissä. Asetelmavaikutukset eivät pääsääntöisesti nouse suuriksi edes eniten sisäkorrelaatiota sisältävissä kysymyksissä, sillä haastattelijakohtaiset haastattelumäärät olivat maltillisia. Keskivirheet ovat sisäkorrelaatioiden suuruuteen nähden isoja, ja vain muutamat kysymykset sisältävät tilastollisesti merkitsevää sisäkorrelaatiota. Tulosten perusteella näyttää, että haastattelijat noudattavat sovittuja haastattelukäytäntöjä hyvin ja toimivat siten riittävän yhdenmukaisesti. Kertaluontoisissa survey-tutkimuksissa haastattelijavaikutustutkimukset ovat osa surveyn jälkeistä laadun arviointia. Toistettavassa tutkimuksessa tai saman tutkimuksen eri aalloissa haastatteluvaikutusten tutkimisen avulla voidaan seuraavalla kerralla tai seuraavassa aallossa parantaa surveyn laatua. Monissa survey-tutkimuksissa haastattelijavaikutusten tutkiminen olisi mahdollista rutiininomaisesti ilman monimutkaisia analyysiasetelmia ja tutkielmassa halutaan kannustaa tähän. Tärkeimpiä lähteitä tutkielmassa ovat L. Kishin tutkimus haastattelijavarianssista mielipidekysymyksissä, F. Fowlerin ja T. Mangionen standardoidusta haastattelumallista esittämät ajatukset, J. Hoxin teos monitasomalleista sekä S. Gablerin ja P. Lahirin artikkeli haastattelijavaikutuksista monimutkaisissa otanta-asetelmissa. Tutkielman aiheeseen johdatteli S. Laaksosen Helsingin yliopistossa pitämä survey-metodiikan kurssi.
Havaintovälin pituuden vaikutus kuolevuusennusteen tarkkuuteen

Lehtinen, Milla (2015)

Väestöennustelaskelmia tehdään, jotta voidaan varautua tulevaisuuden väestönkehitykseen, esimerkiksi huoltosuhteen muutokseen. Pro gradu -tutkielman tarkoitus oli kehittää kuolevuusennustetta, joka on osa väestöennustetta. Kuolevuutta mallinnettiin ja ennustettiin Suomen aineistoa käyttäen. Tutkimuskysymys oli havaintovälin pituuden vaikutus ennusteen tarkkuuteen. Kuolevuutta ennustettiin ekstrapoloimalla, eli yhteiskunnallisiin tai lääketieteellisiin muutoksiin ei otettu kantaa. Miesten ja naisten kuolevuus ennustettiin erikseen, koska niissä on suuria eroja. Tutkimus rajattiin koskemaan 60–99-vuotiaita. Tutkielmassa vertailtiin toteutunutta ja ennustettua kuolemanvaaralukua. Kuolemanvaaraluku tietyssä iässä kertoo todennäköisyyden kuolla ennen seuraavan iän saavuttamista ja sitä estimoidaan kuolevuuslukujen avulla. Kuolevuusluku lasketaan suhteuttamalla ikäryhmän kuolleet ikäryhmän keskiväkilukuun havaintovuonna. Puuttuvat ja epäuskottavat arvot korvattiin aineistosta interpoloidulla arvolla. Tutkielmassa käytettiin Human Mortality Database -tietokannan ja Tilastokeskuksen StatFin-tietokannan aineistoja. Tarkasteluperiodeiksi valittiin kaksi viiden peräkkäisen vuoden jaksoa vuosilta 1958–2012. Tarkasteluperiodien keskipisteiden etäisyydeksi eli havaintoväliksi valittiin 10–30 vuotta, kun Tilastokeskuksen nykyisin käyttämä havaintoväli on 20 vuotta. Ennustettiin 1–41 vuoden päähän eli havaintovälistä riippuen vuosia 1973–2013. Ennustevuodet valittiin menneeseen aikaan, jotta voitiin verrata toteutunutta ja ennustettua kuolevuutta. Tilastokeskuksen mallin mukaisesti ennuste laskettiin viimeisimmän havaitun kuolemanvaaraluvun ja alenemisvauhdin avulla. Kuolemanvaaraluvun alenemisvauhti riippuu kuolevuuden trendistä valitulla havaintovälillä. Jos kuolevuus laskee nopeasti tarkasteluperiodien välillä, myös ennuste on jyrkempi kuin tilanteessa, jossa ennustetaan perustuen pitkän aikavälin suhteellisen maltilliseen muutokseen. Saatuja ennusteita verrattiin toteutuneisiin lukuihin laskemalla suhteellisia keskineliövirheitä. Keskineliövirheistä otettiin ensin neliöjuuri ja tutkittiin graafisesti virheen suhdetta ennustevälin pituuteen eri havaintoväleillä. Sen jälkeen valittiin ennustevälit 1–20, joista oli kaikilla havaintoväleillä vähintään kaksi havaintoa, ja laskettiin niistä keskineliövirheiden summat havaintoväleittäin. Kuvien ja taulukoiden perusteella suositetut havaintovälit vastaavat Tilastokeskuksen nykyisin käyttämää väliä naisilla ikäryhmissä 65–84-vuotiaat sekä miehillä 80—89- ja 95–99-vuotiaat. Miehillä virheet ovat suurempia kuin naisilla ja mikään havaintoväli ei tuota tarkkoja ennusteita erityisesti nuoremmissa ikäryhmissä. Suoritettiin myös dekompositio eli hajotettiin keskineliövirhe varianssiin ja harhan neliöön. Havaittiin, että varianssin osuus keskineliövirheestä pienenee ennustevälin pidentyessä ja miehillä harhan osuus on keskimäärin suurempi kuin naisilla. Havaitaan, että paras mahdollinen havaintoväli vaihtelee jonkin verran ikäryhmittäin ja sukupuolittain. Kuolevuusennusteita laadittaessa tulisi siis ottaa huomioon optimaaliset ikäryhmittäiset havaintovälit. Toisaalta ennustemallin vaihtaminen saattaisi mahdollistaa parempia ennusteita kuin mitä pelkällä ikäryhmän ja sukupuolen huomioon ottavalla havaintovälin muutoksella saavutetaan.
Initial Wave Nonresponse and Panel Attrition in the Finnish Subsample of EU-SILC

Junes, Tara (2012)

In the analyses performed for the Finnish subsample of European Community Household Panel (ECHP) it was noticed that unit nonresponse bias at the beginning of the panel faded away within time in the case of certain income variables. This kind of a research result would have substantial effects on the estimation based on panel studies and on the research arrangements. In practice the strengthening of the research result would mean that the estimates of panel studies would become unbiased in time. In that case it would be more supporting to use long panels instead of short-terms. The objective of this Thesis is to investigate the fade-away hypothesis with a different dataset and to show that the existence of the fade-away effect is not so straightforward as the results received earlier from the ECHP study pointed out. In this Thesis the main attention is given to the successor of the Finnish ECHP namely the Finnish subsample of EU Statistics of Income and Living Conditions (EU-SILC). EU-SILC is a panel study with rotational sampling design with a rotation period of four years. In this Thesis one rotation group whose register incomes come from the years 2005--2008 is selected for the analyses. The main analysis variable of this Thesis is disposable household equivalised income which is the total disposable household income adjusted by the household composition. To analyse the effects of unit nonresponse the dataset is divided into three groups with a different response profile. The transitions of the members of groups between income quintiles are examined with the help of empirical distributions and furthermore, the transitions are modelled with Markov chains. In this Thesis it is noticed that in the initial wave of the panel there is only a small amount of unit nonresponse bias. Here the initial wave refers to the year 2005. Within time the income distribution of the respondents into the quintiles computed from the actual sample becomes more biased which is caused by the panel attrition. Furthermore, it is shown with the modelling based on the Markov chains, that the unit nonresponse bias will increase after the four years analyse period. So, the estimates that have been computed from the analysed panel become unbiased in time which questions strongly the presented fade-away hypothesis.
Itsevalikoituminen verkkokyselytutkimuksen haasteena

Miettinen, Jani (2012)

Internet-yhteyksien käyttö yleistyi Suomessa vuoden 1993 jälkeen, mistä lähtien Internetiä on alettu käyttämään yhä enemmän tiedonkeruun apuvälineenä. Apuvälineenä Internetiä käytetään sekä yhteydenotossa vastaajiin että vastauksien keruussa. Internetin avulla tehtyihin kyselytutkimuksiin liittyy edelleen paljon avoimia metodologisia kysymyksiä. Useimmiten perinteistä, satunnaistettua otoksen keruuta ei voida suorittaa, koska kehikkoperusjoukkoa ei pystytä määrittelemään. Tällöin joudutaan turvautumaan itsevalikoituneeseen verkkotiedonkeruuseen, jossa kyselyä mainostetaan avoimesti tutkimuksen kohteena olevalle ryhmälle ja vastaajat itse päättävät osallistuvatko kyselyyn vai eivät. Samalla Internet-populaation alipeitto voi aiheuttaa harhaa tutkimustuloksiin, jos tavoiteperusjoukkona on jokin suuri populaatio, jossa kaikki eivät käytä Internetiä. Tutkielman tavoite on antaa kuva verkkotiedonkeruun ajanmukaisista menetelmistä sekä erityisesti selvittää itsevalikoituneen verkkotiedonkeruun tilastollista metodologiaa, mahdollisuuksia ja rajoituksia. Tarkoituksena on myös selvittää, kuinka hyvin valikoituneen verkkokyselytutkimuksen harhan korjaaminen onnistuu ajanmukaisilla painotusmenetelmillä. Kyselytutkimusten vastauskadosta sekä valikoituneisuudesta johtuvaa harhaa voidaan korjata painotusmenetelmillä, jos vastauskadon mekanismia tai valikoitumismekanismia pystytään selittämään. Harhaa voidaan korjata sopivien apumuuttujien avulla, jotka korreloivat tulosmuuttujan tai osallistumispäätöksen kanssa. Apumuuttujien tiedot täytyy olla tiedossa sekä kyselyyn osallistujilta että ei-osallistujilta. Perinteisen todennäköisyysotantaan perustuvan aineiston vastauskadosta johtuvaa harhaa korjataan useimmiten jälkiosituspainoilla. Itsevalikoituneen verkkokyselytutkimuksen valikoitumisharhan korjaamiseen on esitetty kaksivaiheista painotusmenetelmää, jonka tarkoituksena on korjata harhaa, joka johtuu Internetin käyttömahdollisuudesta sekä itse osallistumispäätöksestä. Internetin käyttömahdollisuus voidaan mallintaa propensiteettipistemäärän avulla, jonka käänteislukua voidaan käyttää painokertoimena harhan korjaamiseksi. Osallistumispäätöksestä johtuvaa harhaa voidaan korjata tasaamalla aineiston apumuuttujien reunajakaumat vastaamaan populaation reunajakaumia. Tutkimuksessa tarkastellaan kolmea aineistoa. Kelan tutkimusosasto keräsi vuoden 2010 syyskuussa pilotin itsevalikoituneesta verkkokyselytutkimuksesta. Kyselyllä pyrittiin kartoittamaan Suomen 16–80-vuotiaiden kansalaisten yksityisten terveys- ja hammashoitopalvelujen hintatietoja ja tarpeita. Sama kysely lähetettiin myös otosperusteisesti Kelan työntekijöille. Molemmissa kyselyissä vastaukset kerättiin sähköisellä Internet-kyselyllä. Lisäksi tutkielmassa tarkastellaan TNS Gallupin otosperusteisesti Suomen kansalaisilta keräämään suppeampaa puhelinhaastattelukyselyä, jota käytettiin myös itsevalikoituneen aineiston kalibrointiaineistona. Kyselytutkimusaineistojen vastauskatoa korjattiin erilaisilla painotusmenetelmillä, joiden avulla pystyttiin tarkastelemaan kuinka hyvin eri painotusmenetelmät pystyvät korjaamaan valikoitumisesta johtuvaa harhaa. Otosperusteisia verkkokyselytutkimuksia korjattiin jälkiosituspainoilla ja painotuksissa onnistuttiin hyvin, koska aineistossa ei ollut suurta valikoituneisuutta. Itsevalikoituneen verkkokyselytutkimuksen painotuksessa jouduttiin kohtaamaan paljon ongelmia, koska aineisto oli suuresti valikoitunut, ja siinä oli paljon vastauskatoa. Itsevalikoituneen aineiston valikoitumisen harhaa onnistuttiin kuitenkin osaksi korjaamaan, ja osa tulosmuuttujien jakaumatiedoista vastasi lähes otosperusteisen kyselytutkimuksen jakaumatietoja. Tutkimuksen keskeisin tulos oli, että vaikka verkkokyselyn tekeminen on halvempaa ja vähemmän työläämpää kuin otosperusteisen kyselytutkimuksen tekeminen, verkkokyselytutkimuksen suunnitteluun on panostettava entistä enemmän. Itsevalikoituneen verkkokyselytutkimuksen keruussa on suunniteltava tarkemmin kyselyn mainostaminen vastaajaehdokkaille, jotta valikoitumisesta johtuvaa harhaa voidaan paremmin hallita. Tutkimuksessa kävi myös ilmi, että sekä asennetta ja käyttäytymistä kuvaavia kysymyksiä on tärkeä olla kyselytutkimuksissa mukana, koska näiden avulla pystytään selittämään paremmin valikoitumisesta johtuvaa harhaa, kuin pelkästään sosiodemografisten muuttujien avulla.
Jalkapallon tilastollinen analyysi käänteisen prosessin avulla

Vihtola, Ismo (2017)

Tutkimuksessa haluttiin selvittää, millä pelin osa-alueilla Suomen miesten jalkapallomaajoukkueen edesottamukset poikkesivat vastustajiinsa nähden karsittaessa vuoden 2016 Euroopan mestaruus lopputurnaukseen. Tutkimuksen tarkoituksena oli luoda menetelmä, jossa tilastolliseen analyysiin perustuen voidaan osoittaa pelin yksittäiset osa-alueet, joissa joukkue suoriutuu vastustajaansa paremmin tai huonommin. Menetelmän tuottaman informaation avulla voidaan toimenpiteet kohdistaa osa-alueisiin, joilla on eniten vaikutusta ottelun lopputuloksen kannalta. Tutkimuksessa selvisi että Suomen maajoukkueella ei ollut vastustajiinsa nähden selkeää etua millään pelin osa-alueella, joita tutkimuksessa mitattiin. Sen sijaan Suomen maajoukkue oli vastustajaansa selkeästi huonompi sekä erikoistilanteissa että maalintekoyrityksissä, joissa maalintekoa yritettiin puskemalla päällä. Tutkimuksen lopputuloksena luotiin myös menetelmä, jossa pelin eri osa-alueiden vaikutus lopputulokseen nähden on kvantitatiivisesti mitattavissa. Tälläistä menetelmää ei löytynyt tutkimusta valmisteltaessa, joten se luotiin osana tutkimusta. Menetelmän kantava ajatus on pelin kuvaaminen käänteisen prosessin mallina, jossa jalkapallopeli pilkotaan pienempiin kokonaisuuksiin, joiden mittaaminen on mielekästä ja mahdollista kvantitatiivisten menetelmien avulla.
Järvien tilan arvioinnin tehostaminen lineaarisilla sekamalleilla

Buchwald, Jadwiga (2015)

Lineaariset sekamallit mahdollistavat jatkuvaluonteisen vastemuuttujan mallintamisen yksilötason kiinteillä tekijöillä ja ryhmäkohtaisilla satunnaisilla tekijöillä. Mallin kiinteät tekijät selittävät vastemuuttujan systemaattista vaihtelua, kun taas mallin satunnaiset tekijät selittävät vastemuuttujan satunnaisvaihtelua. Mallin satunnaisosan avulla voidaan arvioida ryhmien sisäisen ja välisen vaihtelun luonnetta. Tällainen aineistossa vallitsevien kovarianssirakenteiden huomioiminen mahdollistaa löydetyn mallin yleistämisen myös sellaisiin ryhmiin, joiden havaintoja eli mittaustuloksia ei käytetty mallia muodostettaessa, mutta joiden ajatellaan kuuluvan samaan perusjoukkoon. Tässä pro gradu -tutkielmassa esitetään lineaaristen sekamallien teoriaa ja näytetään, miten lineaarisia sekamalleja voidaan soveltaa järvien kasviplanktonin tilan arvioinnissa. Päätavoitteena oli selvittää, miten järvien kasviplanktonin tilan arviointia ja seurantaa voitaisiin tehostaa lineaarisilla sekamalleilla. Runsasjärviselle Suomelle kattava järvivesien tilan seuranta on haasteellista, ja valitettavasti tärkeiden biologisten muuttujien seuranta on monin paikoin puutteellista. Järvien tilan arvioinnissa käytetään luokittelua, joka tehdään kuuden vuoden välein. Tutkimuksessa keskityttiin tarkastelemaan yhtä luokittelussa käytettyä biologista laatutekijää kasviplanktonia ja sen kolmea luokittelumuuttujaa, joista on olemassa niukemmin mittauksia. Kullekin muuttujalle muodostettiin lineaariset sekamallit olemassa olevan aineiston pohjalta. Selittäjinä malleissa oli aineistossa kattavammin edustettuja muuttujia. Tarkoituksena oli selvittää, voidaanko näiden kolmen tärkeän muuttujan arvoja estimoida luotettavasti lineaarisilla sekamalleilla kun suorat mittaukset puuttuvat. Tällöin järvikohtaiset arviot kasviplanktonmuuttujien tilasta perustuisivat kattavampaan aineistoon, ja entistä useammalle järvelle saataisiin laskettua kyseiset arviot luokittelua varten. Lisäksi tavoitteena oli selvittää, mitkä muuttujat selittävät muuttujien systemaattista vaihtelua, ja mitkä tekijät vaikuttavat muuttujien satunnaisvaihteluun ja miten. Tutkimusta varten muodostettiin vuodet 2006—2012 kattava havaintopaikka- ja päivämääräkohtainen paneeliaineisto Suomen järvien kasviplankton- ja fysikaalis-kemiallisten muuttujien havaintoarvoista. Jotta mahdollisimman moni puuttuva arvo saatiin täydennettyä estimaatilla, käytettiin kaksivaiheista mallinnusta. Puuttuvat arvot täydennettiin ensin parhaan mallin antamilla estimaateilla, jonka jälkeen mallista rajattiin sellainen selittäjä pois, josta oli vähiten havaintoarvoja, ja loppuja puuttuvia arvoja täydennettiin rajatun mallin estimaateilla. Kaikille kolmelle vastemuuttujalle löydettiin luotettavat lineaariset sekamallit ja muuttujista olevien arvojen määrä saatiin nelinkertaistettua. Edustettujen vesimuodostumien määrää saatiin kasvatettua viidenneksellä. Satunnaisosan perusteella muuttujien satunnaisvaihtelua selittää enimmäkseen vuosi, mutta yhden muuttujan kohdalla myös kuukaudella näyttäisi olevan vaikutusta. Koska muuttujien havaintoarvot saadaan samoista näytteistä, tutkimus alleviivaa sekä vuosi- että kuukausiedustuksen tärkeyttä näytteenotossa. Ennen kaikkea tässä tutkielmassa osoitetaan, että lineaarisilla sekamalleilla voidaan saavuttaa kattavampaa järvien tilan arviointia tuottamalla täydentäviä estimaatteja luokittelussa käytetyistä tärkeistä muuttujista niille järville, joista mittaukset puuttuvat tai ovat vähäiset.
Kalibrointiin ja vastaustaipumusmalliin perustuvat menetelmät surveyaineiston painotuksessa

Hämäläinen, Auli (2019)

Surveytutkimuksessa saadaan harvoin kerättyä täydellisen edustavaa aineistoa tavoitellulta vastaajajoukolta. Lähes aina osa vastauksista tai vastaajista jää puuttumaan. Puuttuneisuudella voi olla suuri merkitys aineiston tilastollisen analyysin kannalta. Se vähentää aineistosta laskettavien estimaattien tarkkuutta ja voi pahimmillaan myös aiheuttaa harhaa estimaatteihin. Otantatutkimuksessa virhettä tulee lisäksi itse otannasta. Puuttuneisuudesta ja otannasta johtuvia virheitä surveyaineistossa pyritään usein korjaamaan aineiston uudelleenpainotuksella. Tässä työssä on tutkittu kalibrointiin ja vastaustaipumuksen mallintamiseen perustuvien uudelleenpainotusmenetelmien vaikutusta estimoinnin laatuun, kun otosaineistosta halutaan estimoida erilaisten tutkimusmuuttujien keskiarvoja perusjoukossa. Näiden kahden eri lähestymistavan vertailun lisäksi on haluttu tutkia, voisiko vastaustaipumusmallilla tuotettuja painoja parantaa kalibroimalla (eli muodostamalla ns. yhdistelmäpainot). Käytetty tutkimusaineisto on peräisin Suomessa vuosien 2009 ja 2010 taitteessa toteutetusta EU-rikosuhritutkimuksen pilottivaiheesta. Aineisto sisältää erilaisten rikosten kohteeksi joutumiseen ja turvallisuuden tunteeseen liittyviä muuttujia. Rikosuhritutkimuksessa kerätty otosaineisto on tätä tutkimusta varten monistettu koko populaatiota edustavaksi synteettiseksi dataksi. Synteettisestä perusjoukosta on poimittu satunnaisotoksia jäljitellen aitoa otantatutkimuksen tilannetta. Eri tavoin painotetuista otoksista laskettuja estimaatteja on verrattu toisiinsa sekä tunnuslukujen oikeisiin arvoihin perusjoukossa. Painojen muodostuksessa ja tunnuslukujen estimoinnissa on käytetty SAS-ohjelmistoa. Kalibrointipainot on laskettu käyttämällä Calmar 2-nimistä SAS-makroa, jonka voi ladata ilmaiseksi Ranskan kansallisen tilasto- ja taloustutkimuslaitoksen INSEEn internetsivuilta. Estimoinnin tulosten perusteella voidaan todeta, että uudelleenpainotuksella pystyttiin parantamaan estimoinnin laatua lähes kaikkien tarkasteltujen muuttujien kohdalla. Kaikki painotusmenetelmät eivät kuitenkaan toimineet kaikissa tilanteissa yhtä hyvin. Estimoitaviksi oli tarkoituksella valittu eri tyyppisiä muuttujia. Toiset muuttujista olivat helpompia estimoitavia, eli painotuksella päästiin lähelle estimoitavan muuttujan oikeita arvoja. Osa muuttujista oli kuitenkin sellaisia, joiden kohdalla mikään uudelleenpainotus ei tuonut kovin hyviä estimointituloksia, vaan estimaatteihin jäi reilusti harhaa. Estimointituloksissa näkyi selviä eroja vertailtavien menetelmien välillä. Useimpien muuttujien kohdalla parhaat estimointitulokset saatiin yhdistelmäpainoilla. Yhdistelmäpainojen etu on se, että niissä yhdistyy yksilö- ja makrotason lisäinformaation hyödyntäminen estimoinnin harhan korjaamisessa. Myös puhtailla kalibrointipainoilla saatiin joidenkin muuttujien tapauksessa muita parempia tuloksia, mutta kyse oli sellaisista muuttujista, joiden kohdalla parhaatkaan estimaatit eivät olleet kovin harhattomia. Vastaustaipumusmallinnukseen perustuva menetelmä toimi yleisesti ottaen hyvin, mutta yhdistelmäpainot olivat yleensä vähän paremmat, eli kalibroinnista oli apua. Kalibroinnin kanssa on kuitenkin noudatettava varovaisuutta, koska sillä voidaan pahimmillaan myös huonontaa estimaattien laatua, kuten yhdessä esimerkkitapauksessa näkyi. Lähes kaikkien muuttujien kohdalla estimaatteihin jäi uudelleenpainotuksenkin jälkeen vielä harhaa, joten menetelmien suhteen jäi vielä parannettavaa. Kehitettävää voi löytyä vastaustaipumuksen mallinnuksessa itse mallista. Kalibroinnin tapauksessa on huomattava, että vaikka menetelmällä saadaan reunajakaumat täsmäämään, se ei kuitenkaan takaa, että itse tutkimusmuuttujat estimoituisivat hyvin. Uudelleenpainotuksessa on myös oletettu, että puuttuvuus voidaan selittää käytettävissä olevilla taustamuuttujilla, ja ettei se riipu tutkittavista muuttujista. Näin ei kuitenkaan välttämättä aina ole.
Kalman Filter Algorithm for Rating and Prediction in Basketball

Poropudas, Jirka (2011)

The Thesis presents a state-space model for a basketball league and a Kalman filter algorithm for the estimation of the state of the league. In the state-space model, each of the basketball teams is associated with a rating that represents its strength compared to the other teams. The ratings are assumed to evolve in time following a stochastic process with independent Gaussian increments. The estimation of the team ratings is based on the observed game scores that are assumed to depend linearly on the true strengths of the teams and independent Gaussian noise. The team ratings are estimated using a recursive Kalman filter algorithm that produces least squares optimal estimates for the team strengths and predictions for the scores of the future games. Additionally, if the Gaussianity assumption holds, the predictions given by the Kalman filter maximize the likelihood of the observed scores. The team ratings allow probabilistic inference about the ranking of the teams and their relative strengths as well as about the teams’ winning probabilities in future games. The predictions about the winners of the games are correct 65-70% of the time. The team ratings explain 16% of the random variation observed in the game scores. Furthermore, the winning probabilities given by the model are concurrent with the observed scores. The state-space model includes four independent parameters that involve the variances of noise terms and the home court advantage observed in the scores. The Thesis presents the estimation of these parameters using the maximum likelihood method as well as using other techniques. The Thesis also gives various example analyses related to the American professional basketball league, i.e., National Basketball Association (NBA), and regular seasons played in year 2005 through 2010. Additionally, the season 2009-2010 is discussed in full detail, including the playoffs.
Katkaistu ja sensuroitu aineisto elinaika-analyysissa : Infektion etenemisen tarkastelua aids- ja HPV-aineistoilla

Tiihonen, Petri (2013)

Opinnäytetyön tavoitteena on tutkia aineiston katkaisun ja sensuroinnin vaikutusta elinaika-analyysissa. Asiaa käsitellään mallintamalla infektion luonnollista kulkua. Analyysit tehdään simuloitujen aineistojen avulla, jotka jäljittelevät HIV-infektion kehittymistä aidsiksi ja HPV- eli papilloomavirusinfektion paranemista. Simuloitujen aineistojen käsittelyn lisäksi määritetään aidsin puhkeamisajan sekä HPV-infektion paranemisajan jakaumat aidoista aineistoista. Tutkielman aihe pohjautuu Terveyden ja hyvinvoinnin laitoksen (ent. Kansanterveyslaitos) vuonna 2008 asettaman työryhmän tutkimukseen, jossa selvitettiin HPV-rokotteen mahdollista käyttöönottoa kansallisessa rokotusohjelmassa. HPV aiheuttaa muun muassa kohdunkaulan muutoksia ja sitä kautta kohdunkaulan syöpää. Aikaisemmin infektion paranemisesta on tehty analyysejä aggregoidun aineiston perusteella ja nyt sen tuloksia verrataan yksilötason aineistosta estimoituihin tuloksiin. Infektion etenemistä kuvaavan jakauman estimointia varten muodostetaan uskottavuusfunktiot sekä katkaistun että sensuroidun aineiston tilanteessa. Uskottavuusfunktiota simuloidaan Metropolisin ja Hastingsin algoritmilla, jolloin saadaan jakaumat estimoitaville parametreille. Katkaistut ja sensuroidut aineistot ovat tyypiltään erilaisia. Katkaistuun aineistoon valikoituu vain tutkimuksen keston mukaisia tapauksia ja ääritapaukset jäävät usein kokonaan pois. Aineiston mahdollinen harha pystytään eliminoimaan oikeanlaisella uskottavuusfunktion määrittelyllä. Käytettävissä olevaa informaatiota on sensuroidun aineiston tilanteessa enemmän kuin katkaistussa aineistossa, mutta oikeanlaiset menetelmät ovat silloinkin avainasemassa. Simuloidun katkaistun aineiston tapauksessa estimoitiin sekä taudin puhkeamisajan jakauman parametrit että infektoitumisen intensiteetti. Lukumäärältään pieni tai seuranta-ajaltaan lyhyt aineisto hankaloittaa etenkin infektoitumisen intensiteetin ja jakauman skaalaparametrin estimointia. Mallin identifioituvuutta voidaan parantaa käyttämällä priorijakaumaa infektoitumisen intensiteetille. Aids-aineiston avulla estimoitu yli 60-vuotiaiden taudin puhkeamisajan jakauma ei identifioidu ilman lisäoletuksia. Parametrien estimoiminen vaatii tarkan prioritiedon infektoitumisen intensiteetistä. Simuloiduilla sensuroiduilla aineistoilla estimoitiin infektion paranemisajan jakauman parametrit. Jakauman oikeaa muotoa ei saada estimoitua, jos sensuroinnin testausvälit ovat liian pitkät. HPV-infektion kaltaisessa tilanteessa testausvälin tulee olla korkeintaan kuusi kuukautta. Maltillinen osallistumiskato testeissä ei hankaloita estimointia, vaikka testausvälit siten paikoitellen pitenevät. Käytetyn roketetutkimusaineiston avulla estimoitiin HPV-infektion paranemisajan jakaumat nopeasti ja keskinopeasti paraneville virustyypeille. Tulokset vastaavat aikaisemman tutkimuksen tuloksia, jossa infektion paranemista estimoitiin aggregoidusta aineistosta. Hitaasti paranevan virustyypin osalta paranemisajan jakauman parametrien estimaatit jäävät epävarmoiksi.
Kertymä-logit-regressioanalyysi lapsen tapaamisoikeuden täytäntöönpanopäätöksistä

Sanz, Aune (2019)

Vanhempien eroaminen koskettaa vuosittain noin 30 000 lasta, joiden oikeutta luoda ja säilyttää myönteinen ja läheinen suhde etävanhempaansa turvataan tapaamisoikeuden avulla. Tästä sopimuksesta tai tuomioistuimen päätöksestä huolimatta tapaamiset eivät aina toteudu, jolloin tapaamisoikeuden täytäntöönpanon kautta voidaan velvoittaa lapsen kanssa asuvaa vanhempaa sallimaan lapsen ja toisen vanhemman väliset tapaamiset tai yhteydenpito niiden mukaisesti. Tapaamisoikeuden täytäntöönpanoasiat muodostavat alle prosentin kaikista lapsen huoltoa ja tapaamisoikeutta koskevista riidoista ja yleensä täytäntöönpanoasiat päättyvät sovintoon. Harvalukuisuudestaan huolimatta riitaisilla asioilla, joissa tuomioistuin hylkää tai hyväksyy täytäntöönpanohakemuksen, on kuitenkin merkittävä vaikutus niin lapsiin, vanhempiin, perheisiin kuin yhteiskuntaankin käsittelyn ja ratkaisun kautta. Vaikka kyseessä on riita-asia, vain noin puolessa tapauksista hävinnyt osapuoli korvaa voittaneen oikeudenkäyntikulut. Tässä tutkielmassa pyritään kertymä-logit-mallin avulla tarkastelemaan, miten sellaiset seikat kuten täytäntöönpanoasian taustat, sovittelu, syytökset, lapsen tahto ja hakijan sukupuoli vaikuttavat käräjäoikeuden tulkintaan riidasta ja erilaisten lopputulosten todennäköisyyteen, kun huomioon otetaan täytäntöönpanon lisäksi oikeudenkäyntikulujen korvaaminen. Mallin oletusta verrannollisista vetokertoimista testataan kullekin selittäjälle erikseen. Aineistona käytetään Suomen käräjäoikeuksien tapaamisoikeuden täytäntöönpanopäätöksiä vuosilta 2000- 2018, joista osa on kerätty tutkielman yhteydessä. Lisäksi tutkielmassa avataan täytäntöönpanoasioiden käsittelyä, sekä siihen liittyviä käsitteitä ja ilmiöitä, kuten lapsen etua, vieraannuttamista ja sukupuolittuneita käsityksiä muun muassa lähi- ja etävanhemmuudesta. Valitun mallin perusteella hakijan sukupuoli ei vaikuta siihen, miten perustelluksi hakemus on nähty ja miten räikeäksi tapaamisoikeuden rikkomus tulkittu. Sen sijaan vanhemman toteen näytetyt syytökset vieraannuttamisesta, lapseen kohdistuneesta tuomitusta teosta, päihde- tai mielenterveysongelmasta, kasvatuskyvystä tai rikoksesta nostavat tälle vanhemmalle edullisemman lopputuloksen todennäköisyyttä. Tapaamisia vastustavien lasten ikä nostaa vastaajalle voitokkaamman lopputuloksen todennäköisyyttä. Vaikuttaisi kuitenkin siltä, että lapsen vastustus johtaa pikemminkin hakemuksen hylkäämiseen, kuin vastaajan oikeudenkäyntikulujen korvaamiseen. Kun vastaaja kiistää tapaamisoikeuden rikkomisen, erityisesti todennäköisyys, että hävinnyt hakija lisäksi korvaa hänen oikeudenkäyntikulunsa, kasvaa. Muita lopputulokseen vaikuttavia tekijöitä ovat sovittelijan tulkinta vastaajan myötävaikuttamisesta tapaamisiin, hakijan ulkomaalaisuus ja oikeudenkäyntiavustaja, vastaajan hakeman perustepäätöstä koskevan asian vireilläolo, vanhan uhkasakon maksettavaksi hakeminen sekä vastaajan tekemät syytökset kasvatuskyvystä tai rikoksista, jotka eivät kohdistu lapseen. Mallin selittäjien vaikutukset ovat uskottavia ja ymmärrettävissä, ja malli sopii aineistoon. Mallin ennustuskyky ei kuitenkaan ylitä hyvin ennustavan mallin rajaa, eikä verrannollisten vetokertoimien oletus pätenyt kaikkien malliin valikoituneitten selittäjien osalta. Toisenlaisen mallin, oletusta tukevien interaktiomuuttujien tai eri linkkifunktion kokeilemista voisi harkita. Tämän lisäksi voisi perehtyä enemmän siihen, mitkä taustat ja aikaisemmat lopputulokset ovat ominaisia uusiutuville riidoille.
Lapsen huoltoa ja tapaamisoikeutta koskevan täytäntöönpanon tilastollinen analyysi

Huotelin, Vesa (2017)

Tutkielmassa syvennytään lapsen huoltoa ja tapaamisoikeutta koskevaan täytäntöönpanoon kvantitatiivisin menetelmin. Analyysiä varten on kerätty 632 tapauksen aineisto kahdeksasta eri käräjäoikeudesta vuosilta 2000–2015. Tutkielma voidaan jakaa kahteen osaan: aineiston ja tilannekuvan esittelyyn sekä logistiseen regressiomalliin, joka ennustaa hakijan voittotodennäköisyyttä tapaamisoikeuden täytäntöönpanoasiassa. Tapaamisoikeuden täytäntöönpanossa hakijoiden sukupuolijakauma vastaa etävanhempien sukupuolijakaumaa väestössä. Hakija syyttää vastaajaa yleensä manipuloinnista tai vieraannuttamisesta, vastaajan syytökset liittyvät päihteisiin, väkivaltaan ja seksuaaliseen hyväksikäyttöön. Oikeus ei ota kantaa syytöksiin, ellei asian ratkaiseminen sitä edellytä. Suurin osa tapauksista päättyy sovintoon. Yli puolet riitaisista tapauksista päättyy uhkasakon asettamiseen, noutoa käytetään hyvin harvoin. Oikeudenkäyntikulut jaetaan usein tasan osapuolten kesken, vaikka asiassa olisi selvä voittaja. Joka neljäs tapaamisoikeutta koskeva täytäntöönpanoasia uusiutuu, ja lopputulos voi seuraavissa käsittelyissä muuttua kokonaan. Huoltoa koskeva aineisto on pieni, ja sitä käsitellään tutkielmassa vain lyhyesti. Isät hakevat huollon täytäntöönpanoa suhteellisesti useammin kuin äidit. Hakija syyttää vastaajaa kaappauksesta ja vieraannuttamisesta, vastaajan syytökset liittyvät useimmiten päihteisiin ja väkivallan uhkaan. Kaksi kolmesta tapauksesta päättyy lasten palauttamiseen sovinnollisesti tai täytäntöönpanon kautta. Noutoa käytetään täytäntöönpanon tehosteena usein. Logistinen regressiomalli rakennetaan pienin poikkeuksin taaksepäin askeltavalla muuttujavalinnalla. Parametrien estimoinnissa käytetään Firthin muokattua uskottavuusfunktiota, jolla kontrolloidaan pienen havaintomäärän aiheuttamaa harhaa approksimatiivisesti. Muuttujia karsitaan uskottavuusosamäärätestin sekä Akaiken informaatiokriteerin perusteella. Malli ennustaa kolme neljästä aineiston lopputuloksesta oikein. Sen erottelukykyä arvioidaan ROC-käyrällä ja yhteensopivuutta aineiston kanssa Hosmer-Lemeshow-testillä. Niiden perusteella mallia voidaan pitää käyttökelpoisena. Logistisen regressioanalyysin tulokset ovat: Toteen näytetty vastaajan syytös sekä varttuneen lapsen haluttomuus tavata hakijaa laskevat hakijan voittotodennäköisyyttä merkittävästi. Voittotodennäköisyyttä heikentävät myös vastaajan myönteinen suhtautuminen tapaamisiin sekä se, että hakija on äiti. Äidin menestymistä tutkitaan myös kahdella muulla logistisella regressiomallilla: Äidin hakema täytäntöönpanoasia päättyy sovintoon todennäköisemmin kuin isän, mutta sovinnot päättyvät hakijan kannalta yhtä hyvin tai huonosti riippumatta tämän sukupuolesta.
Lasten huolto- ja asumisriidat Helsingin hovioikeudessa 2003–2006

Palo-Repo, Mari (2015)

Suomessa ei tiettävästi ole tehty tilastollista analyysia lasten huolto- ja asumisriidoista. Tutkielmaa varten on kerätty aineisto Helsingin hovioikeuden päätöksistä lasten huoltoon ja asumiseen liittyen vuosilta 2003–2006. Aineistoa tarkastellaan binomitestillä, suhteellisten osuuksien testillä ja logistisella regressiomallilla. Äiti voittaa eli saa vaatimuksensa mukaisen päätöksen lasten huolto- ja asumisriidoissa useammin kuin isä. Vanhempien vaatimukset ovat erilaisia: Isä vaatii useammin yhteis- kuin yksinhuoltoa. Äiti vaatii yhtä usein yksin- kuin yhteishuoltoa. Siten yhtäläinenkään todennäköisyys voittaa lasten huolto- ja asumisriita ei merkitse vanhempien yhdenvertaista asemaa. Lapsen sukupuolella ja iällä on vaikutusta riitoihin ja päätöksiin. Yhtä lasta koskevan riidan kohteena on useammin poika kuin tyttö. Kun riitaa on yhdestä lapsesta ja lapsi on seitsemän vuotta tai vanhempi, äiti ja isä saavat vaatimuksensa mukaisen päätöksen yhtä usein. Tällöin isä vaatii äidin lailla yhtä usein yksin- kuin yhteishuoltoa. Huolto- ja asumisriidan koskiessa yhtä kouluikäistä lasta, äiti ja isä ovat tässä mielessä yhdenvertaisessa asemassa. Tällaisia riitoja on neljäsosa lasten huolto- ja asumisriidoista. Väkivaltaisuus-, alkoholi-, huume- tai mielenterveysongelmasyytös on tehty ainakin toisesta vanhemmasta tai hänen uudesta kumppanistaan melkein joka toisessa riidassa. Oikeus on katsonut syytöksistä puolet toteennäytetyksi. Toteennäyttämättä jääneitä syytöksiä esitetään enemmän isästä tai isän uudesta kumppanista kuin äidistä tai äidin uudesta kumppanista. Mallinnuksessa selitetään äidin voittoa lasten asumisriidassa. Isästä tai isän uudesta kumppanista tehty ja oikeuden toteennäytetyksi katsoma syytös väkivaltaisuus-, alkoholi-, huume- tai mielenterveysongelmasta tuo aineistossa äidille aina voiton. Kun asumisriidassa sosiaaliviranomaisten suositus on äidin puolella, niin aineistossa äiti voittaa aina. Asumisriitamallissa äidin voittoa selittävät muuttujat ovat lasten tai lapsen edellinen asuinpaikka käräjäoikeuden päätöksen mukaan ja vanhimman tai ainoan lapsen ikä. Ensimmäisen muuttujan voi ajatella olevan osa lapsen vakiintuneita olosuhteita, jotka muodostavat keskeisen ratkaisuperiaatteen lasten asumisriidassa. Mitä vanhempi vanhin tai ainoa lapsi on, sitä suurempi on isän voittokerroin asumisriidassa. Koska käräjäoikeus on jo pohtinut riitaan liittyviä asioita päätöstä tehdessään, käräjäoikeuden päätös pitää sisällään paljon tietoa. Muuttuja voi viedä voimaa muilta mahdollisilta selittäviltä muuttujilta. Jos käräjäoikeuden päätös sekä äidin ja isän muutoksenhaku käräjäoikeuden päätökseen jätetään pois mallinnuksesta, tällöin asumisriitamallissa äidin voittoa selittävät muuttujat ovat nuorimman tai ainoan lapsen ikä ja sosiaaliviranomaisten suositus isästä. Sosiaaliviranomaisten suositus vaikuttaa hovioikeuden päätökseen asumisriidasta, suositus isästä tosin kätkeytyy mallinnuksessa käräjäoikeuden päätökseen. Lasten iällä on merkitystä asumisriidan lopputulokseen: lasten iän nousu nostaa isän voittokerrointa. On mahdollista, että havaintomäärän vähäisyyden takia jää tärkeitä selittäviä muuttujia logistisen regressiomallin ulkopuolelle. Jatkotutkimusta ajatellen olisi mielenkiintoista laajentaa aineistoa päätösten aikajaksoa pidentämällä sekä muiden hovioikeuksien päätöksien mukaan ottamisella. Nykyistä aineistoa olisi mahdollista tutkia lisää käyttämällä Firthin muokattua uskottavuusfunktiota regressiokertoimien estimoinnissa.
Learning pairwise Markov Network structures with logistic regression

Kuronen, Juri (2017)

This Master’s thesis introduces a new score-based method for learning the structure of a pairwise Markov network without imposing the assumption of chordality on the underlying graph structure by approximating the joint probability distribution using the popular pseudo-likelihood framework. Together with the local Markov property associated with the Markov network, the joint probability distribution is decomposed into node-wise conditional distributions involving only a tiny subset of variables each, getting rid of the problematic intractable normalizing constant. These conditional distributions can be naturally modeled using logistic regression, giving rise to pseudo-likelihood maximization with logistic regression (plmLR) which is designed to be especially well-suited for capturing pairwise interactions by restricting the explanatory variables to main effects (no interaction terms). To deal with overfitting, plmLR is regularized using an extended variant of the Bayesian information criterion. To select the best model out of the vast discrete model space of network structures, a dynamic greedy hill-climbing search algorithm can be readily implemented with the pseudo-likelihood framework where each Markov blanket is learned separately so that the full graph can be composed from the solutions to these subproblems. This work also presents a novel improvement to the algorithm by drastically reducing the search space associated with each node-wise hill-climbing run by first running a set of pairwise queries to isolate only the promising candidates. In experiments on data sets sampled from synthetic pairwise Markov networks, plmLR performs favorably against competing methods with respect to the Hamming distance between the learned and true network structure. Additionally, unlike most logistic regression based methods, plmLR is not limited to binary variables and performs well on learning benchmark network structures based on real-world non-binary models even though plmLR is not designed for their structural form.

Now showing items 1-20 of 53

Browsing by discipline "Statistics"

Yhteystiedot

HELSINGIN YLIOPISTO