Browsing by discipline "Tilastotiede"

Now showing items 21-40 of 103

Exact logistinen regressiomalli kuluttajatyytymättömyyden sekä teleoperaattorin vaihdon selittämisessä mobiiliviestintäalalla Pohjoismaissa

Leinikka, Jussi (2018)

Mobiililiittymien käyttö on muuttunut viimeisen puolen vuosikymmenen aikana huomattavasti mobiilidatan käytön kasvaessa merkittävästi ja ala on edelleen jatkuvassa murroksessa. Tällaisessa muuttuvan markkinan tilanteessa on tärkeää niin markkinaviranomaisille kuin alan yrityksillekin ymmärtää kuluttajien mielipiteitä ja toimintaa. Tässä tutkielmassa selvitetään kuluttajatyytymättömyyteen sekä operaattorin vaihtoon vaikuttavia tekijöitä mobiiliviestintäalalla Pohjoismaissa. Tekijöiden selvittämiseen käytetään logistista regressiomallia suurimman uskottavuuden estimoinnilla ja tulokset varmennetaan Exact logistisella regressiomallilla aineiston vinoumasta johtuen. Tutkielman aineistona käytetään Euroopan Komission keräämää eri toimialoihin liittyvää kyselyaineistoa. Taustateorian osalta tutkielmassa syvennytään kuluttajatyytymättömyyden käsitteeseen sekä tyytymättömän kuluttajan toimintamahdollisuuksiin. Kuluttajatyytymättömyyttä havaittiin kasvattavan mobiililiittymän kanssa koetut ongelmatilanteet sekä vastaajan matala luottamus alan toimijoihin ja vähentävän vastaajan suomalaisuus sekä erittäin hyvä taloudellinen tilanne. Operaattorin vaihdon todennäköisyyttä havaittiin kasvattavan mobiililiittymän kanssa koettujen ongelmatilanteiden aiheuttama aineellinen tai henkinen suuri haitta sekä Tanska vastaajan kotimaana. Vaihdon todennäköisyyttä laski Ruotsi vastaajan kotimaana ja internetin harva käyttö. Tulokset olivat yhdensuuntaisia molemmilla estimointimenetelmillä kummassakin mallinnuskohteessa.
GMAR- ja StMAR-mallin yleistäminen G-StMAR-malliksi

Virolainen, Savi (2018)

Erityisesti taloudellisissa ilmiöissä sekä niitä kuvaavissa aikasarjoissa esiintyy usein vaihtelua eri tilojen välillä, esimerkiksi markkinoiden vakauden heilahtelun aiheuttamana. Eri tilojen välillä vaihtelua selittämään kykeneviä aikasarjamalleja ovat muun muassa autoregressiiviset sekoitusmallit. Tällaisia ovat esimerkiksi GMAR-malli (Gaussian Mixture Autoregressive) ja StMAR-malli (Student's t Mixture Autoregressive), joihin perustuen tutkielmassa esitetään molempien piirteitä hyödyntävä G-StMAR-malli (Gaussian and Student's t Mixture Autoregressive). Autoregressiiviset sekoitusmallit voidaan ajatella kokoelmaksi lineaarisia autoregressiivisiä malleja, joista kutakin kutsutaan mallin komponentiksi. Kunkin komponentin ajatellaan kuvaavan kutakin ilmiössä esiintyvää tilaa. GMAR-mallissa komponenttien oletetaan olevan normaalisia autoregressiivisiä prosesseja, kun taas StMAR-mallissa ne ovat t-jakaumaan perustuvia, ehdollisesti heteroskedastisia autoregressiivisiä prosesseja. StMAR-mallin komponenttien ehdollisen varianssin riippuvuus samoista parametreista kuin ehdollinen odotusarvo voi kuitenkin olla rajoittava tekijä tapauksissa, joissa komponenttikohtainen ehdollinen odotusarvo on vahva, mutta ehdollinen varianssi heikko. Tästä syystä StMAR-malli yleistetään tutkielmassa G-StMAR-malliksi sallimalla osan sen komponenteista perustuvan GMAR-mallin käyttämiin normaalisiin autoregressiivisiin prosesseihin, joissa ehdollisen varianssin oletetaan olevan vakio. Tutkielmassa esitellään GMAR-malli ja StMAR-malli, ja määritellään niiden pohjalta G-StMAR-malli. Lisäksi osoitetaan, että GMAR-mallin ja StMAR-mallin houkuttelevat teoreettiset ominaisuudet, kuten ergodisuus ja stationaarisen jakauman tunteminen, periytyvät ilmeisellä tavalla myös G-StMAR-mallille. Mallien esittelemisen jälkeen tutkielmassa kerrotaan lyhyesti, kuinka esitetyt mallit voidaan estimoida kaksivaiheista menetelmää käyttäen, miten malleille voidaan valita sopivat asteet, kuinka kvantiiliresiduaaleja voidaan hyödyntää mallin sopivuuden tarkastelemisessa ja miten taustalla olevan prosessin tulevia havaintoja voidaan ennustaa simulaatiomenettelyllä. Tutkielman empiirisessä osiossa tutkitaan, millaisiksi G-StMAR-mallin parametrit estimoituvat pohjana olevaan StMAR-malliin verrattuna, ja lisäksi mallien ennustetarkkuuksia vertaillaan toisiinsa. Esimerkkiaineistona käytetään Standard & Poor's 500 osakemarkkinaindeksin päivittäistä volatiliteettia kuvaavaa, ajanjakson 3.1.2000-20.5.2016 kattavaa aikasarjaa. Tutkielman tulosten perusteella StMAR- ja G-StMAR-mallien ennustetarkkuuksien välillä ei voida sanoa olevan juurikaan eroa, mutta joissakin tapauksissa voidaan G-StMAR-malliin siirtymällä välttää StMAR-mallin parametrien estimaatteja koskevia ongelmia.
GMAR-mallin parametrien kaksivaiheinen estimointi

Karttunen, Henri (2015)

Aikasarjoissa ilmenevien ei-normaalisten piirteiden mallintamiseen voidaan käyttää epälineaarisia aikasarjamalleja, joista erityisesti tutkielmassa tarkastellaan autoregressiivisia sekoitusmalleja. Autoregressiiviset sekoitusmallit määritellään sekoituksena lineaarisista autoregressiivisista malleista ja erona eri sekoitusmallien välillä on niiden sekoitussuhteiden määrittely. Autoregressiivisella GMAR (Gaussian Mixture Autoregressive)-sekoitusmallilla on houkuttelevia teoreettisia ominaisuuksia, sillä sen stationaarinen jakauma tunnetaan ja sen stationaarisuusehto ja ergodisuus voidaan johtaa ilman lisärajoituksia parametreille. Kuitenkin sekoitussuhteiden monimutkaisesta määrittelystä johtuen sen parametrien estimointi käyttäen kirjallisuudessa usein käytettyä EM-algoritmia on hankalaa. Tästä syystä tutkielmassa selvitetään mahdollisuutta käyttää parametrien estimoinnissa kaksivaiheista menetelmää, jossa geneettisen algoritmin avulla etsitään alkuarvoja gradienttiperusteiselle optimointialgoritmille. Parametrien estimoinnin lisäksi tutkielmassa tarkastellaan mallinvalintaa osana estimointiprosessia. Tarkasteltavia työkaluja sopivan mallin etsinnässä ovat informaatiokriteerit sekä erilaiset kvantiiliresiduaaleihin perustuvat testit, joiden avulla voidaan tehdä mallidiagnostiikkaa tavallisten residuaalien tapaan myös silloin, kun tavallisia residuaaleja ei voida käyttää. Lisäksi tarkastellaan ennusteiden laskemista simulaatioiden avulla ja esitetään miten GMAR-mallia voidaan simuloida. Tutkielman empiirisessä osassa tarkastellaan kahta esimerkkiä, joista ensimmäisessä keskitytään estimointiin, mallinvalitaan ja diagnostiikkaan. Tässä esimerkissä aineistona käytetään yhdysvaltain kuukausittaista inflaatiota vuodesta 1975 vuoteen 2015. Toisessa empiirisessä esimerkissä tarkastellaan tuulen nopeuksia päivittäisen aineiston avulla ja keskitytään erityisesti ennusteiden laskemiseen. Tuulen nopeutta mittaava aineisto on ei-negatiivinen aikasarja ja siksi esimerkissä tarkastellaan estimointia logaritmoidun sarjan avulla ja alkuperäisen sarjan ennustamista. Tutkielman tulosten perusteella kaksivaiheinen estimointi käyttäen geneettistä algoritmia toimii GMAR-mallin tapauksessa hyvin ja kohtuullisessa ajassa.
Haastattelijavaikutus EU-rikosuhritutkimuksessa ja kansallisessa uhritutkimuksessa

Pelanteri, Antti (2012)

Haastattelu on yksi yleisimmistä tiedonkeruun menetelmistä, ja sitä käytetään useilla yhteiskuntaa käsittelevillä aloilla. Siihen, kuten kaikkiin tiedonkeruumenetelmiin, liittyy virhelähteitä. Tämä tutkielma tarkastelee haastattelijoiden vaikutusta kerättyyn aineistoon. Tarkoituksena on selvittää, miten haastattelijat ja haastattelutilanne vaikuttavat vastauksiin, miten näitä vaikutuksia mitataan sekä mikä on niiden suuruusluokka ja merkitys survey-tutkimuksessa. Haastattelu on erittäin monimutkainen survey-toiminto, sillä se sisältää kognitiivista vuorovaikutusta haastattelijan ja vastaajan välillä. Haastattelijan toimenkuvaan kuuluu paljon muutakin kuin vain kysymyksen lukeminen ääneen vastaajalle: haastattelijan pitää lisäksi muun muassa selvittää, onko henkilö oikeutettu vastaamaan tutkimukseen, suostutella hänet osallistumaan ja kysyä häneltä tarvittaessa tarkentavia kysymyksiä. Haastattelijan tehtävien monimutkaisuus altistaa helposti virheille ja vaihtelulle eri haastattelijoiden välillä. Käyntihaastatteluin suoritettavissa survey-tutkimuksissa ei yleensä ole kustannustehokkuuden vuoksi mahdollista osittaa vastaajajoukkoa haastattelijoille täysin satunnaisesti. Puhelinhaastatteluissa vastaavaa ongelmaa ei periaatteessa ole, mutta tämän tutkielman aineistoissa vastaajat oli silti allokoitu haastattelijoille alueellisin perustein myös puhelinhaastatteluissa. Näistä seikoista johtuen analyysiasetelmaa ei voitu rakentaa yksinkertaisen varianssianalyysin pohjalta, sillä tällöin alueiden ja haastattelijoiden vaikutukset olisivat sekoittuneet toisiinsa. Näin ollen tutkielmassa tarvittiin monitasomallien soveltamista. Käytetyn mallin hierarkkisessa rakenteessa vastaajat ovat alimmalla tasolla ja haastattelijat ja alueet molemmat toisella asteella, mutta keskenään ristiinkytkeytyneinä. Tutkielman empiirisessä osiossa aineistona on kaksi Tilastokeskuksen keräämää uhritutkimusaineistoa: EU-rikosuhritutkimus ja kansallinen uhritutkimus. Rikoksista kerätään luonnollisesti tietoa suoraan viranomaisilta, mutta koska kaikki rikokset tai uhrikokemukset eivät tule viranomaisten tietoon, tarvitaan survey-tutkimusta. Herkän aihealueen vuoksi hypoteesina oli, että haastattelijavaikutusta esiintyy enemmän kuin sellaisissa tutkimuksissa, joissa aiheet ovat olleet neutraalimpia. Aineiston perusteella tutkielmassa vastataan erityisesti kysymyksiin, kuinka paljon haastattelijavarianssi selittää tulosmuuttujien kokonaisvarianssista, kuinka suuri on asetelmakerroin ja mitkä ovat alueellisten ja haastattelijavaikutusten suuruuksien suhteet. Lisäksi on mallinnettu haastattelijoiden vaikutusta vastauskatoon. Havaitut haastattelijavaikutukset poikkeavat suuresti toisistaan eri tulosmuuttujien välillä. Keskimäärin havaitut vaikutukset ovat kansainvälisissä verrokkitutkimuksissa havaittuja vaikutuksia pienempiä. Suomalaisia vertailukohteita varsinaisista analyysin kohteista ei ole. Haastattelijavaikutukset ovat paikoin suurempia kuin aluevaikutukset, erityisesti kaikkein herkimmiksi koetuissa kysymyksissä. Asetelmavaikutukset eivät pääsääntöisesti nouse suuriksi edes eniten sisäkorrelaatiota sisältävissä kysymyksissä, sillä haastattelijakohtaiset haastattelumäärät olivat maltillisia. Keskivirheet ovat sisäkorrelaatioiden suuruuteen nähden isoja, ja vain muutamat kysymykset sisältävät tilastollisesti merkitsevää sisäkorrelaatiota. Tulosten perusteella näyttää, että haastattelijat noudattavat sovittuja haastattelukäytäntöjä hyvin ja toimivat siten riittävän yhdenmukaisesti. Kertaluontoisissa survey-tutkimuksissa haastattelijavaikutustutkimukset ovat osa surveyn jälkeistä laadun arviointia. Toistettavassa tutkimuksessa tai saman tutkimuksen eri aalloissa haastatteluvaikutusten tutkimisen avulla voidaan seuraavalla kerralla tai seuraavassa aallossa parantaa surveyn laatua. Monissa survey-tutkimuksissa haastattelijavaikutusten tutkiminen olisi mahdollista rutiininomaisesti ilman monimutkaisia analyysiasetelmia ja tutkielmassa halutaan kannustaa tähän. Tärkeimpiä lähteitä tutkielmassa ovat L. Kishin tutkimus haastattelijavarianssista mielipidekysymyksissä, F. Fowlerin ja T. Mangionen standardoidusta haastattelumallista esittämät ajatukset, J. Hoxin teos monitasomalleista sekä S. Gablerin ja P. Lahirin artikkeli haastattelijavaikutuksista monimutkaisissa otanta-asetelmissa. Tutkielman aiheeseen johdatteli S. Laaksosen Helsingin yliopistossa pitämä survey-metodiikan kurssi.
Havaintovälin pituuden vaikutus kuolevuusennusteen tarkkuuteen

Lehtinen, Milla (2015)

Väestöennustelaskelmia tehdään, jotta voidaan varautua tulevaisuuden väestönkehitykseen, esimerkiksi huoltosuhteen muutokseen. Pro gradu -tutkielman tarkoitus oli kehittää kuolevuusennustetta, joka on osa väestöennustetta. Kuolevuutta mallinnettiin ja ennustettiin Suomen aineistoa käyttäen. Tutkimuskysymys oli havaintovälin pituuden vaikutus ennusteen tarkkuuteen. Kuolevuutta ennustettiin ekstrapoloimalla, eli yhteiskunnallisiin tai lääketieteellisiin muutoksiin ei otettu kantaa. Miesten ja naisten kuolevuus ennustettiin erikseen, koska niissä on suuria eroja. Tutkimus rajattiin koskemaan 60–99-vuotiaita. Tutkielmassa vertailtiin toteutunutta ja ennustettua kuolemanvaaralukua. Kuolemanvaaraluku tietyssä iässä kertoo todennäköisyyden kuolla ennen seuraavan iän saavuttamista ja sitä estimoidaan kuolevuuslukujen avulla. Kuolevuusluku lasketaan suhteuttamalla ikäryhmän kuolleet ikäryhmän keskiväkilukuun havaintovuonna. Puuttuvat ja epäuskottavat arvot korvattiin aineistosta interpoloidulla arvolla. Tutkielmassa käytettiin Human Mortality Database -tietokannan ja Tilastokeskuksen StatFin-tietokannan aineistoja. Tarkasteluperiodeiksi valittiin kaksi viiden peräkkäisen vuoden jaksoa vuosilta 1958–2012. Tarkasteluperiodien keskipisteiden etäisyydeksi eli havaintoväliksi valittiin 10–30 vuotta, kun Tilastokeskuksen nykyisin käyttämä havaintoväli on 20 vuotta. Ennustettiin 1–41 vuoden päähän eli havaintovälistä riippuen vuosia 1973–2013. Ennustevuodet valittiin menneeseen aikaan, jotta voitiin verrata toteutunutta ja ennustettua kuolevuutta. Tilastokeskuksen mallin mukaisesti ennuste laskettiin viimeisimmän havaitun kuolemanvaaraluvun ja alenemisvauhdin avulla. Kuolemanvaaraluvun alenemisvauhti riippuu kuolevuuden trendistä valitulla havaintovälillä. Jos kuolevuus laskee nopeasti tarkasteluperiodien välillä, myös ennuste on jyrkempi kuin tilanteessa, jossa ennustetaan perustuen pitkän aikavälin suhteellisen maltilliseen muutokseen. Saatuja ennusteita verrattiin toteutuneisiin lukuihin laskemalla suhteellisia keskineliövirheitä. Keskineliövirheistä otettiin ensin neliöjuuri ja tutkittiin graafisesti virheen suhdetta ennustevälin pituuteen eri havaintoväleillä. Sen jälkeen valittiin ennustevälit 1–20, joista oli kaikilla havaintoväleillä vähintään kaksi havaintoa, ja laskettiin niistä keskineliövirheiden summat havaintoväleittäin. Kuvien ja taulukoiden perusteella suositetut havaintovälit vastaavat Tilastokeskuksen nykyisin käyttämää väliä naisilla ikäryhmissä 65–84-vuotiaat sekä miehillä 80—89- ja 95–99-vuotiaat. Miehillä virheet ovat suurempia kuin naisilla ja mikään havaintoväli ei tuota tarkkoja ennusteita erityisesti nuoremmissa ikäryhmissä. Suoritettiin myös dekompositio eli hajotettiin keskineliövirhe varianssiin ja harhan neliöön. Havaittiin, että varianssin osuus keskineliövirheestä pienenee ennustevälin pidentyessä ja miehillä harhan osuus on keskimäärin suurempi kuin naisilla. Havaitaan, että paras mahdollinen havaintoväli vaihtelee jonkin verran ikäryhmittäin ja sukupuolittain. Kuolevuusennusteita laadittaessa tulisi siis ottaa huomioon optimaaliset ikäryhmittäiset havaintovälit. Toisaalta ennustemallin vaihtaminen saattaisi mahdollistaa parempia ennusteita kuin mitä pelkällä ikäryhmän ja sukupuolen huomioon ottavalla havaintovälin muutoksella saavutetaan.
Helsinkiläisten kerrostaloasuntojen hinnanmuodostus

Hakala, Jani (2018)

Tutkielman tavoitteena on luoda lineaarisen regressioanalyysin avulla hinnoittelumalli helsinkiläisille kerrostaloasunnoille, minkä avulla pyritään selvittämään asuntojen hinnanmuodostukseen vaikuttavia tekijöitä ja niiden vaikutusten suuruutta. Tutkielman alussa kuvataan asuntomarkkinoita Suomessa keskittyen erityisesti hinnanmuodostukseen mahdollisesti vaikuttaviin tekijöihin. Teoriaosiossa käsitellään lineaarista regressioanalyysiä, jota voidaan käyttää yhden selitettävän muuttujan ja yhden tai usean selittävän muuttujan välisen lineaarisen yhteyden mallintamiseen ja selittämiseen. Tutkielman empiiristä osiota varten on poimittu aineisto Kiinteistönvälitysalan Keskusliitto ry:n KVKL HSP -hintaseurantapalvelusta. Palvelusta löytyy suomalaisten kiinteistönvälittäjien tekemät asuntokaupat sisältäen yksityiskohtaista tietoa myydyistä asunnoista. Aineistoksi rajattiin tammikuun 2016 ja elokuun 2017 välillä tapahtuneet helsinkiläiset kerrostaloasuntokaupat. Lisäksi aineistoa on rikastettu lisäämällä kohteiden sijaintikoordinaatit avoindata.fi -palvelusta, mistä löytyy Väestönrekisterikeskuksen ylläpitämät tiedot, sekä R-ohjelmiston avulla laskettu erilaisia matka-aikoja ja -pituuksia kohteista keskustaan hyödyntäen Google Maps -karttapalvelun ohjelmointirajapintaa. Tutkielmassa muodostetaan pienimmän neliösumman menetelmällä yhteensä kolme eri estimointimallia, joiden avulla kuvataan ja selitetään eri ominaisuustekijöiden vaikutuksia asunnon hintaan. Mallit kuvaavat niissä olevien yksittäisten selittäjien arvojen vaihtelun vaikutusta, kun muiden selittäjien vaikutus on vakioitu. Tutkielmassa onnistuttiin selittämään asuntojen hinnanmuodostusta melko tarkasti. Saadut tulokset ovat odotetun suuntaisia suhteessa taustateoriaan, ja niiden perusteella helsinkiläiset kerrostaloasunnot ovat hyvin moniuloitteisia hyödykkeitä, joiden hinnat määräytyvät useiden hintatekijöiden yhteisvaikutuksen perusteella. Tutkielman tuloksissa näkyi lisäksi selvästi asuntomarkkinoiden suhdanteen nousukehitys.
Huolto- ja asumisriidat pääkaupunkiseudun käräjäoikeuksissa 2004-2013

Lilja, Eero (2018)

Lasten asumis- ja huoltoriitoja on Suomessa tutkittu toistaiseksi vähän. Tutkielmaa varten on kerätty 593 havainnon aineisto pääkaupunkiseudun käräjäoikeuksien ratkaisemista vuosina 2004-2013 vireille tulleista riidoista. Tutkielmassa mallinnetaan huolto- ja asumisriidan voittajaa ja selvennetään isien ja äitien voittotodennäköisyyksien eroa aiempia tutkimuksia suuremman otoskoon avulla. Vastemuuttuja on luotu viisiportaisesti äidin ja isän voitoista, osittaisista voitoista ja tasapeleistä. Voittajaa tutkitaan erilaisilla osuustesteillä suhteessa taustamuuttujiin. Lisäksi mallinnetaan voittajaa logistisen regressionalyysin avulla, jossa vanhempien ikätietojen puuttuvat havainnot on impuitoitu. Voittajaa parhaiten ennustavan mallin valinnassa käytetään Bayesin informaatiokriteeriä. Havainnoista joka toisessa ei riidellä lapsen asumisesta, vaan riita koskee vain huoltomuotoa. Huolto- ja asumisriitoja analysoidaan pääsääntöisesti erikseen. Lasten asuminen muuttui lähes joka toisessa asumisriidassa. Valtaosassa huoltoriidoista äidit vaativat yksinhuoltoa ja isät yhteishuoltoa mutta suostuvat lasten asumiseen äidillä. Yksinhuolto määrättiin joka kolmannessa huoltoriidassa. Äidit voittivat useammin sekä asumis- että huoltoriidat. Informaatiokriteerin valitsemassa asumisriitamallissa oli selittävinä tekijöinä nuorimman lapsen ikä, tuomarin sukupuoli, lapsen vakiintunut tilanne, isän ulkomaalaistaustaisuus sekä toteennäytetty syytös väkivallasta, päihteistä tai mielenterveysongelmista. Huoltoriitamallissa tärkeimmiksi selittäjiksi nousivat ulkomaalaistaustaisuuden ja toteennäytettyjen syytösten lisäksi lisäksi syytökset vieraannuttamisesta ja mielenterveysongelmista sekä aiempi oikeuden päätös, joka heikensi isien voittotodenäköisyyttä. Äidit voittivat asumisriidan useammin, kun nuorin lapsi oli alle 7-vuotias. Isät voittivat todenn äköisemmin, kun nuorin lapsi oli yli 12-vuotias. Asumisriidoissa äidit voittivat selkeästi useammin miestuomarien ratkaisemat riidat, mutta vain hieman useammin naistuomarien ratkaisemat riidat. Lähivanhempi oli etulyöntiasemassa riippumatta siitä, oliko tämä isä vai äiti. Ulkomaalaistaustaiset isät voittivat riidan harvoin, mutta kantasuomalaisten välisissä riidoissa äidit ja isät voittivat riidan yhtä usein. Molemmat vanhemmat voittivat riidan lähes aina, kun heidän esittämänsä syytös väkivallasta, päihteistä tai mielenterveysongelmista oli näytetty toteen. Logistisessa regressioanalyysissä taustamuuttujat selittävät vastemuuttujan vaihtelusta noin kolmanneksen. Saatujen tulosten vahvistamiseksi olisi jatkotutkimuksissa syytä käyttää suurempaa aineistoa sekä saada kattavammin taustamuuttujia esimerkiksi väestörekisterien avulla.
Ikä-periodi-kohortti-ilmaantuvuusmallin toteutus rinta- ja kivessyövälle upotetulla approksimatiivisella bayesiläisellä menetelmällä

Ryynänen, Heidi (2016)

Väestölähtöisessä epidemiologiassa ollaan kiinnostuneita iän, periodin ja kohortin vaikutuksesta tarkasteltavaan tapahtumaan tai ilmiöön. Ikä-periodi-kohortti-ilmaantuvuusmalliin liittyy identifioitavuusongelma, mikä tarkoittaa sitä, että iän, kalenteriajan ja syntymäkohortin parametreja ei saada estimoitua perinteisellä päävaikutuksiin perustuvalla Poisson-regressiolla. Perinteinen frekventistinen identifioitavuusongelman ratkaisutapa on jättää pois kohortti, mutta tämä saattaa kuitenkin johtaa harhaiseen malliin. Toinen perinteinen ja usein käytetty frekventistinen identifoitavuusongelman ratkaisutapa on asettaa parametreille rajoituksia. Eri rajoitteet voivat kuitenkin tuottaa hyvin erilaisia estimaatteja iälle, periodille ja kohortille, joten tämä lähestymistapa ei ole ongelmaton. Bayesiläisessä lähestymistavassa sen sijaan ei tarvita lisärajoituksia, mikäli käytetään heikosti informatiivisia priorijakaumia. Bayesiläisessä lähestymistavassa päättely tehdään posteriorijakaumasta. Laskennallisesti tehokas menetelmä posteriorijakauman tunnuslukujen selvittämiseksi on integroitu upotettu Laplacen approksimaatio, sillä se on nopea ja riittävän tarkka. Rinta- ja kivessyövän analyysi toteutetaankin täten käyttäen integroitua upotettua Laplacen approksimaatiota. Priorijakaumina käytetään ensimmäisen ja toisen asteen satunnaiskävelypriorijakaumia. Hyperpriorijakaumina käytetään gamma-jakaumia eri parametrivalinnoin. Rintasyöpää ja kivessyöpää koskeva aineisto on saatu Suomen Syöpärekisteristä ja se kattaa vuodet 1971-2013. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta naisten rintasyövän sairastumisen vaaraan. Myöhemmillä ikäryhmillä rintasyövän ilmaantuvuus on suurta verrattuna ensimmäisiin ikäryhmiin. Myöhemmillä periodeilla riskisuhteet ovat suuria verrattuna ensimmäisiin periodeihin. Keskimääräinen periodivaikutus on 1.024, eli yhden kalenterivuoden lisäys kasvattaa naisten rintasyövän ilmaantuvuutta 2.4 % (Bayes-luottamusväli: 2.1 %, 2.6 %). Sen sijaan myöhemmillä kohorteilla riskisuhteet ovat pieniä verrattuna ensimmäisiin kohortteihin. Kohorttien riskisuhteissa on kuitenkin keskivaiheilla kohouma, jonka huippu osuu vuosina 1942-1946 syntyneiden naisten kohdalle. Rintasyövän kohdalla kaikissa malleissa tulokset ovat samansuuntaisia. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta kivessyöpävaaraan. Kivessyöpä on erityisesti nuorten miesten syöpä. Kivessyövän ilmaantuvuus on suurinta ikäryhmän 30-34 kohdalla. Myöhemmillä periodeilla on suuremmat riskisuhteet verrattuna aikaisempiin periodeihin. Keskimääräinen periodivaikutus on 1.025, joten yhden kalenterivuoden lisäys kasvattaa kivessyövän ilmaantuvuutta 2.5 % (Bayes-luottamusväli: 1.0%, 3.9 %). Kohorttien riskisuhteet laskevat ensimmäisestä kohortista kohorttiin 1957-1961 ja nousevat tämän jälkeen kohorttiin 1977-1981 asti, minkä jälkeen kohorttien riskisuhteet taas pienenevät. Rintasyöpä on naisten yleisin syöpä, ja syöpätapausten suuren määrän takia priorijakaumien ja hyperpriorijakaumien valinnalla ei ole kovin suurta vaikutusta rintasyövän tuloksiin. Kivessyöpä sen sijaan on harvinainen syöpä, joten priorijakaumien ja hyperpriorijakaumien valinnalla on melko suuri vaikutus kivessyövän tuloksiin. Erityisesti kivessyövän kohdalla eri malleissa on eroja periodin ja kohortin vaikutuksissa. Kun on kysessä mallit, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, periodilla on vähemmän vaikutusta kuin malleissa, joissa on toisen asteen satunnaiskävelypriorijakaumat. Toisaalta malleissa, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, kohortilla on enemmän vaikutusta kuin malleissa, joissa on toisen asteen satun-naiskävelypriorijakaumat. Toteutetun Bayes-mallinnuksen avulla voidaan arvioida aikaisempaa luotettavammin myös harvinaisten syöpien ikä-periodi-kohortti-malleja. Lisäksi Bayes-luottamusväleissä on tuotu parametrien epävarmuus paremmin mukaan kuin frekventistisellä lähestymistavalla.
Initial Wave Nonresponse and Panel Attrition in the Finnish Subsample of EU-SILC

Junes, Tara (2012)

In the analyses performed for the Finnish subsample of European Community Household Panel (ECHP) it was noticed that unit nonresponse bias at the beginning of the panel faded away within time in the case of certain income variables. This kind of a research result would have substantial effects on the estimation based on panel studies and on the research arrangements. In practice the strengthening of the research result would mean that the estimates of panel studies would become unbiased in time. In that case it would be more supporting to use long panels instead of short-terms. The objective of this Thesis is to investigate the fade-away hypothesis with a different dataset and to show that the existence of the fade-away effect is not so straightforward as the results received earlier from the ECHP study pointed out. In this Thesis the main attention is given to the successor of the Finnish ECHP namely the Finnish subsample of EU Statistics of Income and Living Conditions (EU-SILC). EU-SILC is a panel study with rotational sampling design with a rotation period of four years. In this Thesis one rotation group whose register incomes come from the years 2005--2008 is selected for the analyses. The main analysis variable of this Thesis is disposable household equivalised income which is the total disposable household income adjusted by the household composition. To analyse the effects of unit nonresponse the dataset is divided into three groups with a different response profile. The transitions of the members of groups between income quintiles are examined with the help of empirical distributions and furthermore, the transitions are modelled with Markov chains. In this Thesis it is noticed that in the initial wave of the panel there is only a small amount of unit nonresponse bias. Here the initial wave refers to the year 2005. Within time the income distribution of the respondents into the quintiles computed from the actual sample becomes more biased which is caused by the panel attrition. Furthermore, it is shown with the modelling based on the Markov chains, that the unit nonresponse bias will increase after the four years analyse period. So, the estimates that have been computed from the analysed panel become unbiased in time which questions strongly the presented fade-away hypothesis.
Itsevalikoituminen verkkokyselytutkimuksen haasteena

Miettinen, Jani (2012)

Internet-yhteyksien käyttö yleistyi Suomessa vuoden 1993 jälkeen, mistä lähtien Internetiä on alettu käyttämään yhä enemmän tiedonkeruun apuvälineenä. Apuvälineenä Internetiä käytetään sekä yhteydenotossa vastaajiin että vastauksien keruussa. Internetin avulla tehtyihin kyselytutkimuksiin liittyy edelleen paljon avoimia metodologisia kysymyksiä. Useimmiten perinteistä, satunnaistettua otoksen keruuta ei voida suorittaa, koska kehikkoperusjoukkoa ei pystytä määrittelemään. Tällöin joudutaan turvautumaan itsevalikoituneeseen verkkotiedonkeruuseen, jossa kyselyä mainostetaan avoimesti tutkimuksen kohteena olevalle ryhmälle ja vastaajat itse päättävät osallistuvatko kyselyyn vai eivät. Samalla Internet-populaation alipeitto voi aiheuttaa harhaa tutkimustuloksiin, jos tavoiteperusjoukkona on jokin suuri populaatio, jossa kaikki eivät käytä Internetiä. Tutkielman tavoite on antaa kuva verkkotiedonkeruun ajanmukaisista menetelmistä sekä erityisesti selvittää itsevalikoituneen verkkotiedonkeruun tilastollista metodologiaa, mahdollisuuksia ja rajoituksia. Tarkoituksena on myös selvittää, kuinka hyvin valikoituneen verkkokyselytutkimuksen harhan korjaaminen onnistuu ajanmukaisilla painotusmenetelmillä. Kyselytutkimusten vastauskadosta sekä valikoituneisuudesta johtuvaa harhaa voidaan korjata painotusmenetelmillä, jos vastauskadon mekanismia tai valikoitumismekanismia pystytään selittämään. Harhaa voidaan korjata sopivien apumuuttujien avulla, jotka korreloivat tulosmuuttujan tai osallistumispäätöksen kanssa. Apumuuttujien tiedot täytyy olla tiedossa sekä kyselyyn osallistujilta että ei-osallistujilta. Perinteisen todennäköisyysotantaan perustuvan aineiston vastauskadosta johtuvaa harhaa korjataan useimmiten jälkiosituspainoilla. Itsevalikoituneen verkkokyselytutkimuksen valikoitumisharhan korjaamiseen on esitetty kaksivaiheista painotusmenetelmää, jonka tarkoituksena on korjata harhaa, joka johtuu Internetin käyttömahdollisuudesta sekä itse osallistumispäätöksestä. Internetin käyttömahdollisuus voidaan mallintaa propensiteettipistemäärän avulla, jonka käänteislukua voidaan käyttää painokertoimena harhan korjaamiseksi. Osallistumispäätöksestä johtuvaa harhaa voidaan korjata tasaamalla aineiston apumuuttujien reunajakaumat vastaamaan populaation reunajakaumia. Tutkimuksessa tarkastellaan kolmea aineistoa. Kelan tutkimusosasto keräsi vuoden 2010 syyskuussa pilotin itsevalikoituneesta verkkokyselytutkimuksesta. Kyselyllä pyrittiin kartoittamaan Suomen 16–80-vuotiaiden kansalaisten yksityisten terveys- ja hammashoitopalvelujen hintatietoja ja tarpeita. Sama kysely lähetettiin myös otosperusteisesti Kelan työntekijöille. Molemmissa kyselyissä vastaukset kerättiin sähköisellä Internet-kyselyllä. Lisäksi tutkielmassa tarkastellaan TNS Gallupin otosperusteisesti Suomen kansalaisilta keräämään suppeampaa puhelinhaastattelukyselyä, jota käytettiin myös itsevalikoituneen aineiston kalibrointiaineistona. Kyselytutkimusaineistojen vastauskatoa korjattiin erilaisilla painotusmenetelmillä, joiden avulla pystyttiin tarkastelemaan kuinka hyvin eri painotusmenetelmät pystyvät korjaamaan valikoitumisesta johtuvaa harhaa. Otosperusteisia verkkokyselytutkimuksia korjattiin jälkiosituspainoilla ja painotuksissa onnistuttiin hyvin, koska aineistossa ei ollut suurta valikoituneisuutta. Itsevalikoituneen verkkokyselytutkimuksen painotuksessa jouduttiin kohtaamaan paljon ongelmia, koska aineisto oli suuresti valikoitunut, ja siinä oli paljon vastauskatoa. Itsevalikoituneen aineiston valikoitumisen harhaa onnistuttiin kuitenkin osaksi korjaamaan, ja osa tulosmuuttujien jakaumatiedoista vastasi lähes otosperusteisen kyselytutkimuksen jakaumatietoja. Tutkimuksen keskeisin tulos oli, että vaikka verkkokyselyn tekeminen on halvempaa ja vähemmän työläämpää kuin otosperusteisen kyselytutkimuksen tekeminen, verkkokyselytutkimuksen suunnitteluun on panostettava entistä enemmän. Itsevalikoituneen verkkokyselytutkimuksen keruussa on suunniteltava tarkemmin kyselyn mainostaminen vastaajaehdokkaille, jotta valikoitumisesta johtuvaa harhaa voidaan paremmin hallita. Tutkimuksessa kävi myös ilmi, että sekä asennetta ja käyttäytymistä kuvaavia kysymyksiä on tärkeä olla kyselytutkimuksissa mukana, koska näiden avulla pystytään selittämään paremmin valikoitumisesta johtuvaa harhaa, kuin pelkästään sosiodemografisten muuttujien avulla.
Jalkapallon tilastollinen analyysi käänteisen prosessin avulla

Vihtola, Ismo (2017)

Tutkimuksessa haluttiin selvittää, millä pelin osa-alueilla Suomen miesten jalkapallomaajoukkueen edesottamukset poikkesivat vastustajiinsa nähden karsittaessa vuoden 2016 Euroopan mestaruus lopputurnaukseen. Tutkimuksen tarkoituksena oli luoda menetelmä, jossa tilastolliseen analyysiin perustuen voidaan osoittaa pelin yksittäiset osa-alueet, joissa joukkue suoriutuu vastustajaansa paremmin tai huonommin. Menetelmän tuottaman informaation avulla voidaan toimenpiteet kohdistaa osa-alueisiin, joilla on eniten vaikutusta ottelun lopputuloksen kannalta. Tutkimuksessa selvisi että Suomen maajoukkueella ei ollut vastustajiinsa nähden selkeää etua millään pelin osa-alueella, joita tutkimuksessa mitattiin. Sen sijaan Suomen maajoukkue oli vastustajaansa selkeästi huonompi sekä erikoistilanteissa että maalintekoyrityksissä, joissa maalintekoa yritettiin puskemalla päällä. Tutkimuksen lopputuloksena luotiin myös menetelmä, jossa pelin eri osa-alueiden vaikutus lopputulokseen nähden on kvantitatiivisesti mitattavissa. Tälläistä menetelmää ei löytynyt tutkimusta valmisteltaessa, joten se luotiin osana tutkimusta. Menetelmän kantava ajatus on pelin kuvaaminen käänteisen prosessin mallina, jossa jalkapallopeli pilkotaan pienempiin kokonaisuuksiin, joiden mittaaminen on mielekästä ja mahdollista kvantitatiivisten menetelmien avulla.
Järjestysregressiomalli huolto- ja asumisriidoille hovioikeuksissa

Leivonen, Aku (2020)

Oikeudellisten ilmiöiden tilastollinen mallintaminen on vielä harvinaista Suomessa. Tutkielmassa mallinnetaan lasten huolto- ja asumisriitoja hovioikeuksissa järjestysregressiomallilla. Oikeuden päätökset huolto- ja asumisriidoissa voidaan luokitella järjestysasteikolla, missä asteikon toinen pää käsittää äidin voittoluokat ja toinen isän voittoluokat. Mallin tarkoitus on löytää keskeiset oikeuden päätöstä sekä äitien ja isien voittomahdollisuuksia selittävät tekijät. Mallia voidaan käyttää myös uuden riidan lopputuloksen ennustamiseen. Koska osapuolten vaatimukset rajoittavat sen, millaisen päätöksen oikeus voi antaa, niin mallia laajennetaan skaala- ja nominaalivaikutuksilla. Vastaavaa laajennettua järjestysregressiomallia ei ole sovellettu huolto- ja asumisriitoihin aiemmin. Työssä käytetty oikeustapausaineisto käsittää 500 huolto- ja asumisriitaa Suomen jokaisesta viidestä hovioikeudesta vuosien 2000 ja 2016 väliseltä ajalta. Aineisto on rajattu riitoihin, joissa äiti ja isä ovat eri mieltä lasten asumisesta ja mahdollisesti myös huollosta. Aineiston laajuus ja ilmiön vähäinen mallinnushistoria tekevät aineistosta kansainvälisesti ainutlaatuisen. Tiedot riidoista on poimittu hovioikeuksien ratkaisuista sekä niiden tausta-asiakirjoista. Kaikista riidoista on poimittu tieto myös vastaavasta käräjäoikeuden ratkaisusta, josta äiti tai isä on valittanut hovioikeuteen. Äidit ja isät ovat valittajina yhtä usein, mutta äidit saavat isiä hieman useammin vaatimuksiansa vastaavia päätöksiä hovioikeudessa. Äidit vaativat lasten yksinhuoltoa useammin kuin isät. Aineistossa on paljon muuttujia, joiden yhdistelmistä pyritään muodostamaan mahdollisimman hyviä malleja erilaisiin lähtökohtiin. Selittäjiä tarkastellaan aluksi yhden selittäjän malleilla, mutta varsinaiset analyysit perustuvat usean selittäjän malleihin, jotka muodostetaan yhden selittäjän mallien pohjalta. Usean selittäjän mallien valitsemisessa käytetään tavanomaisia tilastollisten mallien mallinvalintamenetelmiä. Lopputuloksena saadaan kolme mallia, joista ensimmäisen on tarkoitus löytää keskeiset oikeuden päätöstä selittävät tekijät. Toinen malli pyrkii ennustamaan uuden riidan lopputuloksen ja kolmas ennustamaan lopputuloksen riidassa, josta on käräjäoikeuden päätös. Kolmas malli pyrkii myös löytämään tekijät, jotka parhaiten selittävät käräjäoikeuden päätöksen muuttumista. Lasten vakiintunut asuinpaikka, sosiaaliviranomaisten esittämä suositus ja oikeuden todeksi katsoma väkivalta-, päihteidenkäyttö- tai mielenterveyssyytös toisesta osapuolesta ovat merkityksellisimmät oikeuden päätöstä selittävät tekijät. Näiden tekijöiden merkityksen suuruus ei näytä riippuvan siitä, onko kyseessä äiti vai isä. Lasten vakiintunut asuinpaikka on useammin äidin kuin isän luona, mikä selittää sitä, miksi äidit voittavat riitoja hieman useammin kuin isät. Mitä suurempi vanhempien välinen ikäero on, sitä paremmat ovat nuoremman osapuolen voittomahdollisuudet. Mikäli vanhin lapsi on alle kouluikäinen, niin äidin voittomahdollisuudet paranevat. Mikäli äidin avustaja oikeudessa on mies tai mikäli äiti on työtön, niin isän voittomahdollisuudet paranevat. Hovioikeus muuttaa käräjäoikeuden päätöstä asumisriidoissa noin 14 prosentissa valituksista. Koska käräjä- ja hovioikeuden päätökset ovat hyvin vahvasti kytkeytyneet toisiinsa, niin päätöksen muuttumiselle jää vain vähän selittäviä tekijöitä. Tällaisia ovat edeltävä huolto- ja asumistilanne ja vanhempien välinen ikäero. Järjestysregressiomalli toimii ilmiön mallintamisessa melko hyvin ja erityisesti skaala- ja nominaaliselittäjien käyttäminen osoittautuu toimivaksi tavaksi huomioida osapuolten vaatimukset. Mallien ennusteet ovat lupaavia, vaikka ennustekykyä on arvioitu vain aineistolla, jolla malli on sovitettu. Aineiston suuren muuttujamäärän vuoksi kaikkia yhteyksiä on vaikea havaita, minkä vuoksi aineistosta olisi mielenkiintoista tehdä vielä useita lisätarkasteluja.
Järvien tilan arvioinnin tehostaminen lineaarisilla sekamalleilla

Buchwald, Jadwiga (2015)

Lineaariset sekamallit mahdollistavat jatkuvaluonteisen vastemuuttujan mallintamisen yksilötason kiinteillä tekijöillä ja ryhmäkohtaisilla satunnaisilla tekijöillä. Mallin kiinteät tekijät selittävät vastemuuttujan systemaattista vaihtelua, kun taas mallin satunnaiset tekijät selittävät vastemuuttujan satunnaisvaihtelua. Mallin satunnaisosan avulla voidaan arvioida ryhmien sisäisen ja välisen vaihtelun luonnetta. Tällainen aineistossa vallitsevien kovarianssirakenteiden huomioiminen mahdollistaa löydetyn mallin yleistämisen myös sellaisiin ryhmiin, joiden havaintoja eli mittaustuloksia ei käytetty mallia muodostettaessa, mutta joiden ajatellaan kuuluvan samaan perusjoukkoon. Tässä pro gradu -tutkielmassa esitetään lineaaristen sekamallien teoriaa ja näytetään, miten lineaarisia sekamalleja voidaan soveltaa järvien kasviplanktonin tilan arvioinnissa. Päätavoitteena oli selvittää, miten järvien kasviplanktonin tilan arviointia ja seurantaa voitaisiin tehostaa lineaarisilla sekamalleilla. Runsasjärviselle Suomelle kattava järvivesien tilan seuranta on haasteellista, ja valitettavasti tärkeiden biologisten muuttujien seuranta on monin paikoin puutteellista. Järvien tilan arvioinnissa käytetään luokittelua, joka tehdään kuuden vuoden välein. Tutkimuksessa keskityttiin tarkastelemaan yhtä luokittelussa käytettyä biologista laatutekijää kasviplanktonia ja sen kolmea luokittelumuuttujaa, joista on olemassa niukemmin mittauksia. Kullekin muuttujalle muodostettiin lineaariset sekamallit olemassa olevan aineiston pohjalta. Selittäjinä malleissa oli aineistossa kattavammin edustettuja muuttujia. Tarkoituksena oli selvittää, voidaanko näiden kolmen tärkeän muuttujan arvoja estimoida luotettavasti lineaarisilla sekamalleilla kun suorat mittaukset puuttuvat. Tällöin järvikohtaiset arviot kasviplanktonmuuttujien tilasta perustuisivat kattavampaan aineistoon, ja entistä useammalle järvelle saataisiin laskettua kyseiset arviot luokittelua varten. Lisäksi tavoitteena oli selvittää, mitkä muuttujat selittävät muuttujien systemaattista vaihtelua, ja mitkä tekijät vaikuttavat muuttujien satunnaisvaihteluun ja miten. Tutkimusta varten muodostettiin vuodet 2006—2012 kattava havaintopaikka- ja päivämääräkohtainen paneeliaineisto Suomen järvien kasviplankton- ja fysikaalis-kemiallisten muuttujien havaintoarvoista. Jotta mahdollisimman moni puuttuva arvo saatiin täydennettyä estimaatilla, käytettiin kaksivaiheista mallinnusta. Puuttuvat arvot täydennettiin ensin parhaan mallin antamilla estimaateilla, jonka jälkeen mallista rajattiin sellainen selittäjä pois, josta oli vähiten havaintoarvoja, ja loppuja puuttuvia arvoja täydennettiin rajatun mallin estimaateilla. Kaikille kolmelle vastemuuttujalle löydettiin luotettavat lineaariset sekamallit ja muuttujista olevien arvojen määrä saatiin nelinkertaistettua. Edustettujen vesimuodostumien määrää saatiin kasvatettua viidenneksellä. Satunnaisosan perusteella muuttujien satunnaisvaihtelua selittää enimmäkseen vuosi, mutta yhden muuttujan kohdalla myös kuukaudella näyttäisi olevan vaikutusta. Koska muuttujien havaintoarvot saadaan samoista näytteistä, tutkimus alleviivaa sekä vuosi- että kuukausiedustuksen tärkeyttä näytteenotossa. Ennen kaikkea tässä tutkielmassa osoitetaan, että lineaarisilla sekamalleilla voidaan saavuttaa kattavampaa järvien tilan arviointia tuottamalla täydentäviä estimaatteja luokittelussa käytetyistä tärkeistä muuttujista niille järville, joista mittaukset puuttuvat tai ovat vähäiset.
Kalibrointiin ja vastaustaipumusmalliin perustuvat menetelmät surveyaineiston painotuksessa

Hämäläinen, Auli (2019)

Surveytutkimuksessa saadaan harvoin kerättyä täydellisen edustavaa aineistoa tavoitellulta vastaajajoukolta. Lähes aina osa vastauksista tai vastaajista jää puuttumaan. Puuttuneisuudella voi olla suuri merkitys aineiston tilastollisen analyysin kannalta. Se vähentää aineistosta laskettavien estimaattien tarkkuutta ja voi pahimmillaan myös aiheuttaa harhaa estimaatteihin. Otantatutkimuksessa virhettä tulee lisäksi itse otannasta. Puuttuneisuudesta ja otannasta johtuvia virheitä surveyaineistossa pyritään usein korjaamaan aineiston uudelleenpainotuksella. Tässä työssä on tutkittu kalibrointiin ja vastaustaipumuksen mallintamiseen perustuvien uudelleenpainotusmenetelmien vaikutusta estimoinnin laatuun, kun otosaineistosta halutaan estimoida erilaisten tutkimusmuuttujien keskiarvoja perusjoukossa. Näiden kahden eri lähestymistavan vertailun lisäksi on haluttu tutkia, voisiko vastaustaipumusmallilla tuotettuja painoja parantaa kalibroimalla (eli muodostamalla ns. yhdistelmäpainot). Käytetty tutkimusaineisto on peräisin Suomessa vuosien 2009 ja 2010 taitteessa toteutetusta EU-rikosuhritutkimuksen pilottivaiheesta. Aineisto sisältää erilaisten rikosten kohteeksi joutumiseen ja turvallisuuden tunteeseen liittyviä muuttujia. Rikosuhritutkimuksessa kerätty otosaineisto on tätä tutkimusta varten monistettu koko populaatiota edustavaksi synteettiseksi dataksi. Synteettisestä perusjoukosta on poimittu satunnaisotoksia jäljitellen aitoa otantatutkimuksen tilannetta. Eri tavoin painotetuista otoksista laskettuja estimaatteja on verrattu toisiinsa sekä tunnuslukujen oikeisiin arvoihin perusjoukossa. Painojen muodostuksessa ja tunnuslukujen estimoinnissa on käytetty SAS-ohjelmistoa. Kalibrointipainot on laskettu käyttämällä Calmar 2-nimistä SAS-makroa, jonka voi ladata ilmaiseksi Ranskan kansallisen tilasto- ja taloustutkimuslaitoksen INSEEn internetsivuilta. Estimoinnin tulosten perusteella voidaan todeta, että uudelleenpainotuksella pystyttiin parantamaan estimoinnin laatua lähes kaikkien tarkasteltujen muuttujien kohdalla. Kaikki painotusmenetelmät eivät kuitenkaan toimineet kaikissa tilanteissa yhtä hyvin. Estimoitaviksi oli tarkoituksella valittu eri tyyppisiä muuttujia. Toiset muuttujista olivat helpompia estimoitavia, eli painotuksella päästiin lähelle estimoitavan muuttujan oikeita arvoja. Osa muuttujista oli kuitenkin sellaisia, joiden kohdalla mikään uudelleenpainotus ei tuonut kovin hyviä estimointituloksia, vaan estimaatteihin jäi reilusti harhaa. Estimointituloksissa näkyi selviä eroja vertailtavien menetelmien välillä. Useimpien muuttujien kohdalla parhaat estimointitulokset saatiin yhdistelmäpainoilla. Yhdistelmäpainojen etu on se, että niissä yhdistyy yksilö- ja makrotason lisäinformaation hyödyntäminen estimoinnin harhan korjaamisessa. Myös puhtailla kalibrointipainoilla saatiin joidenkin muuttujien tapauksessa muita parempia tuloksia, mutta kyse oli sellaisista muuttujista, joiden kohdalla parhaatkaan estimaatit eivät olleet kovin harhattomia. Vastaustaipumusmallinnukseen perustuva menetelmä toimi yleisesti ottaen hyvin, mutta yhdistelmäpainot olivat yleensä vähän paremmat, eli kalibroinnista oli apua. Kalibroinnin kanssa on kuitenkin noudatettava varovaisuutta, koska sillä voidaan pahimmillaan myös huonontaa estimaattien laatua, kuten yhdessä esimerkkitapauksessa näkyi. Lähes kaikkien muuttujien kohdalla estimaatteihin jäi uudelleenpainotuksenkin jälkeen vielä harhaa, joten menetelmien suhteen jäi vielä parannettavaa. Kehitettävää voi löytyä vastaustaipumuksen mallinnuksessa itse mallista. Kalibroinnin tapauksessa on huomattava, että vaikka menetelmällä saadaan reunajakaumat täsmäämään, se ei kuitenkaan takaa, että itse tutkimusmuuttujat estimoituisivat hyvin. Uudelleenpainotuksessa on myös oletettu, että puuttuvuus voidaan selittää käytettävissä olevilla taustamuuttujilla, ja ettei se riipu tutkittavista muuttujista. Näin ei kuitenkaan välttämättä aina ole.
Kalman Filter Algorithm for Rating and Prediction in Basketball

Poropudas, Jirka (2011)

The Thesis presents a state-space model for a basketball league and a Kalman filter algorithm for the estimation of the state of the league. In the state-space model, each of the basketball teams is associated with a rating that represents its strength compared to the other teams. The ratings are assumed to evolve in time following a stochastic process with independent Gaussian increments. The estimation of the team ratings is based on the observed game scores that are assumed to depend linearly on the true strengths of the teams and independent Gaussian noise. The team ratings are estimated using a recursive Kalman filter algorithm that produces least squares optimal estimates for the team strengths and predictions for the scores of the future games. Additionally, if the Gaussianity assumption holds, the predictions given by the Kalman filter maximize the likelihood of the observed scores. The team ratings allow probabilistic inference about the ranking of the teams and their relative strengths as well as about the teams’ winning probabilities in future games. The predictions about the winners of the games are correct 65-70% of the time. The team ratings explain 16% of the random variation observed in the game scores. Furthermore, the winning probabilities given by the model are concurrent with the observed scores. The state-space model includes four independent parameters that involve the variances of noise terms and the home court advantage observed in the scores. The Thesis presents the estimation of these parameters using the maximum likelihood method as well as using other techniques. The Thesis also gives various example analyses related to the American professional basketball league, i.e., National Basketball Association (NBA), and regular seasons played in year 2005 through 2010. Additionally, the season 2009-2010 is discussed in full detail, including the playoffs.
Katkaistu ja sensuroitu aineisto elinaika-analyysissa : Infektion etenemisen tarkastelua aids- ja HPV-aineistoilla

Tiihonen, Petri (2013)

Opinnäytetyön tavoitteena on tutkia aineiston katkaisun ja sensuroinnin vaikutusta elinaika-analyysissa. Asiaa käsitellään mallintamalla infektion luonnollista kulkua. Analyysit tehdään simuloitujen aineistojen avulla, jotka jäljittelevät HIV-infektion kehittymistä aidsiksi ja HPV- eli papilloomavirusinfektion paranemista. Simuloitujen aineistojen käsittelyn lisäksi määritetään aidsin puhkeamisajan sekä HPV-infektion paranemisajan jakaumat aidoista aineistoista. Tutkielman aihe pohjautuu Terveyden ja hyvinvoinnin laitoksen (ent. Kansanterveyslaitos) vuonna 2008 asettaman työryhmän tutkimukseen, jossa selvitettiin HPV-rokotteen mahdollista käyttöönottoa kansallisessa rokotusohjelmassa. HPV aiheuttaa muun muassa kohdunkaulan muutoksia ja sitä kautta kohdunkaulan syöpää. Aikaisemmin infektion paranemisesta on tehty analyysejä aggregoidun aineiston perusteella ja nyt sen tuloksia verrataan yksilötason aineistosta estimoituihin tuloksiin. Infektion etenemistä kuvaavan jakauman estimointia varten muodostetaan uskottavuusfunktiot sekä katkaistun että sensuroidun aineiston tilanteessa. Uskottavuusfunktiota simuloidaan Metropolisin ja Hastingsin algoritmilla, jolloin saadaan jakaumat estimoitaville parametreille. Katkaistut ja sensuroidut aineistot ovat tyypiltään erilaisia. Katkaistuun aineistoon valikoituu vain tutkimuksen keston mukaisia tapauksia ja ääritapaukset jäävät usein kokonaan pois. Aineiston mahdollinen harha pystytään eliminoimaan oikeanlaisella uskottavuusfunktion määrittelyllä. Käytettävissä olevaa informaatiota on sensuroidun aineiston tilanteessa enemmän kuin katkaistussa aineistossa, mutta oikeanlaiset menetelmät ovat silloinkin avainasemassa. Simuloidun katkaistun aineiston tapauksessa estimoitiin sekä taudin puhkeamisajan jakauman parametrit että infektoitumisen intensiteetti. Lukumäärältään pieni tai seuranta-ajaltaan lyhyt aineisto hankaloittaa etenkin infektoitumisen intensiteetin ja jakauman skaalaparametrin estimointia. Mallin identifioituvuutta voidaan parantaa käyttämällä priorijakaumaa infektoitumisen intensiteetille. Aids-aineiston avulla estimoitu yli 60-vuotiaiden taudin puhkeamisajan jakauma ei identifioidu ilman lisäoletuksia. Parametrien estimoiminen vaatii tarkan prioritiedon infektoitumisen intensiteetistä. Simuloiduilla sensuroiduilla aineistoilla estimoitiin infektion paranemisajan jakauman parametrit. Jakauman oikeaa muotoa ei saada estimoitua, jos sensuroinnin testausvälit ovat liian pitkät. HPV-infektion kaltaisessa tilanteessa testausvälin tulee olla korkeintaan kuusi kuukautta. Maltillinen osallistumiskato testeissä ei hankaloita estimointia, vaikka testausvälit siten paikoitellen pitenevät. Käytetyn roketetutkimusaineiston avulla estimoitiin HPV-infektion paranemisajan jakaumat nopeasti ja keskinopeasti paraneville virustyypeille. Tulokset vastaavat aikaisemman tutkimuksen tuloksia, jossa infektion paranemista estimoitiin aggregoidusta aineistosta. Hitaasti paranevan virustyypin osalta paranemisajan jakauman parametrien estimaatit jäävät epävarmoiksi.
Kausaalisuudesta tilastollisissa malleissa : Pearlin kausaaliteoria ja rakenneyhtälömallien teoria

Alatalo, Taija (2019)

Kausaalisuus eli syy-seuraussuhteet tarkoittavat tapahtumien välisiä yhteyksiä, joissa toiset tapahtumat aiheuttavat toisia tapahtumia. Tällaisten kausaalipäätelmien tekeminen on keskeistä soveltavassa tilastotieteessä, sillä monesti tutkimuksissa ei olla kiinnostuneita pelkästään muuttujien välisistä korrelaatioista vaan nimenomaan syy-seuraussuhteista. Tilastotieteen piiriin onkin kehittynyt useita, eri tieteenaloilla sovellettavia kausaalipäättelyn suuntauksia, jotka korostavat kausaalisuuden eri osa-alueita. Tässä tutkielmassa esitellään kausaalitutkimuksen suuntauksista Pearlin kausaaliteoriaa ja rakenneyhtälömallien teoriaa. Pearlin kausaaliteoria tarjoaa kattavan matemaattisen perustan kausaaliyhteyksien analysoinnille. Se pohjautuu graafiteoriaan, ja siinä keskeisessä osassa ovat suunnatut silmukattomat graafit, joiden avulla kausaalisuhteet esitetään. Keskeisenä mielenkiinnon kohteena on kausaalivaikutusten määrittäminen. Sen selvittämiseksi, onko kausaalivaikutus yksiselitteisesti määriteltävissä eli identifioituvissa, on olemassa käteviä graafisia menetelmiä, joita voidaan soveltaa suoraan kausaaligraafiin ilman aineistoa. Rakenneyhtälömallit on kokoelma tilastollisia menetelmiä, joilla voidaan tutkia monimutkaisia, useiden muuttujien välisiä kausaalirakenteita. Rakenneyhtälömalleissa kausaaliyhteydet kuvataan rakenneyhtälöinä, jotka voidaan esittää havainnollisesti polkukaavioiden avulla. Tässä tutkielmassa keskitytään yleiseen rakenneyhtälömalliin, joka voidaan jakaa mittaus- ja rakenneosaan. Mittausmalli määrittää havaittujen ja ei-havaittujen muuttujien väliset yhteydet, kun taas rakennemalli määrittelee ei-havaittujen muuttujien keskinäiset yhteydet. Rakenneyhtälömallien teoriaa havainnollistetaan empiirisellä esimerkillä, jossa tutkitaan kognitiivisten prosessien eli ajattelutapojen vaikutusta työtyytyväisyyteen. Pearlin kausaalimallit ovat tunnettuja ja paljon sovellettuja epidemiologian puolella, kun taas käyttäytymis- ja yhteiskuntatieteiden puolella rakenneyhtälömallit ovat hallinneet tutkimuskenttää. Rakenneyhtälömalleista on puuttunut matemaattinen kieli, jolla rakenneyhtälöissä esiintyvää kausaali-informaatiota voitaisiin käsitellä. Pearlin kausaaliteoria tarjoaa tämän kielen rakenneyhtälömallien kausaaliväittämien tueksi.
Kertymä-logit-regressioanalyysi lapsen tapaamisoikeuden täytäntöönpanopäätöksistä

Sanz, Aune (2019)

Vanhempien eroaminen koskettaa vuosittain noin 30 000 lasta, joiden oikeutta luoda ja säilyttää myönteinen ja läheinen suhde etävanhempaansa turvataan tapaamisoikeuden avulla. Tästä sopimuksesta tai tuomioistuimen päätöksestä huolimatta tapaamiset eivät aina toteudu, jolloin tapaamisoikeuden täytäntöönpanon kautta voidaan velvoittaa lapsen kanssa asuvaa vanhempaa sallimaan lapsen ja toisen vanhemman väliset tapaamiset tai yhteydenpito niiden mukaisesti. Tapaamisoikeuden täytäntöönpanoasiat muodostavat alle prosentin kaikista lapsen huoltoa ja tapaamisoikeutta koskevista riidoista ja yleensä täytäntöönpanoasiat päättyvät sovintoon. Harvalukuisuudestaan huolimatta riitaisilla asioilla, joissa tuomioistuin hylkää tai hyväksyy täytäntöönpanohakemuksen, on kuitenkin merkittävä vaikutus niin lapsiin, vanhempiin, perheisiin kuin yhteiskuntaankin käsittelyn ja ratkaisun kautta. Vaikka kyseessä on riita-asia, vain noin puolessa tapauksista hävinnyt osapuoli korvaa voittaneen oikeudenkäyntikulut. Tässä tutkielmassa pyritään kertymä-logit-mallin avulla tarkastelemaan, miten sellaiset seikat kuten täytäntöönpanoasian taustat, sovittelu, syytökset, lapsen tahto ja hakijan sukupuoli vaikuttavat käräjäoikeuden tulkintaan riidasta ja erilaisten lopputulosten todennäköisyyteen, kun huomioon otetaan täytäntöönpanon lisäksi oikeudenkäyntikulujen korvaaminen. Mallin oletusta verrannollisista vetokertoimista testataan kullekin selittäjälle erikseen. Aineistona käytetään Suomen käräjäoikeuksien tapaamisoikeuden täytäntöönpanopäätöksiä vuosilta 2000- 2018, joista osa on kerätty tutkielman yhteydessä. Lisäksi tutkielmassa avataan täytäntöönpanoasioiden käsittelyä, sekä siihen liittyviä käsitteitä ja ilmiöitä, kuten lapsen etua, vieraannuttamista ja sukupuolittuneita käsityksiä muun muassa lähi- ja etävanhemmuudesta. Valitun mallin perusteella hakijan sukupuoli ei vaikuta siihen, miten perustelluksi hakemus on nähty ja miten räikeäksi tapaamisoikeuden rikkomus tulkittu. Sen sijaan vanhemman toteen näytetyt syytökset vieraannuttamisesta, lapseen kohdistuneesta tuomitusta teosta, päihde- tai mielenterveysongelmasta, kasvatuskyvystä tai rikoksesta nostavat tälle vanhemmalle edullisemman lopputuloksen todennäköisyyttä. Tapaamisia vastustavien lasten ikä nostaa vastaajalle voitokkaamman lopputuloksen todennäköisyyttä. Vaikuttaisi kuitenkin siltä, että lapsen vastustus johtaa pikemminkin hakemuksen hylkäämiseen, kuin vastaajan oikeudenkäyntikulujen korvaamiseen. Kun vastaaja kiistää tapaamisoikeuden rikkomisen, erityisesti todennäköisyys, että hävinnyt hakija lisäksi korvaa hänen oikeudenkäyntikulunsa, kasvaa. Muita lopputulokseen vaikuttavia tekijöitä ovat sovittelijan tulkinta vastaajan myötävaikuttamisesta tapaamisiin, hakijan ulkomaalaisuus ja oikeudenkäyntiavustaja, vastaajan hakeman perustepäätöstä koskevan asian vireilläolo, vanhan uhkasakon maksettavaksi hakeminen sekä vastaajan tekemät syytökset kasvatuskyvystä tai rikoksista, jotka eivät kohdistu lapseen. Mallin selittäjien vaikutukset ovat uskottavia ja ymmärrettävissä, ja malli sopii aineistoon. Mallin ennustuskyky ei kuitenkaan ylitä hyvin ennustavan mallin rajaa, eikä verrannollisten vetokertoimien oletus pätenyt kaikkien malliin valikoituneitten selittäjien osalta. Toisenlaisen mallin, oletusta tukevien interaktiomuuttujien tai eri linkkifunktion kokeilemista voisi harkita. Tämän lisäksi voisi perehtyä enemmän siihen, mitkä taustat ja aikaisemmat lopputulokset ovat ominaisia uusiutuville riidoille.
Korrespondenssianalyysi : graafinen ja geometrinen data-analyysin menetelmä

Hirvonen, Jussi (2020)

Kahden luokittelumuuttujan taulukko - lukumäärädata - on hyvin yleinen datatyyppi. Taulukoita on kaikkialla, ja yksinkertainen korrespondenssianalyysi on menetelmä taulukon rivien ja sarakkeiden yhteyksien analyysiin. Se on graafinen menetelmä, riippuvuudet kuvataan yleensä kaksiulotteisena karttana. Rivit ja sarakkeet esitetään samassa koordinaatistossa, jonka akselit tulkitaan rivien ja sarakkeiden sijainnin avulla. Tutkielmassa esitellään yksinkertaisen korrespondenssianalyysin peruskäsitteet data-analyysin avulla. Aineisto on valittu kansainvälisestä kyselytutkimuksesta ”ISSP 2012 - Family and Changing Gender Roles, International Social Survey Programme: Family and Changing Gender Roles”. Tutkielman alkuluvut esittelevät menetelmän perusteet kuuden maan ja yhden luokittelumuuttujan taulukon analyysin kautta. Taustamuuttujina on vastaajan ikä ja sukupuoli, jotka yhdistetään maa- muuttujan kanssa. Osajoukon korrespondenssianalyysistä siirrytään useiden muuttujien samanaikaiseen analyysiin. Taulukoita yhdistämällä voidaan tutkia kahden muuttujaryhmän välisiä yhteyksiä. Laajempaa 25 maan aineistoa käytetään seitsemän haastattelukysymyksen välisten yhteyksien analyysiin (multiple correspondence analysis MCA). Puuttuvat tiedot ovat aineistossa mukana omana vastauskategoriana. Tutkielmassa osoitetaan, että yksinkertainen korrespondenssianalyysi on pätevä menetelmä kahden luokittelumuuttujan taulukon riippuvuuksien hahmottamiseen. Tulkinnan perussäännöt pätevät myös monimutkaisemmissa asetelmissa. Puuttuneisuuden analyysi osajoukon korrespondenssianalyysin avulla (subset MCA) osoittaa, että menetelmä sopii hyvin isojen kyselyaineistojen tutkimukseen. Tärkeimpiä lähteitä ovat Michael Greenacren oppikirjat (Correspondence analysis in practice, Biplots in Practice) ja CARNE-verkoston konferenssijulkaisu (Greenacre, Michael, ja Jörg Blasius. Multiple correspondence analysis and related methods, 2006).
Kulutustutkimuksen alue-estimointi : Pienalue-estimointimenetelmien vertailu Kulutustutkimus 2006 -aineistossa

Peltonen, Pauliina Maria (2013)

Tutkielmassa vertaillaan pienalue-estimointimenetelmien toimivuutta Tilastokeskuksen Kulutustutkimus 2006 -aineistossa. Vertailussa on mukana asetelmaperusteinen Hájek-estimaattori, asetelmaperusteinen malliavusteinen GREG-estimaattori sekä malliperusteinen EBLUP-estimaattori. Vertailu suoritetaan eri aluejaotteluilla (maakunta, seutukunta, kunta), jolloin tutkittavaksi tulee hyvin erikokoisia alueita. Kuntatasolla muutamista kunnista ei ole yhtään havaintoa aineistossa. Malliavusteiset ja -perusteiset pienalue-estimointimenetelmät vaativat hyvän, koko perusjoukon kattavan lisäinformaation saatavuutta. Lisäinformaatioksi tulee valita sellaisia muuttujia, jotka korreloivat mahdollisimman voimakkaasti valitun tulosmuuttujan kanssa, mutta jotka eivät korreloi keskenään (multikollineaarisuus). Lisäinformaation käytöllä havaitaan olevan merkittävä rooli pienalue-estimaattien täsmällisyyden parantamisessa. Asetelmaperusteiset estimaattorit ovat hyvin tehottomia menetelmiä pienten osajoukkojen tapauksessa. Tällöin sekä Hájek- että GREG-estimaattorit tuottavat estimaatteja, joiden keskivirhe on hyvin suuri. Malliperusteinen EBLUP-estimaattori sen sijaan on hyvin täsmällinen osajoukon koosta riippumatta. Tutkielmassa vertaillaan yleisen tason vertailun lisäksi myös analyyttisiä ja bootstrap-menetelmällä laskettuja estimaatteja sekä niiden estimoituja keskivirheitä. Tuloksista havaitaan, että EBLUP-menetelmän tuottamat analyyttiset keskivirhe-estimaatit ovat aivan liian optimistisia (kuntatasolla bootstrap-menetelmän tuottamat keskivirhe-estimaatit ovat keskimäärin 80 % suurempia kuin analyyttiset keskivirhe-estimaatit). Hájek- ja GREG-menetelmien osalta analyyttisten ja bootstrap-keskivirheiden vastaavuus on ilmeinen. EBLUP-estimaattorin osalta testattiin myös painokertoimien vaikutusta estimaatin keskivirheeseen. Vertailusta havaittiin, että painokertoimet kasvattavat estimaatin keskivirhettä varsinkin pienissä osajoukoissa. Painokertoimien huomioiminen kuitenkin parantaa tulosten yleistettävyyttä perusjoukon tasolle. Tutkielman lopuksi keskityttiin enemmän estimoitavaksi valitun indikaattorin sisältöön, ja visualisoitiin estimoituja tuloksia Statistics Explorer -ohjelmistolla. Indikaattorina käytettiin terveyskeskuspalveluista saatuja etuuksia, josta ensin estimoitiin kuntakohtaiset vuosikeskiarvot kotitaloutta kohti. Saatuja keskiarvoestimaatteja verrattiin kuntakohtaiseen sairastavuusindeksiin, jotta saaduista tuloksista voitaisiin tehdä jonkinlaisia johtopäätöksiä. Analyysia jatkettiin siten, että estimoitiin kuntakohtaiset etuustotaalit ja suhteutettiin ne kunnan perusterveydenhuollon toimintamenoihin. Tämän suhteen ajatellaan kuvastavan sitä, kuinka monikertaisina kunnan perusterveydenhuoltoon käyttämät menot palautuvat asukkaille etuuksina.

Now showing items 21-40 of 103

Browsing by discipline "Tilastotiede"

Yhteystiedot

HELSINGIN YLIOPISTO