Browsing by discipline "Statistik"

Now showing items 41-57 of 57

Robustin lineaarisen sekamallin soveltaminen DNA-metylaatiointensiteetin mallintamiseen

Karell, Pauliina (2018)

Epigenetiikka on perinnöllisyystieteen ala, jossa tutkitaan ulkoisesti mitattavia ominaisuuksia ilmiasuja, joiden muutokset ilmenevät DNA-juosteen kemiallisina muutoksina. Nämä muutokset eivät ole periytyviä, kuten ihmisen DNA, vaan muokkautuvat ympäristön vaikutuksesta. Metylaatio on eräs epigeneettisistä muutoksista, jotka vaikuttavat geenisäätelyyn. Epigenetiikan avulla on pyritty selittämään eroja muun muassa samanmunaisten kaksosten välillä, ja tutkijoiden mielenkiinto on kohdistunut erityisesti metylaatioon sen helpon mitattavuuden ansiosta. Ihmisiltä erilaisia metyaatioalueita perimästä on kartoitettu noin 400 000, joista osan on tiedetty liittyvän esimerkiksi syövän ilmenemiseen. Tämä tutkielma keskittyy epigeneettisen aineiston tilastolliseen mallinnukseen kaksosaineistossa. Tutkittavaksi ilmiasuksi on valittu ikä, sillä iän on todettu olevan yhteydessä erilaisiin metylaatiomutooksiin. Monissa epigeneettisissä tutkimuksissa käytetään usein kaksosaineistoja, sillä samanmunaiset kaksoset jakavat täysin identtisen perimän keskenään ja usein myös yhteisen kasvuympäristön. Kaksosaineistoa käyttämällä saadaan usein kontrolloitua ympäristöstä johtuvaa vaihtelua, mutta tilastollinen mallinnus vaatii havaintojen riippuvuuden huomioisen. Metylaatioaineistossa saattaa esiintyä myös paljon keskiarvosta poikkeavia havaintoja, jolloin kyseessä on paksuhäntäisestä jakaumasta. Paksuhäntäisissä jakaumissa poikkeavien havaintojen vaikutusta pyritään pienentämään käyttämällä robusteja tilastollisia menetelmiä, jolloin tulokset ovat paremmin yleistettävissä yleiseen väestöön. Tässä tutkielmassa on huomioitu tilastollisessa mallinnuksessa sekä havaintojen riippuvuus että paksuhäntäisyys käyttämällä lineaarista t-sekamallia, sillä t-jakauma on robustimpi vaihtoehto aineiston jakaumaoletukseksi kuin perinteinen normaalijakauma. Lineaarisen t-sekamallin parametrien estimoiminen on toteutettu bayesiläisellä päättelyllä, jossa estimoituja parametreja voidaan tarkastella todennäköisyysjakaumina. Bayesiläisen tilastotieteessä aineistosta tehdään päätelmiä käyttämällä erilaisia todennäköisyysmalleja, mikä mahdollistaa monipuolisen ja joustavan mallimäärittelyn. Käyttämällä erilaista prioritietoa parametrijakaumista, mallin tuloksia voidaan arvioida joustavasti ja monipuolisesti. Tässä tutkielmassa lineaarisen t-sekamallin parametreille on määrätty erilaisia jakaumaoletuksia, jotta perhettä ja kaksosuutta on kyetty mallintamaan riittävästi. Varsinainen estimoitu on toteutettu rakentamalla stokastinen Markovin ketju, jota kutsutaan myös Gibbsin otannaksi. Tässä tutkielmassa selvitettiin iän vaikutusta kolmee erilaiseen metylaatikohtaan ja havaittiin, että kaikissa kolmessa metylaatiokohdassa iän kasvaessa myös metyloituneisuus kasvoi. Eräs kolmesta metylaaatioalueesta on erityisen mielenkiintoinen, sillä vastaavissa tutkimuksissa on saatu samankaltaisia tuloksia ja kyseinen metylaatioalue sijaitsee PDE4C-geeniä ilmentävässä alueessa. Kyseinen geeni vaikuttaa monien muiden solujen aktiivisuuten tuottamalla proteiinia, joka välittää signaaleja solun ulkopuolelle.
Statistic Software for Neighbor Embedding

Zhao, Jie (2017)

Dimension reduction presents expanding importance and prevalence since it lessens the challenge to data visualization and exploratory analysis that numerous science areas rely on. Recently, nonlinear dimension reduction (NLDR) methods have achieved superior performance in coping with complicated data manifolds embedded in high dimensional space. However, conventional statistic software for NLDR visualization purpose (e.g Multidimensional Scaling) often gives undesired desirable layouts. In this thesis work, to improve the performance of NLDR for data visualization, we study the recently proposed and efficient neighbor embedding (NE) framework and develop its software package in statistic software R. The neighbor embedding framework consists of a wide family of NLDR including stochastic neighbor embedding (SNE), symmetric SNE etc. Yet the original SNE optimization algorithm has several drawbacks. For example, it cannot be extended to other NE objective functions and requires quadratic computation cost. To address these drawbacks, we unify many different NE objective functions through several software layers and adopt a tree-based approach for computation acceleration. The core algorithm is implemented in C++ with an lightweight R wrapper. It thus provides an efficient and convenient package for researchers and engineers who work on statistics. We demonstrate the developed software by visualizing the two-dimensional layouts for several typical datasets in machine learning research including MNIST, COIL-20 and Phonemes etc. The results show that NE methods significantly outperform the traditional MDS visualization tool, indicating NE as a promising and useful dimension reduction tool for data visualization in statistics.
Suomalaisten unen pituuden muutoksen selittäminen ikä—kohortti-mallin avulla

Haasio, Lassi Samuel (2016)

Tutkielmassa selvitetään, johtuvatko suomalaisten yöunen pituuden muutokset mediassa faktoina esitetyistä väitteistä: 'ihmiset nukkuvat nykyään vähemmän kuin ennen' ja 'ihmiset nukkuvat ikääntyessään vähemmän'. Kummallakaan väitteellä ei ole tutkimukseen perustuvaa näyttöä, vaikkakin suomalaisten on havaittu nukkuvan keskimäärin vähemmän yössä kuin ennen. Keskimääräistä vähemmän unen voi selittää unen väheneminen ikääntyessä, jolloin Suomen vanheneva väestö nukkuisi keskimäärin vähemmän kuin ennen siksi, että Suomen väestö on keskimäärin vanhempaa kuin ennen. Yhtä lailla ihmisten yleinen yöunen määrän väheneminen ikään katsomatta voi selittää keskimääräisen yöunen pituuden vähenemisen. Todellisuus voi johtua kummasta tahansa, molemmista tai ei kummastakaan. Aineistona tutkielmassa käytetään Hjelt-instituutin keräämää kaksostutkimusaineistoa, jossa tutkimushenkilöiltä on kysytty vuosina 1975, 1981, 1990 ja 2011 useita terveyteen liittyviä kysymyksiä, muun muassa keskimääräistä yöunen pituutta. Aineisto on kerätty alun perin Suomen väestörekisteristä, ja tutkimushenkilöiden kaksosuus on selvitetty kyselylomakkeella. Yöunen pituutta mallinnetaan elinaikamalleihin kuuluvalla Weibull-regressiomallilla. Koska aineistossa on toistomittauksia samoilta henkilöiltä, käytetään kovarianssirakenteen mallintamiseen satunnaistermejä. Lisäksi aineisto koostuu yksinomaan kaksospareista, minkä aiheuttama kovarianssirakenne niin ikään mallinnetaan satunnaistermeillä. Tutkimushenkilöt ovat raportoineet unen pituutensa luvun sijaan aikavälinä, mikä huomioidaan mallintamalla havaintoja intervallisensuroituina. Tutkielmassa havaittiin sekä ikääntymisen että syntymäkohortin selittävän yöunen pituutta. Ikääntyminen 18–34-vuotiaasta 35–54-vuotiaaksi lyhentää yöunen odotuspituutta, mutta vanheneminen 35–54-vuotiaasta 55-vuotiaaksi tai vanhemmaksi ei enää lyhennä unen odotuspituutta. Vuosina 1920–1939 syntyneet ja 1940–1960 syntyneet nukkuvat vähemmän kuin vertailuryhmänä käytetyt vuosina 1880–1899 syntyneet. Sen sijaan vuosina 1900–1919 syntyneet eivät nuku tilastollisesti merkitsevästi vähemmän kuin vuosina 1880–1899 syntyneet. Tulos tukee mediassa esitettyä väitettä, mutta varsinaiset vähäisemmän unen aiheuttavat suorat syyt eivät ole selvillä, vaan tämän selvittäminen vaatii jatkotutkimuksia. Tuloksen perusteella uneen liittyvissä tutkimuksissa on syytä huomioida tutkimushenkilöiden ikä, sillä se vaikuttaa unen pituuteen.
Suomenkielisen PRF:n ulottuvuudet työvoimatoimiston aineistossa sekä faktorirakenteiden invarianssi sukupuolen suhteen

Rand, Heidi (2018)

Persoonallisuusteoreettiselta pohjalta tehty kyselylomake PRF, Personality Research Form, tutkii ihmisen persoonallisuuden ulottuvuuksia. PRF on tällä hetkellä Suomessa käytetyin persoonallisuustesti, jota käytetään useilla psykologian sovellusalueilla. Tutkimuksessa käytetty aineisto on peräisin Psykologien Kustannus Oy:n rekisteristä, ja aineisto on kerätty Työ- ja elinkeinoministeriössä (TEM) vuosina 2002-2008. Viime vuosina on huomattu, että PRF toistaa tilastollisesti melko hyvin viiden faktorin mallin, Big Five –persoonallisuusmallin, ulottuvuudet; ekstroversion, neuroottisuuden, tunnollisuuden, miellyttävyyden ja avoimuuden. Mittausinvarianssilla tarkoitetaan tilastotieteessä mitta-asteikkojen taustalla olevien rakenteiden samankaltaisuutta eri ryhmien välillä. Jos rakenteet eivät taustamuuttujaryhmissä vastaa toisiaan, ryhmien välisiä vertailuja ei voida luotettavasti tehdä, koska tällöin ei voida tietää, onko kyseessä todellinen ero ryhmien välillä vai ero mitta-asteikkojen rakenteessa. Ilmiöiden taustalla olevien latenttien faktoreiden rakenteita voidaan tutkia esimerkiksi konfirmatorisella faktorianalyysilla. Tässä tutkimuksessa on ensimmäiseksi tarkasteltu eksploratiivisen faktorianalyysin avulla, onko suomenkielisestä PRF:stä löydettävissä tilastollisesti toistettavissa oleva faktorirakenne. Lisäksi on tutkittu, voidaanko löytynyt rakenne nimetä Big Five –persoonallisuusteorian ulottuvuuksien mukaisesti. Tämän jälkeen konfirmatorista faktorianalyysia hyödyntäen on tutkittu, ovatko miesten ja naisten vastausten faktorirakenteet samanlaisia, ts. onko faktorirakenne invariantti sukupuolen suhteen. Kuten monissa kansainvälisissä tutkimuksissa on havaittu, myös suomenkielisestä PRF:stä on löydettävissä viisi latenttia ulottuvuutta, jotka voidaan nimetä Big Five –persoonallisuusteorian mukaisesti. Invarianssitutkimuksessa käytettiin moniryhmäfaktorianalyysia, jossa vertaillaan teoreettista mallia havaittuun malliin kahdessa tai useammassa ryhmässä. Asteittain rajoittamalla parametreja saatiin tulokseksi, että sekä heikko että vahva invarianssi toteutuvat aineistossa. Näin ollen miesten ja naisten vastausten faktorirakenteet ovat riittävän samankaltaisia jatkoanalyysien tekemistä varten.
Survey-tutkimusten informaation yhdistäminen : tilastomenetelmällinen ja empiirinen tarkastelu

Honkala, Miika-Markus Salomon (2015)

Tutkielmassa tarkastellaan erilaisia menetelmiä kahden tutkimuksen informaation yhdistämiseen, kun tutkimusten aineistoissa on samoja tulosmuuttujia. Informaatiota halutaan yhdistää, koska siten voidaan saada parempia estimaatteja aineistojen yhteisille tulosmuuttujille. Tutkielma on tehty Helsingin yliopiston ja Tilastokeskuksen yhteisenä pro-gradu -projektina. Luvussa 2 esitetään tutkielmassa käytettävät aineistot. Ne ovat Ulkomaista syntyperää olevien työ ja hyvinvointi -tutkimuksen (UTH) aineisto sekä Työvoimatutkimuksen AHM2014-aineiston ulkomaalaistaustaisista koostuva AHM-aineisto. UTH-aineiston koko on 4 977 henkilöä ja AHM-aineiston koko 1 472 henkilöä. Luvussa 3 esitetään kirjallisuudessa käytettyjä menetelmiä tutkimusten tietojen yhdistämiseen ja esitetään tutkielmassa sovellettavia menetelmiä. Luvussa 4 yhdistetään esimerkkiaineistojen informaatiota ja esitetään siitä saatavia tuloksia. Tutkielman aineistoille sekä niiden yhdistetylle aineistolle muodostetaan vastaustodennäköisyysmallin avulla uudet otospainot. Yhdistetylle aineistolle saadaan laskettua vastaustodennäköisyysmallin avulla paremmat painot, koska suurelle aineistolle tehtävään malliin saadaan paljon vastanneisuuden selittäjiä. Aineistojen estimaatteja yhdistetään neljällä menetelmällä ja tutkitaan, mikä menetelmä tuottaa estimaatit, jotka ovat lähimpänä yhdistetystä aineistosta laskettuja estimaatteja. Tällaiseksi menetelmäksi osoittautuu painotettu keskiarvo, jossa aineiston estimaatin painokertoimen määrittää aineiston koko. Lisäksi lasketaan LGREG-estimaatteja UTH-aineistolle ja yhdistetylle aineistolle siten, että estimaattorin avustava malli on sama. Estimaateista tulee tällöin hyvin samankaltaisia. Luvussa 5 esitetään tulosten perusteella tehtyjä johtopäätöksiä. Informaation yhdistäminen kannattaa tehdä yhdistämällä aineistot. Se on työläämpi vaihtoehto kuin estimaattien yhdistäminen, mutta suuresta aineistosta lasketut estimaatit ovat tarkempia kuin pienemmästä aineistosta lasketut estimaatit. Informaation yhdistämiseen on parhaat mahdollisuudet, kun aineistojen kaikki muuttujat ovat samoja. Silloin kaikkien tulosmuuttujien estimaatteja voidaan parantaa, ja yhdistetyn aineiston kaikkia rekisterimuuttujia voidaan hyödyntää vastaustodennäköisyysmalleissa ja regressioestimaattoreissa. Tutkielman tulokset kahden tutkimuksen informaation yhdistämisestä ovat käyttökelpoisia, kun aineistot ovat erikokoiset. Jos yhdistettäisiin kahden samankokoisen aineiston informaatiota, tuloksista osa olisi hieman erilaisia. Jatkotutkimuksena voisi olla imputointimenetelmien soveltaminen informaation yhdistämiseen.
Syyttäjän seuraamuskannanoton ja rattijuopumustuomion suhteen mallintaminen

Lahti, Tuomas (2016)

Tässä pro gradu -tutkielmassa tutkitaan, millainen yhteys törkeästä rattijuopumuksesta syytetyn poissaololla istuntokäsittelystä, ajoneuvolla, aikaisempien törkeiden rattijuopumusrikosten määrällä, syytekohtien määrällä ja avustajan omaamisella istuntokäsittelyssä on rattijuopumustuomion ja syyttäjän seuraamuskannanoton suhteeseen eli siihen, miten havainnot painottuvat tuomion ja seuraamuskannanoton suhdetta kuvaavan vastemuuttujan luokissa lievempi, samantasoinen ja kovempi. Analyysien selittäviksi muuttujiksi on valittu ristiintaulukointi- ja regressioanalyysikokeilujen perusteella mielenkiintoisimmat muuttujat. Tutkielman taustana on Mika Sutelan hieman muunnetulla syyteaineistolla tekemä tutkimus, jossa käytettiin samaa vastemuuttujaa kuin tässä tutkielmassa. Syyteaineiston syytteet on ratkaistu toukokuussa 2006, 2008 tai 2010. Sutela on kerännyt aineiston Itä-Suomen, Kymenlaakson, Helsingin, Varsinais-Suomen, Pohjanmaan, Keski-Suomen ja Lapin käräjäoikeuksista. Kaikki aineiston syytetyt ovat saaneet tuomion törkeästä rattijuopumuksesta. Sutela on tutkinut, onko selittävillä muuttujilla yhteyttä todennäköisyyteen, jolla tuomiot ovat muuttuneet suhteessa seuraamuskannanottoon. Tässä tutkielmassa otetaan huomioon myös suunta, johon tuomio on muuttunut suhteessa seuraamuskannanottoon, joten tilastollisen analyysin voidaan ajatella olevan informatiivisempaa Sutelan analyyseihin verrattuna. Vastemuuttujan ja selittävien muuttujien yhteyttä tutkitaan yhden selittävän muuttujan ja useiden selittävien muuttujien kumulatiivisten logististen regressioanalyysien avulla. Analyyseissa, joissa käytetään yhtä selittävää muuttujaa kerrallaan, hyödynnetään myös ristiintaulukointeja ja selittävän muuttujan ryhmien jakaumien sijaintien samuutta tutkivia testejä. Analyysien perusteella tuomion ja seuraamuskannanoton suhdetta ankaroittaa syytetyn poissaolo istuntokäsittelystä, kuorma-auton, rekan tai linja-auton ajaminen suhteessa henkilöauton ajamiseen, vähintään neljän syytekohdan omaaminen ja se, että syytetyllä ei ollut avustajaa istuntokäsittelyssä. Tuomion ja seuraamuskannanoton suhde ei näytä muuttuvan, kun pakettiautoa tai muita ajoneuvoja (moottorikelkka, mopo, mönkijä tai traktori) verrataan henkilöautoa ajaneisiin eikä kun syytetyn aikaisempien törkeiden rattijuopumusrikosten määrä kasvaa. Eniten tuomion ja seuraamuskannanoton suhteeseen vaikuttaa kuorma-auton, rekan tai linja-auton ajaminen. Seuraavaksi eniten siihen vaikuttavat syytekohtien määrä ja avustajan läsnäolo istuntokäsittelyssä. Edellisiä vähemmän tuomion ja seuraamuskannanoton suhteeseen vaikuttaa syytetyn poissaolo istuntokäsittelystä. Tutkielmassa tarkastellaan myös hypoteesia, jonka mukaan syyttäjä asettaa seuraamuskannanoton yleisen oikeuskäytännön mukaiseksi, kun selittävä asia on ollut tiedossa ennen istuntokäsittelyä. Tällöin näiden selittävien muuttujien kohdalla tuomion ja seuraamuskannanoton suhteen olettaisi pysyvän samanlaisena muuttujan ryhmästä riippumatta. Analyysien perusteella hypoteesi ei näytä pitävän paikkansa, sillä syytetyn ajoneuvon ja syytekohtien määrän, jotka ovat olleet syyttäjän tiedossa ennen istuntokäsittelyä, kohdalla tuomion ja seuraamuskannanoton suhde ei näytä pysyvän samanlaisena kaikissa ryhmissä.
The role of priors in a small sample Bayesian serial mediation

Vincze, László (2019)

The focus of this Master’s degree thesis is on the role of priors in a small sample Bayesian serial mediation. In particular, it examines how changing the informativeness of priors influences posterior parameter estimates and probability distributions. The empirical example in the study is taken from the field of applied linguistics. The research hypotheses address how the linguistic composition of two bilingual municipalities in Finland impact on the frequency of interpersonal contact young Finnish speakers have with Swedish speakers, which, in turn, increases young Finnish speakers’ communicative competence in Swedish enhancing the use of Swedish in interpersonal communication. The datasets used in the study are exchangeable; they were collected in the same population, in the Finnish secondary schools in Kokkola/Karleby and Pietarsaari/Jakobstad, with identical measures. The first dataset was collected in 2014 (N = 202) and it is used as prior sample in the analyses. The second dataset was collected in 2014 (N = 55) and it is used as the focal sample in the analyses. The results demonstrate that the grade of informativeness of priors fundamentally influences the outcomes of the mediational analyses. When using noninformative priors, some parameters do not differ from zero and the model suggests no mediated effect. However, when using informative priors, both parameter estimates and the mediated effect appear to be different from zero. Controversies around using priors in Bayesian analysis and their significance in empirical applications are discussed.
Tuotteen myynnin ennustaminen L1-regularisoidulla lineaarisella mallilla

Lähteenmäki, Mervi (2018)

The main objective of regularization is to minimize the prediction error in a multiple regression model by reducing the variance of the estimator via shrinkage of the parameter norm. In regularization, the loss function of the model is minimized subject to an extra condition that penalizes the size of the parameter, which condition depends on the applied method. Regularization may produce unambiguous and consistent estimates also for high-dimensional data sets in which the amount of independent variables exceeds the sample size, or for data sets including highly correlated predictors. L1-regularization, also known as the Lasso (Least Absolute Shrinkage and Selection Operator), is one of the most popular methods in linear regression. Lasso is well-known for its property to perform the variable selection and estimation simultaneously. In addition, Lasso is computationally efficient as it is a convex optimization algorithm, which makes it also applicable for high-dimensional data sets. In the thesis, we focus on the theory of regularized linear regression, after which we form a prediction model for the sales of a specific consumer product by using collected data and applying the Lasso, Elastic net and OLS post-Lasso methods. We compare the results to those obtained by best subset selection using a stepwise algorithm. In our study, the regularized models result in more accurate predictions than the model obtained by stepwise algorithm, in terms of test data prediction error. All regularized algorithms selected the same subset of variables, the models differing only in that OLS post-Lasso coefficients were systematically larger in absolute size than the Lasso and Elastic Net coefficients, resulting in the smallest prediction error for OLS post-Lasso. Lasso and Elastic Net generated an equal and to some extent underfitted model.
Tutkielmien arvosanat Helsingin yliopistossa

Holm, Sanni (2013)

Kaksiosaisessa tutkielmassa käsitellään tutkielmien arvosanoja Helsingin yliopistossa. Tutkielman osassa I tarkastellaan, onko miesten ja naisten välillä eroa pro gradu -tutkielmien arvosanoissa ja millaisia eroja tiedekuntien välillä on. Tutkielmassa selvitetään, ovatko nuorena valmistuminen ja nopeasti tutkinnon suorittaminen yhteydessä hyviin pro gradu -tutkielmien arvosanoihin, sekä onko opinto-oikeuden perusteella yhteyttä pro gradu -tutkielmien arvosanoihin. Osan I aineisto on vuosina 2000-2012 suoritettujen tutkintojen pro gradu -tutkielmien arvosanat. Tutkielmassa selvitetään, onko tuona aikana pro gradu -tutkielmien arvosanoissa tapahtunut muutoksia, ja onko vuoden 2005 tutkinnonuudistus yhteydessä arvosanoihin. Koska pro gradu -tutkielman arvosana on tutkielmassa järjestysasteikollinen, malliksi valitaan kumulatiivinen logit-malli. Tutkielmassa käytettävä kumulatiivinen logit-malli on osittainen suhteellisten vastamittojen malli (partial proportional odds model). Tällä mallilla selitetään pro gradu -tukielmien arvosanoja sukupuolella, tiedekunnalla, valmistumisiällä, opintojen kestolla, opinto-oikeuden perusteella ja tutkinnon suoritusvuodella. Miehet saavat naisia parempia arvosanoja pro gradu -tutkielmista Helsingin yliopiston tasolla. Miehet eivät saa naisia parempia pro gradu -tutkielmien arvosanoja kaikissa tarkasteltavissa tiedekunnissa. Nuorempina valmistuneet, nopeammin opiskelleet ja ylioppilastutkinnon perusteella opinto-oikeuden saaneet opiskelijat saavat muita todennäköisemmin parhaimpia arvosanoja pro gradu -tutkielmista. Tiedekuntien välillä on suuria eroja pro gradu -tutkielmien arvosanoissa. Pro gradu -tutkielmien arvosanoissa ei ole tapahtunut suuria muutoksia vuosina 2000-2012. Osassa II tutkimusaihe on, onko kandidaatin ja pro gradu -tutkielmien arvosanojen ja opiskelijan sukupuolen välillä yhteys. Tätä tutkitaan tarkastelemalla molempien tutkintojen arvosanojen riippuvuutta sukupuolesta koko valtiotieteellisen tiedekunnan tasolla Ï‡2-riippumattomuustestillä ja sen kaikkien viidentoista oppiaineen tasolla Fisherin eksaktilla ja Fisherin yhdistettyjen todennäköisyyksien testeillä. Myös arvosanojen riippuvuutta oppiaineesta tarkastellaan, jotta saadaan selville jakautuvatko arvosanat samoin kaikissa oppiaineissa. Miehet saavat valtiotieteellisessä tiedekunnassa parempia arvosanoja tutkielmista kuin naiset. Tämä johtuu siitä, että oppiaineiden välillä on suuria eroja niin arvosana- kuin sukupuolijakaumissa. Miesten paremmat arvosanat kandidaatin tutkielmissa ja erityisesti pro gradu -tutkielmissa selittyvät oppiaineiden välisillä eroilla. Miesvaltaisissa oppiaineissa saadaan muita oppiaineita parempia arvosanoja etenkin pro gradu -tutkielmista.
Työhyvinvoinnin mallintaminen rakenneyhtälömalleilla

Koufos, Mikhael (2018)

Pro gradu -tutkielman tavoitteena oli rakentaa OP Vakuutuksen henkilövakuutusyritysasiakkaiden henkilöstöille suunnatun työntekijän ja koko organisaation työhyvinvointia mittaavan Hyvinvointikartoitus-kyselyn aineiston pohjalta kokonaisvaltaista työhyvinvointia kuvaava rakenneyhtälömalli. Malli mahdollistaa siihen sisällytettyjen eli endogeenisten työhyvinvoinnin osa-alueita ilmentävien faktoreiden yhteyksien tarkastelun suhteessa työhyvinvointiin. Tämän lisäksi tarkasteluun otettiin mukaan mallin ulkopuolisia eli eksogeenisia muuttujia, jotka oli johdettu Hyvinvointikartoitus-kyselyn ikä-, sukupuoli-, asema- ja koulutusmuuttujista. Työhyvinvoinnin taloudellista vaikutusta oli mahdollista tarkastella sairauspoissaolojen määrää kuvaavan eksogeenisen muuttujan kautta. Aineisto kattoi vuosina 2015-2016 saadut Hyvinvointikartoituksen vastaukset, joskin aineistoa oli muokattu tietyiltä osin. Vastauksia tutkielmassa käytetyssä aineistossa oli yhteensä 19 832, ja oli siten rakenneyhtälömallinnukseen laaja. Kaikki vastaukset oli kerätty sähköisellä kyselylomakkeella. Nykypäivän yrityksissä ja muissa työnantajaorganisaatioissa aineettoman pääoman merkitys on korostunut suhteessa aineelliseen pääomaan. Aineetonta pääomaa pidetään koko kansantalouden kehityksen ja kasvun kannalta yhtenä tärkeimmistä tekijöistä. Tutkimusten mukaan työhyvinvoinnin puute aiheuttaa merkittäviä kustannuksia koko yhteiskunnan laajuisesti. Useimmat panostukset työhyvinvoinnin edistämiseen kasvattavat myös työnantajaorganisaation aineetonta pääomaa. Aineettoman pääoman kasvaminen realisoituu organisaation liiketaloudellisena tuloksellisuutena. Lopullisia talousvaikutuksia ovat mm. organisaation kannattavuuden korkea taso, kilpailukyky ja hyvä maine. Tutkielmassa käytettyjä monimuuttujamenetelmiä ovat faktorianalyysi ja rakenneyhtälömallit, joissa yhdistyvät konfirmatorinen faktorianalyysi ja polkuanalyysi. Koska rakenneyhtälömalleissa on tarkoitus testata niiden taustalla olevaa substanssiteoriaa eli tutkielman tapauksessa työhyvinvointiteoriaa, tutkielmassa käydään aluksi laajasti läpi työhyvinvointiin ja sen osa-alueisiin liittyvää tutkimusta. Rakenneyhtälömallien rakentamisessa on työhyvinvointiteorian lisäksi hyödynnetty eksploratiivista faktorianalyysiä. Tutkimusote on siten mallia generoiva. Lopullinen työhyvinvoinnin rakenneyhtälömalli saatiin yhdennentoista hypoteettiseen malliin tehdyn modifikaation jälkeen. Perinteisen suurimman uskottavuuden estimointimenetelmän sijaan tutkielman rakenneyhtälömalleissa käytettiin kyselyaineiston järjestysasteikollisille muuttujille sopivaa diagonaalisesti painotettua pienimmän neliösumman estimaattoria (DWLS). Uusimman tutkimuksen mukaan DWLS vaikuttaa olevan suositeltavin menetelmä eimultinormaalisesti jakautuneiden aineistojen tapauksessa. Rakenneyhtälömallien teoriaa kuitenkin kehitellään yhä jatkuvasti. Rakenneyhtälömallin työhyvinvointifaktori on määritelty tässä tutkielmassa siten, että siihen suoraan liittyvät faktorit ovat fyysinen terveys, liikunta, henkinen terveys, uni, työ, muutoshalukkuus liittyen henkilökohtaiseen hyvinvointiin ja muutoshalukkuus liittyen työhön. Rakenneyhtälömalli rakentuu edelleen siten, että nämä faktorit selittivät alemman tason faktoreita ja havaittuja muuttujia. Tutkielman hyvinvoinnin rakenneyhtälömalli on suhteellisen monimutkainen, sillä havaittuja muuttujia mallissa oli yhteensä 83 kappaletta. Mallin kompleksisuus huomion ottaen lopullisen mallin sopivuus aineistoon oli hyvyysindeksien mukaan hyvällä tasolla. Kun lopullinen rakenneyhtälömalli oli luotu, voitiin tarkastella mallin työhyvinvointifaktorin suhdetta eksogeenisiin muuttuj iin. Taustamuuttujista tilastollisesti merkitsevät yhteydet havaittiin sukupuolta, korkeakoulutusta, työntekijäasemaa ja sairauspoissaoloja selittävien muuttujien kohdalla. Naisilla havaittiin olevan miehiä hieman matalampi työhyvinvoinnin taso. Korkeakoulutuksella on työhyvinvointia lisäävä, mutta hyvin vähäinen vaikutus. Työntekijäasemassa olevilla oli suurempi työhyvinvoinnin taso kuin muissa asemissa olevilla. Työhyvinvoinnin tasolla oli lisäksi selkeä negatiivinen yhteys sairauspoissaoloihin. Hyvinvointiteorian mukaan sairauspoissaolojen vähenemisellä on suora positiivinen yhteys työnantajaorganisaation taloudelliseen menestykseen, joten tätä kautta voitiin todeta organisaation kokonaisvaltaisella työhyvinvoinnilla olevan sen taloudelliseen menestykseen positiivinen yhteys.
Työvaatepalveluiden kysynnän ennustaminen aikasarja-analyysiä käyttäen

Li, Yingzi (2013)

Tässä pro gradu -tutkielmassa tarkastellaan aikasarja-analyysiin perustuvia ennustemenetelmiä sekä teoreettisesti että empiirisesti. Tutkielman teoreettisessa osassa esitellään aikasarja-analyysin peruskäsitteet ja empiirisessä osassa sovellettavat ARMA- ja ARIMA-mallit. Tämän jälkeen, johdetaan näiden mallien keskineliövirheen mielessä optimaaliset ennustekaavat. Lisäksi tarkastellaan eksponentiaaliseen tasoitukseen perustuvia ennustemenetelmiä, joista Holt-Winters -menetelmää sovelletaan tutkielman empiirisessä osassa. Tutkielman teoreettisessa osassa käydään läpi myös ARMA- ja ARIMA-mallien rakentamisen päävaiheet. Tutkielman empiirisessä osassa käytetään Lindström Oy:n työvaatepalvelun keräämää suurta aineistoa, jota yritys käyttää apuna tuotteidensa kysynnän lyhyen aikavälin ennusteita laatiessaan. Tästä aineistosta valitaan kaksi eri tyyppistä tuotetta, joista toisessa esiintyy kausivaihtelua. Näiden tuotteiden kysyntää ennustetaan ARMA- ja ARIMA-malleilla sekä Holt-Winters -menetelmällä ja vertaillaan saatuja yhden ja kolmen kuukauden ennusteita. Saatujen tuloksien mukaan ARMA- ja ARIMA-mallit ennustavat usein kohtuullisen hyvin. Erityisesti toisessa tarkasteltavista esimerkkitapauksista sopivan mallin valitseminen osoittautui kuitenkin vaikeaksi. Kahdesta valitusta mallista toinen havaittiin selvästi paremmaksi, kun tarkasteltiin yhden kuukauden ennusteita ja yhtä selvästi huonommaksi, kun tarkasteltiin kolmen kuukauden ennusteita. Holt-Winters -menetelmää on mallinvalinnan kannalta helppo käyttää, mutta sillä saadut ennusteet havaittiin esimerkkitapauksissa ARMA- ja ARIMA-mallien ennusteita selvästi huonommiksi.
Uncertainty in microsimulation : Assessing sampling variability in inequality and poverty indicators through variance estimation

Lappo, Sampo (2015)

Econometric microsimulation models that simulate the effects of taxation and social benefit legislation on the disposable incomes of individuals and households are widely used by social scientists and policymakers worldwide. The results produced by these models have a degree of uncertainty arising from multiple sources. One of these is sampling error that is caused by the fact that the simulation is performed on a sample of the total population of interest. However, assessment of the accuracy of results through the estimation of sampling variability caused by this error is still largely absent in the microsimulation literature. The users of econometric microsimulation models are often interested in the values of certain inequality and poverty indicators. This thesis presents variance estimation methods that can be employed to produce variance estimates for these indicators. The main focus is on bootstrap and linearization methods for variance estimation and the indicators considered are the at-risk-of-poverty threshold (ARPT), the at-risk-of-poverty rate (ARPR) and the Gini coefficient. The efficiency of variance estimation methods is tested in a simulative study performed on a data set produced by the SISU microsimulation model developed by Statistics Finland. The methods are also employed in a hands-on case study to help assess the effects of an actual legislative reform simulated by the SISU model. It is found that both bootstrap and linearization methods for variance estimation produce relatively good variance estimates for the indicators considered, with linearization being the more effective of the two. However, high outlier incomes are shown to cause difficulties in the variance estimation of the Gini coefficient with both methods.
Univariate and multivariate statistical tests in genetic association studies

Ruotsalainen, Sanni (2017)

Genome-wide association studies have identified hundreds of genomic loci associated with a wide range of human conditions and quantitative traits, such as cholesterol level and diabetes. However, most of these studies have focused on analysing single traits, even the studies involving multiple related traits. Growing evidence for pleiotropy, where the same genetic locus is associated with multiple traits, supports the idea that multivariate methods could provide a remarkable boost in statistical power compared to univariate methods. In this thesis the main research question is to compare the multivariate Wald test to the corresponding univariate test, and to see when multivariate testing is more useful. My second research question is to compare the multivariate Wald test and another multivariate method called Canonical Correlation Analysis (CCA), and to see if they yield the same result. To examine these topics I performed a simulation study in which I simulated data set with 1,000 genotypes and 1,000 individuals. In addition I simulated bivariate phenotypes that were differently correlated with each other, and the genotypes. I performed the univariate Wald test for each trait against each genotype, and the multivariate Wald test for each trait pair against each genotype. I also performed the corresponding CCA to compare those results with the Wald test. In addition to the simulation study I performed the similar analyses for real data from The National FINRISK Study. I used three different blood lipid measurements, HDL-cholesterol, LDL-cholesterol and triglycerides as example traits, and 157 genomic loci previously known to associate with blood lipid levels. These blood lipid levels were appropriate example traits for this study because they are correlated differently with each other, and they are differently associated with the 157 genomic loci used here. Therefore I found many different combinations of correlation between traits, and directions of genetic effects for different traits. Based on my simulation studies I can say that the multivariate testing is never much worse in terms of power to detect associations than the corresponding univariate tests, and in some cases it is much more powerful. Thus there is no reason not to do the multivariate analysis first in case of studying multiple related traits. Multivariate testing is more powerful in cases where the correlation between the traits is large and the genetic effects for the traits show opposite directions compared to the trait correlation. The least effective multivariate testing is compared to univariate testing when the correlation between the traits is small, and the directions of genetic effects is consistent with the trait correlation. Based on my results multivariate Wald test and CCA yield the same results, with some minor approximation differencies in small sample sizes.
Vaccine safety surveillance with self-controlled study designs

Nieminen, Tuomo (2017)

All pharmaceutical products, including vaccines, can increase the risk of some undesired medical occurences (adverse events). Evaluating these risks post-licensure is essential for evaluating the safety of vaccines, since rare adverse events might go undetected in pre-licensure studies. This thesis introduces and applies a method for vaccine safety surveillance, suitable for monitoring the safety of vaccines in near real-time, utilizing electronic health care records. Adverse events are operationalized by diagnosis codes related to health care visits. Vaccine safety surveillance studies suspected, biologically plausible causal relationships between a vaccine and an adverse event. Information regarding such relationships are called safety signals. Safety surveillance can be seen as an observational study for which different study designs could be used. The popularity of vaccination, self-selection and changes in diagnosis coding practises, along with other possible sources of bias, present challenges for commonly used cohort designs. Self-controlled study designs such as the self-controlled case series (SCCS) eliminate time-invariant confounders and are therefore often more suitable for evaluating vaccine risks. This thesis introduces both a simple and a more general version of SCCS and explicitly describes the assumptions related to the method. A vaccine safety surveillance method involves a decision rule for generating safety signals. Natural goals of a safety surveillance method are to control the rates of false positive and false negative signals, as well as to generate a signal as soon as possible when an association between the vaccine and the adverse event exists. Statistical hypothesis testing can be used to derive the decision rules. This thesis describes the maximized sequential probability ratio test (maxSPRT), a hypothesis testing method designed for vaccine safety surveillance. Binomial maxSPRT (BmaxSPRT) is a variant of maxSPRT based on a self-controlled study design such as the SCCS. The BmaxSPRT method addresses hypotheses concerning the relative incidence of adverse events during specified risk and control periods. The derivation of the decision rules for BmaxSPRT, including the computation of critical values, is described in detail both mathematically and algorithmically in this work. As a proof-of-concept BmaxSPRT is retrospectively applied to Finnish register data. The relationships between the incidence of febrile seizures and three childhood vaccines, Measles-Mumps-Rubella (MMR), Pneumococcal (PCV) and the Rota virus vaccination (Rota) are studied. BmaxSPRT generated an expected safety signal related to MMR; the incidence rate of febrile seizures was higher during a period 0-13 days following MMR vaccination compared to a period 14-41 days following vaccination (relative rate RR = 1.59 at the time of signal). Results for PCV are inconclusive and the experiment highlights the need for more in depth analysis regarding PCV vaccinations and febrile seizures. The sensitivity of BmaxSPRT to the specifications of the risk and control periods is also studied in this thesis. The sensitivity analysis highlights the importance of careful consideration of the risk and control periods by quantifying the loss of power due to poor choices.
Vastauskadon korjausmenetelmien tarkastelu lumipallo-otanta -aineistossa

Laalo, Marianne (2020)

Vastauskadon yleistyminen on haitallista, sillä se aiheuttaa ongelmia estimaattien tarkkuuteen sekä luottamusvälien leveyteen. Harhaiseen estimaattiin perustuvat tulokset aiheuttavat virheellisiä tulkintoja. Vastauskatoa voidaan korjata painottamalla aineistoa sekä käyttämällä imputointia puuttuvien arvojen paikkauksessa. Tässä tutkielmassa tarkastellaan vastauskadon korjausmenetelmiä lumipallo-otanta –aineistossa. Tutkielmassa tarkastellaan puuttuneisuuden rakennetta sekä vertaillaan painottamattomia ja painotettuja muuttujia. Lopuksi aineistoa paikataan vielä moni-imputoinnin avulla. Lumipallo-otannassa otos kasvaa lumipallon lailla, kun otokseen jo nimetyt henkilöt nimeävät uusia henkilöitä otokseen. Lumipallo-otannasta on vakiintunut kolme mallia: lineaarinen lumipallo-otanta, eksponentiaalinen syrjimätön lumipallo-otanta sekä eksponentiaalinen syrjivä lumipallo-otanta. Lumipallo-otannan etu on, että sen avulla on mahdollista paikantaa piilossa olevia henkilöitä tai ryhmiä. Aineiston vastaukadon korjauksessa voi käyttää painotusta tai sen lähellä olevaa jälkiositusta. Moni-imputoinnissa imputointikierroksia on vähintään kaksi. Imputoitujen aineistojen avulla tuotetaan estimaatti puuttuvalle arvolle. Tutkielman aineistona on Romanien hyvinvointitutkimus, johon osallistui 365 Suomen romania tai itsensä Suomen romaniksi kokevaa henkilöä. Aineisto kerättiin lumipallo-otannalla helmikuun 2017 ja elokuun 2018 välillä. Tutkimus koostui pitkästä tai lyhyestä haastattelulomakkeesta sekä terveystarkastuksesta. Osallistujat saivat valita vastaavatko pitkään vai lyhyeen lomakkeeseen. Pitkässä lomakkeessa oli 88 kysymystä ja lyhyessä lomakkeessa oli oleellisimmat kysymykset pitkästä lomakkeesta, jolloin kysymyksiä oli 60. Tutkielman ensimmäiset tarkastelut koskevat puuttuneisuutta. Puuttuneisuutta tarkastellaan muutaman muuttujan avulla lyhyen ja pitkän lomakkeen välillä. Toisessa vaiheessa tarkastellaan samojen muuttujien avulla miten painottamaton ja painotettu aineisto eroavat toisistaan. Viimeisessä vaiheessa muodostetaan imputointimallit, joiden pohjalta toteutetaan moni-imputointi. Suhteellisesti suurempi puuttuneisuus lyhyessä lomakkeessa johtuu todennäköisesti siitä, että pitkään lomakkeeseen vastanneet ovat jo lähtökohtaisesti motivoituneempia vastaamaan ja näin ollen antavat enemmän vastauksia. Painotus kertoo, että iäkkäämmät ihmiset ovat aliedustettuina aineistossa. Moni-imputoinnin tulokset osoittavat, että kolmen muodostetun imputointimallin välillä ei ole suurta eroa. Lumipallo-otanta on hyvä otantamenetelmä paikannettaessa piilossa olevia ryhmiä, ja on hyvä asia, että eniten väestötutkimuksissa käytetyn satunnaisotannan rinnalla on muitakin käyttökelpoisia otantamenetelmiä. Lumipallo-otannalla saatuihin tuloksiin on kuitenkin syytä suhtautua varauksella eikä niiden yleistäminen ja vertailu ole täysin ongelmatonta.
Word2vec and its application to examining the changes in word contexts over time

Saastamoinen, Taneli (2020)

Word2vec is a method for constructing so-called word embeddings, or word vectors, from natural text. Word embeddings are a compressed representation of word contexts, based on the original text. Such representations have many uses in natural language processing, as they contain a lot of contextual information for each word in a relatively compact and easily usable format. They can be used either for directly examining and comparing the contexts of words or as more informative representations of the original words themselves for various tasks. In this thesis, I investigate the theoretical underpinnings of word2vec, how word2vec works in practice and how it can be used and its results evaluated, and how word2vec can be applied to examine changes in word contexts over time. I also list some other applications of word2vec and word embeddings and briefly touch on some related and newer algorithms that are used for similar tasks. The word2vec algorithm, while mathematically fairly straightforward, involves several optimisations and engineering tricks that involve tradeoffs between theoretical accuracy and practical performance. These are described in detail and their impacts are considered. The end result is that word2vec is a very efficient algorithm whose results are nevertheless robust enough to be widely usable. I describe the practicalities of training and evaluating word2vec models using the freely available, open source gensim library for the Python programming language. I train numerous models with different hyperparameter settings and perform various evaluations on the results to gauge the goodness of fit of the word2vec model. The source material for these models comes from two corpora of news articles in Finnish from STT (years 1992-2018) and Yle (years 2011-2018). The practicalities of processing Finnish-language text with word2vec are considered as well. Finally, I use word2vec to investigate the changes of word contexts over time. This is done by considering word2vec models that were trained from the Yle and STT corpora one year at a time, so that the context of a given word can be compared between two different years. The main word I consider is "tekoäly" (Finnish for "artificial intelligence"); some related words are examined as well. The result is a comparison of the nearest neighbours of "tekoäly" and related words in various years across the two corpora. From this it can be seen that the context of these words has changed noticeably during the time considered. If the meaning of a word is taken to be inseparable from its context, we can conclude that the word "tekoäly" has meant something different in different years. Word2vec, as a quantitative method, provides a measurable way to gauge such semantic change over time. This change can also be visualised, as I have done. Word2vec is a stochastic method and as such its convergence properties deserve attention. As I note, the convergence of word2vec is by now well established, both through theoretical examination and the very numerous successful practical applications. Although not usually done, I repeat my analysis in order to examine the stability and convergence of word2vec in this particular case, concluding that my results are robust.
Yleistetty lineaarinen sekamalli ajoneuvojen määräaikaiskatsastusten mallinnuksessa

Oksanen, Pihla (2020)

Määräaikaiskatsastus on määräajoin ajoneuvolle suoritettava katsastus, jolla pyritään varmistamaan, että liikennekäytössä oleva ajoneuvo on turvallinen ja sen ympäristövaikutukset ovat määräyksien mukaisia. Aiemmin katsastustapahtumia tarkastelemalla on osoitettu, että katsastuksessa löydettyjen vikojen ja hylättyjen katsastuspäätösten osuus kasvaa voimakkaasti ajoneuvojen ikääntyessä. Tämän tutkielman tavoitteena oli tutkia, millainen yhteys iän lisäksi muilla tekijöillä, kuten ajoneuvoluokalla, matkamittarilukemalla ja merkillä, on katsastuspäätökseen ja katsastuksessa havaittujen vikojen lukumäärään. Lisäksi tavoitteena oli selvittää, miten yleistettyä lineaarista sekamallia voidaan soveltaa ajoneuvojen määräaikaiskatsastusten mallintamisessa. Tutkielman aineisto käsitti 5,53 miljoonaa Suomessa vuosina 2017 ja 2018 suoritettua määräaikaiskatsastusta, joissa katsastuspäätös oli hyväksytty tai hylätty. Aineisto poimittiin Liikenne- ja viestintävirasto Traficomin ylläpitämästä liikenneasioiden rekisteristä, ja se sisälsi katsastuksiin liittyviä tietoja sekä ajoneuvojen teknisiä tietoja. Havaintoyksikkönä oli katsastustapahtuma. Tutkielmassa aineisto rajattiin katsastuksiin, jotka oli suoritettu alle 30-vuotiaille ja alle 7 500 kg painaville henkilö- ja pakettiautoille. Aineisto sisälsi vain ajoneuvon vuoden ensimmäisen katsastuksen. Mallinnuksessa aineistona käytettiin 500 000 katsastustapahtuman satunnaisotosta, joka poimittiin rajatusta aineistosta (N= 4 712 971). Tutkielmassa mallinnus suoritettiin yleistetyllä lineaarisella sekamallilla, joka voidaan tulkita yleistetyn lineaarisen mallin ja lineaarisen sekamallin yleistyksenä. Menetelmää voidaan soveltaa tilanteissa, joissa vaste on eksponenttiperheen jakaumasta ja havainnot ovat ryhmittyneesti riippuvia. Menetelmän malliyhtälö koostuu lineaarisesta mallista tutusta kiinteästä osasta sekä satunnaisosasta. Kaksiosaisen rakenteen ansiosta menetelmällä voidaan selittävien muuttujien vaikutuksien estimoinnin lisäksi tarkastella monilähteistä vaihtelua. Yleistetty lineaarinen sekamalli valittiin tutkielman menetelmäksi mallivasteiden jakaumien ja katsastustapahtumien oletetun riippuvuuden takia. Tutkielmassa vasteiden, katsastuspäätöksen ja vikojen lukumäärän, oletettiin olevan binomijakaumasta ja negatiivisesta binomijakaumasta eli eksponenttiperheen jakaumista. Lisäksi oletettiin, että katsastaja ja edelleen katsastustoimipaikka aiheuttivat katsastustapahtumien välille ryhmittynyttä riippuvuutta. Mallinnus suoritettiin SAS-ohjelmiston GLIMMIX-proseduurilla. Tutkielmassa esitetyissä malleissa kiinteinä selittäjinä käytettiin luokiteltua ajoneuvon ikää, luokiteltua matkamittarilukemaa sekä luokiteltua ajoneuvon merkkiä. Satunnaisena vaikutuksena käytettiin katsastustoimipaikan mukaan määrittyvää vakiotermiä. Mallinnuksen yhteydessä havaittiin aiemmissa julkaisuissa todettu ajoneuvon iän voimakas positiivinen korrelaatio hylkäystodennäköisyyden ja vikojen lukumäärän kanssa. Vastaavanlainen ilmiö havaittiin matkamittarilukeman osalta: mitä enemmän ajoneuvolla oli ajettu, sitä todennäköisempää oli hylkäys ja havaittujen vikojen lukumäärän lisääntyminen. Molempien vasteiden suhteen ajoneuvomerkkien ennusteet erosivat toisistaan sitä voimakkaammin, mitä vanhempia ja mitä enemmän ajettuja ajoneuvoja tarkasteltiin. Katsastustoimipaikkakohtaisissa tarkasteluissa selvisi, että toimipaikoilla oli eroja hylkäystodennäköisyyksien ja vikojen lukumäärien ennusteissa sekä ennusteiden hajonnoissa. Tutkielmassa keskityttiin molempien vasteiden osalta kolmeen malliin. Mallien informaatiokriteerejä vertaamalla havaittiin, että vasteita parhaiten selittäneet muuttujayhdistelmät eivät olleet samat. Mallinnuksen yhteydessä huomattiin, että mallit oli hyvä pitää melko yksinkertaisina. Monimutkaiset mallirakenteet ja usean luokitellun selittäjän sisällyttäminen malliin tekivät laskennasta raskaan ja muodostivat havaintomääriltään pieniä selittävien muuttujien luokkia. Aineistosta havaittiin, että menetelmän oletus ryhmittyneestä riippuvuudesta ei puhtaasti pätenyt aineistossa, koska osa katsastajista toimi useassa katsastustoimipaikassa. Mallien hyvyyden tarkastelu todettiin haastavaksi, koska yleistetyllä lineaarisella sekamallilla ei ole vastaavalla tavalla vakiintuneita tapoja hyvyyden arviointiin kuin esimerkiksi yleistetyllä lineaarisella mallilla. Siksi jatkotutkimuksena olisi kiinnostavaa tutkia muun muassa sitä, millaisia muita välineitä tutkielmassa käytetyn lisäksi on sovellettavissa tutkielman mallien hyvyyden tarkasteluun.

Now showing items 41-57 of 57

Browsing by discipline "Statistik"

Yhteystiedot

HELSINGIN YLIOPISTO