Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Tilastotiede"

Sort by: Order: Results:

  • Honkala, Miika-Markus Salomon (2015)
    Tutkielmassa tarkastellaan erilaisia menetelmiä kahden tutkimuksen informaation yhdistämiseen, kun tutkimusten aineistoissa on samoja tulosmuuttujia. Informaatiota halutaan yhdistää, koska siten voidaan saada parempia estimaatteja aineistojen yhteisille tulosmuuttujille. Tutkielma on tehty Helsingin yliopiston ja Tilastokeskuksen yhteisenä pro-gradu -projektina. Luvussa 2 esitetään tutkielmassa käytettävät aineistot. Ne ovat Ulkomaista syntyperää olevien työ ja hyvinvointi -tutkimuksen (UTH) aineisto sekä Työvoimatutkimuksen AHM2014-aineiston ulkomaalaistaustaisista koostuva AHM-aineisto. UTH-aineiston koko on 4 977 henkilöä ja AHM-aineiston koko 1 472 henkilöä. Luvussa 3 esitetään kirjallisuudessa käytettyjä menetelmiä tutkimusten tietojen yhdistämiseen ja esitetään tutkielmassa sovellettavia menetelmiä. Luvussa 4 yhdistetään esimerkkiaineistojen informaatiota ja esitetään siitä saatavia tuloksia. Tutkielman aineistoille sekä niiden yhdistetylle aineistolle muodostetaan vastaustodennäköisyysmallin avulla uudet otospainot. Yhdistetylle aineistolle saadaan laskettua vastaustodennäköisyysmallin avulla paremmat painot, koska suurelle aineistolle tehtävään malliin saadaan paljon vastanneisuuden selittäjiä. Aineistojen estimaatteja yhdistetään neljällä menetelmällä ja tutkitaan, mikä menetelmä tuottaa estimaatit, jotka ovat lähimpänä yhdistetystä aineistosta laskettuja estimaatteja. Tällaiseksi menetelmäksi osoittautuu painotettu keskiarvo, jossa aineiston estimaatin painokertoimen määrittää aineiston koko. Lisäksi lasketaan LGREG-estimaatteja UTH-aineistolle ja yhdistetylle aineistolle siten, että estimaattorin avustava malli on sama. Estimaateista tulee tällöin hyvin samankaltaisia. Luvussa 5 esitetään tulosten perusteella tehtyjä johtopäätöksiä. Informaation yhdistäminen kannattaa tehdä yhdistämällä aineistot. Se on työläämpi vaihtoehto kuin estimaattien yhdistäminen, mutta suuresta aineistosta lasketut estimaatit ovat tarkempia kuin pienemmästä aineistosta lasketut estimaatit. Informaation yhdistämiseen on parhaat mahdollisuudet, kun aineistojen kaikki muuttujat ovat samoja. Silloin kaikkien tulosmuuttujien estimaatteja voidaan parantaa, ja yhdistetyn aineiston kaikkia rekisterimuuttujia voidaan hyödyntää vastaustodennäköisyysmalleissa ja regressioestimaattoreissa. Tutkielman tulokset kahden tutkimuksen informaation yhdistämisestä ovat käyttökelpoisia, kun aineistot ovat erikokoiset. Jos yhdistettäisiin kahden samankokoisen aineiston informaatiota, tuloksista osa olisi hieman erilaisia. Jatkotutkimuksena voisi olla imputointimenetelmien soveltaminen informaation yhdistämiseen.
  • Vainio, Suvi (2020)
    In this thesis the mortality after coronary artery bypass surgery (CABG) is studied. The scope of the analysis are the perioperative 60 days. Aim of the analysis is to recognize and analyse the differences between the hospitals in mortality after sex, age, and most common comorbidities and complications have been controlled for. Data for the thesis is from Care Register for Health Care HILMO, also referred to as Hospital Discharge Register, administered by Institute for Health and Welfare (THL). Procedures are queried from the years 2014 to 2017. First CABG procedure per patient is included in the analysis. Comorbidities are queried from 10 years preceeding the operation and complications are queried from the period after the operation. All in all the data covers the operation for 6 766 patients and 217 deaths. Survival methods were used in the analysis, in particular Kaplan-Meier estimators and Cox regression. To concretize the results and the uncertainty Bootstrap-sampling is used. Analyses were performed with R-program. In absolute numbers death occurs seldom, in the data 3 % of the patients died within 60 days after the operation. There are differences between the hospitals in mortality: Compared to the hospital with smallest number the number of deaths is 1.3 to 2.4 times higher in the other hospitals, when a reference patient without comorbidities and complications is considered. As has been noted in previous studies also in this analysis women had a higher mortality after CABG surgery eventhough they comprise minority of the patients. One goal of the analysis was to assess whether the reporting register data could be refined following foosteps taken in the analysis. As the number of events is small, four years were combined into the analysis dataset. Time frame of the analysis, four years, is better suitable for research purposes than yearly reporting. The data could be extended with the help of other registers. Also the diagnosis codes for comorbidities and complications should be examined with care.
  • Lahti, Tuomas (2016)
    Tässä pro gradu -tutkielmassa tutkitaan, millainen yhteys törkeästä rattijuopumuksesta syytetyn poissaololla istuntokäsittelystä, ajoneuvolla, aikaisempien törkeiden rattijuopumusrikosten määrällä, syytekohtien määrällä ja avustajan omaamisella istuntokäsittelyssä on rattijuopumustuomion ja syyttäjän seuraamuskannanoton suhteeseen eli siihen, miten havainnot painottuvat tuomion ja seuraamuskannanoton suhdetta kuvaavan vastemuuttujan luokissa lievempi, samantasoinen ja kovempi. Analyysien selittäviksi muuttujiksi on valittu ristiintaulukointi- ja regressioanalyysikokeilujen perusteella mielenkiintoisimmat muuttujat. Tutkielman taustana on Mika Sutelan hieman muunnetulla syyteaineistolla tekemä tutkimus, jossa käytettiin samaa vastemuuttujaa kuin tässä tutkielmassa. Syyteaineiston syytteet on ratkaistu toukokuussa 2006, 2008 tai 2010. Sutela on kerännyt aineiston Itä-Suomen, Kymenlaakson, Helsingin, Varsinais-Suomen, Pohjanmaan, Keski-Suomen ja Lapin käräjäoikeuksista. Kaikki aineiston syytetyt ovat saaneet tuomion törkeästä rattijuopumuksesta. Sutela on tutkinut, onko selittävillä muuttujilla yhteyttä todennäköisyyteen, jolla tuomiot ovat muuttuneet suhteessa seuraamuskannanottoon. Tässä tutkielmassa otetaan huomioon myös suunta, johon tuomio on muuttunut suhteessa seuraamuskannanottoon, joten tilastollisen analyysin voidaan ajatella olevan informatiivisempaa Sutelan analyyseihin verrattuna. Vastemuuttujan ja selittävien muuttujien yhteyttä tutkitaan yhden selittävän muuttujan ja useiden selittävien muuttujien kumulatiivisten logististen regressioanalyysien avulla. Analyyseissa, joissa käytetään yhtä selittävää muuttujaa kerrallaan, hyödynnetään myös ristiintaulukointeja ja selittävän muuttujan ryhmien jakaumien sijaintien samuutta tutkivia testejä. Analyysien perusteella tuomion ja seuraamuskannanoton suhdetta ankaroittaa syytetyn poissaolo istuntokäsittelystä, kuorma-auton, rekan tai linja-auton ajaminen suhteessa henkilöauton ajamiseen, vähintään neljän syytekohdan omaaminen ja se, että syytetyllä ei ollut avustajaa istuntokäsittelyssä. Tuomion ja seuraamuskannanoton suhde ei näytä muuttuvan, kun pakettiautoa tai muita ajoneuvoja (moottorikelkka, mopo, mönkijä tai traktori) verrataan henkilöautoa ajaneisiin eikä kun syytetyn aikaisempien törkeiden rattijuopumusrikosten määrä kasvaa. Eniten tuomion ja seuraamuskannanoton suhteeseen vaikuttaa kuorma-auton, rekan tai linja-auton ajaminen. Seuraavaksi eniten siihen vaikuttavat syytekohtien määrä ja avustajan läsnäolo istuntokäsittelyssä. Edellisiä vähemmän tuomion ja seuraamuskannanoton suhteeseen vaikuttaa syytetyn poissaolo istuntokäsittelystä. Tutkielmassa tarkastellaan myös hypoteesia, jonka mukaan syyttäjä asettaa seuraamuskannanoton yleisen oikeuskäytännön mukaiseksi, kun selittävä asia on ollut tiedossa ennen istuntokäsittelyä. Tällöin näiden selittävien muuttujien kohdalla tuomion ja seuraamuskannanoton suhteen olettaisi pysyvän samanlaisena muuttujan ryhmästä riippumatta. Analyysien perusteella hypoteesi ei näytä pitävän paikkansa, sillä syytetyn ajoneuvon ja syytekohtien määrän, jotka ovat olleet syyttäjän tiedossa ennen istuntokäsittelyä, kohdalla tuomion ja seuraamuskannanoton suhde ei näytä pysyvän samanlaisena kaikissa ryhmissä.
  • Lähteenmäki, Mervi (2018)
    The main objective of regularization is to minimize the prediction error in a multiple regression model by reducing the variance of the estimator via shrinkage of the parameter norm. In regularization, the loss function of the model is minimized subject to an extra condition that penalizes the size of the parameter, which condition depends on the applied method. Regularization may produce unambiguous and consistent estimates also for high-dimensional data sets in which the amount of independent variables exceeds the sample size, or for data sets including highly correlated predictors. L1-regularization, also known as the Lasso (Least Absolute Shrinkage and Selection Operator), is one of the most popular methods in linear regression. Lasso is well-known for its property to perform the variable selection and estimation simultaneously. In addition, Lasso is computationally efficient as it is a convex optimization algorithm, which makes it also applicable for high-dimensional data sets. In the thesis, we focus on the theory of regularized linear regression, after which we form a prediction model for the sales of a specific consumer product by using collected data and applying the Lasso, Elastic net and OLS post-Lasso methods. We compare the results to those obtained by best subset selection using a stepwise algorithm. In our study, the regularized models result in more accurate predictions than the model obtained by stepwise algorithm, in terms of test data prediction error. All regularized algorithms selected the same subset of variables, the models differing only in that OLS post-Lasso coefficients were systematically larger in absolute size than the Lasso and Elastic Net coefficients, resulting in the smallest prediction error for OLS post-Lasso. Lasso and Elastic Net generated an equal and to some extent underfitted model.
  • Holm, Sanni (2013)
    Kaksiosaisessa tutkielmassa käsitellään tutkielmien arvosanoja Helsingin yliopistossa. Tutkielman osassa I tarkastellaan, onko miesten ja naisten välillä eroa pro gradu -tutkielmien arvosanoissa ja millaisia eroja tiedekuntien välillä on. Tutkielmassa selvitetään, ovatko nuorena valmistuminen ja nopeasti tutkinnon suorittaminen yhteydessä hyviin pro gradu -tutkielmien arvosanoihin, sekä onko opinto-oikeuden perusteella yhteyttä pro gradu -tutkielmien arvosanoihin. Osan I aineisto on vuosina 2000-2012 suoritettujen tutkintojen pro gradu -tutkielmien arvosanat. Tutkielmassa selvitetään, onko tuona aikana pro gradu -tutkielmien arvosanoissa tapahtunut muutoksia, ja onko vuoden 2005 tutkinnonuudistus yhteydessä arvosanoihin. Koska pro gradu -tutkielman arvosana on tutkielmassa järjestysasteikollinen, malliksi valitaan kumulatiivinen logit-malli. Tutkielmassa käytettävä kumulatiivinen logit-malli on osittainen suhteellisten vastamittojen malli (partial proportional odds model). Tällä mallilla selitetään pro gradu -tukielmien arvosanoja sukupuolella, tiedekunnalla, valmistumisiällä, opintojen kestolla, opinto-oikeuden perusteella ja tutkinnon suoritusvuodella. Miehet saavat naisia parempia arvosanoja pro gradu -tutkielmista Helsingin yliopiston tasolla. Miehet eivät saa naisia parempia pro gradu -tutkielmien arvosanoja kaikissa tarkasteltavissa tiedekunnissa. Nuorempina valmistuneet, nopeammin opiskelleet ja ylioppilastutkinnon perusteella opinto-oikeuden saaneet opiskelijat saavat muita todennäköisemmin parhaimpia arvosanoja pro gradu -tutkielmista. Tiedekuntien välillä on suuria eroja pro gradu -tutkielmien arvosanoissa. Pro gradu -tutkielmien arvosanoissa ei ole tapahtunut suuria muutoksia vuosina 2000-2012. Osassa II tutkimusaihe on, onko kandidaatin ja pro gradu -tutkielmien arvosanojen ja opiskelijan sukupuolen välillä yhteys. Tätä tutkitaan tarkastelemalla molempien tutkintojen arvosanojen riippuvuutta sukupuolesta koko valtiotieteellisen tiedekunnan tasolla χ2-riippumattomuustestillä ja sen kaikkien viidentoista oppiaineen tasolla Fisherin eksaktilla ja Fisherin yhdistettyjen todennäköisyyksien testeillä. Myös arvosanojen riippuvuutta oppiaineesta tarkastellaan, jotta saadaan selville jakautuvatko arvosanat samoin kaikissa oppiaineissa. Miehet saavat valtiotieteellisessä tiedekunnassa parempia arvosanoja tutkielmista kuin naiset. Tämä johtuu siitä, että oppiaineiden välillä on suuria eroja niin arvosana- kuin sukupuolijakaumissa. Miesten paremmat arvosanat kandidaatin tutkielmissa ja erityisesti pro gradu -tutkielmissa selittyvät oppiaineiden välisillä eroilla. Miesvaltaisissa oppiaineissa saadaan muita oppiaineita parempia arvosanoja etenkin pro gradu -tutkielmista.
  • Li, Yingzi (2013)
    Tässä pro gradu -tutkielmassa tarkastellaan aikasarja-analyysiin perustuvia ennustemenetelmiä sekä teoreettisesti että empiirisesti. Tutkielman teoreettisessa osassa esitellään aikasarja-analyysin peruskäsitteet ja empiirisessä osassa sovellettavat ARMA- ja ARIMA-mallit. Tämän jälkeen, johdetaan näiden mallien keskineliövirheen mielessä optimaaliset ennustekaavat. Lisäksi tarkastellaan eksponentiaaliseen tasoitukseen perustuvia ennustemenetelmiä, joista Holt-Winters -menetelmää sovelletaan tutkielman empiirisessä osassa. Tutkielman teoreettisessa osassa käydään läpi myös ARMA- ja ARIMA-mallien rakentamisen päävaiheet. Tutkielman empiirisessä osassa käytetään Lindström Oy:n työvaatepalvelun keräämää suurta aineistoa, jota yritys käyttää apuna tuotteidensa kysynnän lyhyen aikavälin ennusteita laatiessaan. Tästä aineistosta valitaan kaksi eri tyyppistä tuotetta, joista toisessa esiintyy kausivaihtelua. Näiden tuotteiden kysyntää ennustetaan ARMA- ja ARIMA-malleilla sekä Holt-Winters -menetelmällä ja vertaillaan saatuja yhden ja kolmen kuukauden ennusteita. Saatujen tuloksien mukaan ARMA- ja ARIMA-mallit ennustavat usein kohtuullisen hyvin. Erityisesti toisessa tarkasteltavista esimerkkitapauksista sopivan mallin valitseminen osoittautui kuitenkin vaikeaksi. Kahdesta valitusta mallista toinen havaittiin selvästi paremmaksi, kun tarkasteltiin yhden kuukauden ennusteita ja yhtä selvästi huonommaksi, kun tarkasteltiin kolmen kuukauden ennusteita. Holt-Winters -menetelmää on mallinvalinnan kannalta helppo käyttää, mutta sillä saadut ennusteet havaittiin esimerkkitapauksissa ARMA- ja ARIMA-mallien ennusteita selvästi huonommiksi.
  • Lappo, Sampo (2015)
    Econometric microsimulation models that simulate the effects of taxation and social benefit legislation on the disposable incomes of individuals and households are widely used by social scientists and policymakers worldwide. The results produced by these models have a degree of uncertainty arising from multiple sources. One of these is sampling error that is caused by the fact that the simulation is performed on a sample of the total population of interest. However, assessment of the accuracy of results through the estimation of sampling variability caused by this error is still largely absent in the microsimulation literature. The users of econometric microsimulation models are often interested in the values of certain inequality and poverty indicators. This thesis presents variance estimation methods that can be employed to produce variance estimates for these indicators. The main focus is on bootstrap and linearization methods for variance estimation and the indicators considered are the at-risk-of-poverty threshold (ARPT), the at-risk-of-poverty rate (ARPR) and the Gini coefficient. The efficiency of variance estimation methods is tested in a simulative study performed on a data set produced by the SISU microsimulation model developed by Statistics Finland. The methods are also employed in a hands-on case study to help assess the effects of an actual legislative reform simulated by the SISU model. It is found that both bootstrap and linearization methods for variance estimation produce relatively good variance estimates for the indicators considered, with linearization being the more effective of the two. However, high outlier incomes are shown to cause difficulties in the variance estimation of the Gini coefficient with both methods.
  • Ruotsalainen, Sanni (2017)
    Genome-wide association studies have identified hundreds of genomic loci associated with a wide range of human conditions and quantitative traits, such as cholesterol level and diabetes. However, most of these studies have focused on analysing single traits, even the studies involving multiple related traits. Growing evidence for pleiotropy, where the same genetic locus is associated with multiple traits, supports the idea that multivariate methods could provide a remarkable boost in statistical power compared to univariate methods. In this thesis the main research question is to compare the multivariate Wald test to the corresponding univariate test, and to see when multivariate testing is more useful. My second research question is to compare the multivariate Wald test and another multivariate method called Canonical Correlation Analysis (CCA), and to see if they yield the same result. To examine these topics I performed a simulation study in which I simulated data set with 1,000 genotypes and 1,000 individuals. In addition I simulated bivariate phenotypes that were differently correlated with each other, and the genotypes. I performed the univariate Wald test for each trait against each genotype, and the multivariate Wald test for each trait pair against each genotype. I also performed the corresponding CCA to compare those results with the Wald test. In addition to the simulation study I performed the similar analyses for real data from The National FINRISK Study. I used three different blood lipid measurements, HDL-cholesterol, LDL-cholesterol and triglycerides as example traits, and 157 genomic loci previously known to associate with blood lipid levels. These blood lipid levels were appropriate example traits for this study because they are correlated differently with each other, and they are differently associated with the 157 genomic loci used here. Therefore I found many different combinations of correlation between traits, and directions of genetic effects for different traits. Based on my simulation studies I can say that the multivariate testing is never much worse in terms of power to detect associations than the corresponding univariate tests, and in some cases it is much more powerful. Thus there is no reason not to do the multivariate analysis first in case of studying multiple related traits. Multivariate testing is more powerful in cases where the correlation between the traits is large and the genetic effects for the traits show opposite directions compared to the trait correlation. The least effective multivariate testing is compared to univariate testing when the correlation between the traits is small, and the directions of genetic effects is consistent with the trait correlation. Based on my results multivariate Wald test and CCA yield the same results, with some minor approximation differencies in small sample sizes.
  • Ylöstalo, Otto (2020)
    Kymmenottelu on yleisurheilulaji, joka koostu kymmenestä yksilölajista, jotka suoritetaan sa-massa järjestyksessä kahden vuorokauden aikana. Kymmenen lajin tulokset pisteytetään viralli-sen pistetaulukon mukaan ja lopputulos on näiden lajien yhteenlaskettu pistemäärä. Tutkielman tavoitteena on tutkia, mikä tekee huippuluokan kymmenottelijaa. Lisäksi tarkastellaan miten henkilökohtaiset kehityskäyrät vertautuvat lajeittain. Aineistona käytetään vuonna 1970-2019 yli 8 500 pisteen kymmenottelijoiden kaudenparhai-den ottelusarjassa tehtyjen tuloksien tietoja. Ottelijaprofiilin muutoksia tutkitaan neljässä tasos-sa. Erikseen tarkastellaan ottelijan henkilökohtainen kehitys lajeittain ja näiden mahdollisia ero-ja. Teoriaosassa käsitellään Lairdin ja Waren lineaarinen sekamalli (LME malli) sekä siihen liittyvä rajoitettu suuremman uskottavuuden menetelmää (REML). Tutkielman tuloksien valossa vaikuttaa siltä, että kymmenottelussa pikajuoksulajit ovat tär-keimmässä roolissa. Varsinkin lähtökohtaisesti heikoille 400 metrin juoksijoille kehitys on suu-ri. Kymmenottelijan profiilissa on havaittavissa, että tietyt lähtökohtaisesti heikot lajit pysyvät suhteellisen heikkona verrattuna muihin.
  • Ylöstalo, Otto (2020)
    The decathlon is a track and field event that consists of ten single events, which are performed in the same order during two competitive days. The result from each event is according to the official scoring table transformed into points which are then added together and result in the final score. The aim of this study is to see, what makes an elite decathlete. The individual development in each event is observed. For this study material consisting of all recorded data by decathletes with a personal best of over 8 500 points from year 1970 to 2019 have been used. From the data the best (individual) results made within a decathlon per year was chosen up until the best season. Changes in the decathlete´s profile has been analyzed in four stages (clusters). Changes in the individual development pattern based on the initial level in each event is also observed. The theory part covers the linear mixed-effects model introduced by Laird and Ware. The restricted maximum likelihood method related to the model is deduced in detail. According to the results of the study it seems like the sprint events are of great importance in the decathlon. Especially initially weak 400-meter-runners make a notable progress. However, some initially weak events remain relatively weak compared to the initially stronger.