Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Statistics"

Sort by: Order: Results:

  • Alonso, Pedro (2015)
    The purpose of this thesis is to compare different classification methods, on the basis of the results for accuracy, precision and recall. The methods used are Logistic Regression (LR), Support Vector Machines (SVM), Neural Networks (NN), Naive Bayes(NB) and a full Bayesian network(BN). Each section describes one of the methods, including the main idea of the methods used, the explanation of each one, the intuition underpinning each method, and their application to simple data sets. The data used in this thesis comprises 3 different sets used previously when learning the Logistic Regression model and the Support vector Machines one, then applied also to the Bayes counterparts, also to the Neural Networks model. The results show that the Bayesian methods are well suited to the classification task they are as good as their counterparts, some times better. While the Support Vectors Machine and Neural Networks are still the best all around, the Bayesian approach can have comparable performance, and, makes a good approximate to the traditional method's power. The results were Logistic Regression has the lowest performance of the methods for classification, then Naive Bayes, next Bayesian networks, finally Support Vector Machines and Neural Networks are the best.
  • Hyvönen, Ville (2015)
    Efficient nearest neighbor search in high dimensional spaces is a problem that has numerous practical applications in the fields of statistics and machine learning, for example in robotics, computer vision, and natural language processing. In this thesis a multiple random projection trees (MRPT) algorithm for fast approximate nearest neighbor search is proposed. It is based on a variant of space partitioning trees called random projection trees (RP-trees). Both the pseudocode of the algorithm and the actual R and C++ implementations are presented. The space and time complexity of the algorithm are analyzed. The efficiency of the algorithm is demonstrated experimentally by comparing both to the basic linear search, and to another approach of using RP-tree in approximate nearest neighbor search with moderately high-dimensional image and word frequency data sets. Different split criteria are compared experimentally, and the optimal choice of tuning parameters of the algorithm is discussed both in theory, and demonstrated in practice with benchmark data sets.
  • Tuominen, Samuli (2018)
    Modern day technology and computational power have allowed a large scale investigation of the human epigenome. Out of the epigenetic modifications, DNA methylation is of particular interest, since it is relatively easy to measure and very common in the DNA. A methylation site is a region of the DNA sequence that shows variation in the DNA methylation between individuals. Epigenome-wide association studies (EWAS) examine the interaction between these methylation sites one at a time and a specific human trait or an enviromental exposure. EWAS studies are, however, limited by low statistical power and problems related to multiple testing. To counter these issues, polygenic methylation scores have been developed to aggregate information over many methylation sites. These scores have two main applications. First is to formulate new hypotheses to explain human trait variation. Second one is to indicate unobserved environmental factors in cohort based studies or to predict individual developmental or disorder related outcomes. At the beginning of this thesis there is an introduction to epigenetics, to EWAS and polygenic methylation scores and to their genetic counterparts, genome-wide association studies (GWAS) and polygenic risk scores (PRS). Much of the methodology relating to the methylation scores is borrowed from GWAS and PRS. Some statistical properties of the methylation scores are derived in this thesis with focus on how the statistical power of detecting true association between a phenotype and human DNA methylation depends on the make up of the methylation scores. The theoretical derivations are tested through simulations. This thesis also examines how methylation scores may be calculated in practice using cross-validation and correlation reduction procedure called clumping. The methodology is applied to a Finnish cohort from the prediction and prevention of preeclampsia and intrauterine growth restriction study (Predo). The comparison of theoretical and observed statistical power in the simulations show that the theoretical and observed power correspond well to each other. In the practical analyses conducted using the DNA methylation data set and phenotype data of the Predo cohort and a maternal body-mass index (BMI) EWAS data, a clear piece of evidence of association of maternal pre-pregnancy BMI and offspring DNA methylation is found. The results support the growing evidence for the applicability of methylation scores in indicating prenatal environmental factors from the DNA methylation of the offspring.
  • Benner, Christian (2013)
    Background. DNA microarrays measure the expression levels of tens of thousands of genes simultaneously. Some differentially expressed genes may be useful as markers for the diagnosis of diseases. Available statistical tests examine genes individually, which causes challenges due to multiple testing and variance estimation. In this Master's thesis, Bayesian confirmatory factor analysis (CFA) is proposed as a novel approach for the detection of differential gene expression. Methods. The factor scores represent summary measures that combine the expression levels from biological samples under the same condition. Differential gene expression is assessed by utilizing their distributional assumptions. A mean-field variational Bayesian approximation is employed for computationally fast estimation. Results. Its estimation performance is equal to Gibbs sampling. Point estimation errors of model parameters decrease with increasing number of variables. However, mean centering of the data matrix and standardization of factor scores resulted in an inflation of the false positive rate. Conclusion. Avoiding mean centering and revision of the CFA model is required so that location parameters of factor score distributions can be estimated. The utility of CFA for the detection of differential gene expression needs also to be confirmed by a comparison with different statistical procedures to benchmark its false positive rate and statistical power.
  • Peussa, Aleksandr (2016)
    The major concern of lenders is to answer the next question: 'Who we lend to?' Until 1970s the traditional schema was used to answer this question. Traditional credit assessment relied on 'gut feel', which means that a bank clerk or manager analyses a borrower's character, collateral and ability to repay. Also, some recommendations from the borrower's employer or previous lender are used. The alternative approach is credit scoring, which is a new way to approach a customer. Credit scoring is one of the most successful applications of statistics in finance and banking industry today. It lowers the cost and time of application processing and gives flexibility in making trade off between risk and sales for financial institution. Credit scorecards are essential instruments in credit scoring. They are based on the past performance of customers with characteristics similar to a new customer. So, the purpose of a credit scorecard is to predict risk, not to explain reasons behind it. The purpose of this work is to review credit scoring and its applications both theoretically and empirically, and to end up with the best combination of variables used for default risk forecasting. The first part of the thesis is focused on theoretical aspects of credit scoring - statistical method for scorecard estimation and measuring scorecard's performance. Firstly, I explain the definition of the scorecard and underlying terminology. Then I review the general approaches for scorecard estimation and demonstrate that logistic regression is the most appropriate approach. Next, I describe methods used for measuring the performance of the estimated scorecard and show that scoring systems would be ranked in the same order of discriminatory power regardless the measure used. The goal of the second part is empirical analysis, where I apply the theoretical background discussed in the first part of the master's thesis to a data set from a consumer credit bank, which includes variables obtained from the application forms and from credit bureau data, and extracted from social security numbers. The major finding of the thesis is that that the estimated statistical model is found to perform much better than a non-statistical model based on rational expectations and managers' experience. This means that banks and financial institutions should benefit from the introduction of the statistical approach employed in the thesis.
  • Siljander, Ilona (2016)
    The purpose of this thesis is to study the cumulative probability of a false-positive (FP) test result during the Finnish 20-year breast cancer screening program. This study is based on breast cancer screening data provided by the Mass Screening Registry of the Finnish Cancer Registry, which consists of women aged 50–51 years at the time of their first invitation to mammography screening in 1992–1995. Generalized estimating equations (GEE) are used to estimate the cumulative probability of a FP screening result. In the theoretical part we present the corresponding theory together with reviewing the theory of generalized linear models (GLM). The cumulative probabilities are calculated from the modeling of individual examinations by using the theory and formulas of conditional probability. The confidence intervals (Cl) are calculated by using Monte Carlo simulation relying on the asymptotic properties of the GEE estimates. The estimated cumulative risk of at least one FP during the screening program was 15.84% (95% Cl: 15.49–16.18%). Previous FP findings increased the risk of (another) FP results with an odds ratio (OR) of 1.91 (95% Cl: 1.78–2.04), and OR 3.09 (95% Cl: 2.49–3.83) for one or more previous FP results, respectively. Irregular screening attendance increased the risk of FP results with an OR of 1.46 (95% Cl: 1.37–1.56).
  • Sandoval Zárate, América Andrea (2015)
    Personalised medicine involves the use of individual information to determine the best medical treatment. Such information include the historical health records of the patient. In this thesis, the records used are part of the Finnish Hospital Discharge Register. This information is utilized to identify disease trajectories for individuals for the FINRISK cohorts. The techniques usually implemented to analyse longitudinal register data use Markov chains because of their capability to capture temporal relations. In this thesis a first order Markov chain is used to feed the MCL algorithm that identifies disease trajectories. These trajectories highlight the most prevalent diseases in the Finnish population: circulatory diseases, neoplasms and musculoskeletal disorders. Also, they defined high level interactions between other diseases, some of them showing an agreement with physiological interactions widely studied. For example, circulatory diseases and their thoroughly studied association with symptoms from the metabolic syndrome.
  • Leinikka, Jussi (2018)
    Mobiililiittymien käyttö on muuttunut viimeisen puolen vuosikymmenen aikana huomattavasti mobiilidatan käytön kasvaessa merkittävästi ja ala on edelleen jatkuvassa murroksessa. Tällaisessa muuttuvan markkinan tilanteessa on tärkeää niin markkinaviranomaisille kuin alan yrityksillekin ymmärtää kuluttajien mielipiteitä ja toimintaa. Tässä tutkielmassa selvitetään kuluttajatyytymättömyyteen sekä operaattorin vaihtoon vaikuttavia tekijöitä mobiiliviestintäalalla Pohjoismaissa. Tekijöiden selvittämiseen käytetään logistista regressiomallia suurimman uskottavuuden estimoinnilla ja tulokset varmennetaan Exact logistisella regressiomallilla aineiston vinoumasta johtuen. Tutkielman aineistona käytetään Euroopan Komission keräämää eri toimialoihin liittyvää kyselyaineistoa. Taustateorian osalta tutkielmassa syvennytään kuluttajatyytymättömyyden käsitteeseen sekä tyytymättömän kuluttajan toimintamahdollisuuksiin. Kuluttajatyytymättömyyttä havaittiin kasvattavan mobiililiittymän kanssa koetut ongelmatilanteet sekä vastaajan matala luottamus alan toimijoihin ja vähentävän vastaajan suomalaisuus sekä erittäin hyvä taloudellinen tilanne. Operaattorin vaihdon todennäköisyyttä havaittiin kasvattavan mobiililiittymän kanssa koettujen ongelmatilanteiden aiheuttama aineellinen tai henkinen suuri haitta sekä Tanska vastaajan kotimaana. Vaihdon todennäköisyyttä laski Ruotsi vastaajan kotimaana ja internetin harva käyttö. Tulokset olivat yhdensuuntaisia molemmilla estimointimenetelmillä kummassakin mallinnuskohteessa.
  • Virolainen, Savi (2018)
    Erityisesti taloudellisissa ilmiöissä sekä niitä kuvaavissa aikasarjoissa esiintyy usein vaihtelua eri tilojen välillä, esimerkiksi markkinoiden vakauden heilahtelun aiheuttamana. Eri tilojen välillä vaihtelua selittämään kykeneviä aikasarjamalleja ovat muun muassa autoregressiiviset sekoitusmallit. Tällaisia ovat esimerkiksi GMAR-malli (Gaussian Mixture Autoregressive) ja StMAR-malli (Student's t Mixture Autoregressive), joihin perustuen tutkielmassa esitetään molempien piirteitä hyödyntävä G-StMAR-malli (Gaussian and Student's t Mixture Autoregressive). Autoregressiiviset sekoitusmallit voidaan ajatella kokoelmaksi lineaarisia autoregressiivisiä malleja, joista kutakin kutsutaan mallin komponentiksi. Kunkin komponentin ajatellaan kuvaavan kutakin ilmiössä esiintyvää tilaa. GMAR-mallissa komponenttien oletetaan olevan normaalisia autoregressiivisiä prosesseja, kun taas StMAR-mallissa ne ovat t-jakaumaan perustuvia, ehdollisesti heteroskedastisia autoregressiivisiä prosesseja. StMAR-mallin komponenttien ehdollisen varianssin riippuvuus samoista parametreista kuin ehdollinen odotusarvo voi kuitenkin olla rajoittava tekijä tapauksissa, joissa komponenttikohtainen ehdollinen odotusarvo on vahva, mutta ehdollinen varianssi heikko. Tästä syystä StMAR-malli yleistetään tutkielmassa G-StMAR-malliksi sallimalla osan sen komponenteista perustuvan GMAR-mallin käyttämiin normaalisiin autoregressiivisiin prosesseihin, joissa ehdollisen varianssin oletetaan olevan vakio. Tutkielmassa esitellään GMAR-malli ja StMAR-malli, ja määritellään niiden pohjalta G-StMAR-malli. Lisäksi osoitetaan, että GMAR-mallin ja StMAR-mallin houkuttelevat teoreettiset ominaisuudet, kuten ergodisuus ja stationaarisen jakauman tunteminen, periytyvät ilmeisellä tavalla myös G-StMAR-mallille. Mallien esittelemisen jälkeen tutkielmassa kerrotaan lyhyesti, kuinka esitetyt mallit voidaan estimoida kaksivaiheista menetelmää käyttäen, miten malleille voidaan valita sopivat asteet, kuinka kvantiiliresiduaaleja voidaan hyödyntää mallin sopivuuden tarkastelemisessa ja miten taustalla olevan prosessin tulevia havaintoja voidaan ennustaa simulaatiomenettelyllä. Tutkielman empiirisessä osiossa tutkitaan, millaisiksi G-StMAR-mallin parametrit estimoituvat pohjana olevaan StMAR-malliin verrattuna, ja lisäksi mallien ennustetarkkuuksia vertaillaan toisiinsa. Esimerkkiaineistona käytetään Standard & Poor's 500 osakemarkkinaindeksin päivittäistä volatiliteettia kuvaavaa, ajanjakson 3.1.2000-20.5.2016 kattavaa aikasarjaa. Tutkielman tulosten perusteella StMAR- ja G-StMAR-mallien ennustetarkkuuksien välillä ei voida sanoa olevan juurikaan eroa, mutta joissakin tapauksissa voidaan G-StMAR-malliin siirtymällä välttää StMAR-mallin parametrien estimaatteja koskevia ongelmia.
  • Karttunen, Henri (2015)
    Aikasarjoissa ilmenevien ei-normaalisten piirteiden mallintamiseen voidaan käyttää epälineaarisia aikasarjamalleja, joista erityisesti tutkielmassa tarkastellaan autoregressiivisia sekoitusmalleja. Autoregressiiviset sekoitusmallit määritellään sekoituksena lineaarisista autoregressiivisista malleista ja erona eri sekoitusmallien välillä on niiden sekoitussuhteiden määrittely. Autoregressiivisella GMAR (Gaussian Mixture Autoregressive)-sekoitusmallilla on houkuttelevia teoreettisia ominaisuuksia, sillä sen stationaarinen jakauma tunnetaan ja sen stationaarisuusehto ja ergodisuus voidaan johtaa ilman lisärajoituksia parametreille. Kuitenkin sekoitussuhteiden monimutkaisesta määrittelystä johtuen sen parametrien estimointi käyttäen kirjallisuudessa usein käytettyä EM-algoritmia on hankalaa. Tästä syystä tutkielmassa selvitetään mahdollisuutta käyttää parametrien estimoinnissa kaksivaiheista menetelmää, jossa geneettisen algoritmin avulla etsitään alkuarvoja gradienttiperusteiselle optimointialgoritmille. Parametrien estimoinnin lisäksi tutkielmassa tarkastellaan mallinvalintaa osana estimointiprosessia. Tarkasteltavia työkaluja sopivan mallin etsinnässä ovat informaatiokriteerit sekä erilaiset kvantiiliresiduaaleihin perustuvat testit, joiden avulla voidaan tehdä mallidiagnostiikkaa tavallisten residuaalien tapaan myös silloin, kun tavallisia residuaaleja ei voida käyttää. Lisäksi tarkastellaan ennusteiden laskemista simulaatioiden avulla ja esitetään miten GMAR-mallia voidaan simuloida. Tutkielman empiirisessä osassa tarkastellaan kahta esimerkkiä, joista ensimmäisessä keskitytään estimointiin, mallinvalitaan ja diagnostiikkaan. Tässä esimerkissä aineistona käytetään yhdysvaltain kuukausittaista inflaatiota vuodesta 1975 vuoteen 2015. Toisessa empiirisessä esimerkissä tarkastellaan tuulen nopeuksia päivittäisen aineiston avulla ja keskitytään erityisesti ennusteiden laskemiseen. Tuulen nopeutta mittaava aineisto on ei-negatiivinen aikasarja ja siksi esimerkissä tarkastellaan estimointia logaritmoidun sarjan avulla ja alkuperäisen sarjan ennustamista. Tutkielman tulosten perusteella kaksivaiheinen estimointi käyttäen geneettistä algoritmia toimii GMAR-mallin tapauksessa hyvin ja kohtuullisessa ajassa.
  • Hakala, Jani (2018)
    Tutkielman tavoitteena on luoda lineaarisen regressioanalyysin avulla hinnoittelumalli helsinkiläisille kerrostaloasunnoille, minkä avulla pyritään selvittämään asuntojen hinnanmuodostukseen vaikuttavia tekijöitä ja niiden vaikutusten suuruutta. Tutkielman alussa kuvataan asuntomarkkinoita Suomessa keskittyen erityisesti hinnanmuodostukseen mahdollisesti vaikuttaviin tekijöihin. Teoriaosiossa käsitellään lineaarista regressioanalyysiä, jota voidaan käyttää yhden selitettävän muuttujan ja yhden tai usean selittävän muuttujan välisen lineaarisen yhteyden mallintamiseen ja selittämiseen. Tutkielman empiiristä osiota varten on poimittu aineisto Kiinteistönvälitysalan Keskusliitto ry:n KVKL HSP -hintaseurantapalvelusta. Palvelusta löytyy suomalaisten kiinteistönvälittäjien tekemät asuntokaupat sisältäen yksityiskohtaista tietoa myydyistä asunnoista. Aineistoksi rajattiin tammikuun 2016 ja elokuun 2017 välillä tapahtuneet helsinkiläiset kerrostaloasuntokaupat. Lisäksi aineistoa on rikastettu lisäämällä kohteiden sijaintikoordinaatit avoindata.fi -palvelusta, mistä löytyy Väestönrekisterikeskuksen ylläpitämät tiedot, sekä R-ohjelmiston avulla laskettu erilaisia matka-aikoja ja -pituuksia kohteista keskustaan hyödyntäen Google Maps -karttapalvelun ohjelmointirajapintaa. Tutkielmassa muodostetaan pienimmän neliösumman menetelmällä yhteensä kolme eri estimointimallia, joiden avulla kuvataan ja selitetään eri ominaisuustekijöiden vaikutuksia asunnon hintaan. Mallit kuvaavat niissä olevien yksittäisten selittäjien arvojen vaihtelun vaikutusta, kun muiden selittäjien vaikutus on vakioitu. Tutkielmassa onnistuttiin selittämään asuntojen hinnanmuodostusta melko tarkasti. Saadut tulokset ovat odotetun suuntaisia suhteessa taustateoriaan, ja niiden perusteella helsinkiläiset kerrostaloasunnot ovat hyvin moniuloitteisia hyödykkeitä, joiden hinnat määräytyvät useiden hintatekijöiden yhteisvaikutuksen perusteella. Tutkielman tuloksissa näkyi lisäksi selvästi asuntomarkkinoiden suhdanteen nousukehitys.
  • Lilja, Eero (2018)
    Lasten asumis- ja huoltoriitoja on Suomessa tutkittu toistaiseksi vähän. Tutkielmaa varten on kerätty 593 havainnon aineisto pääkaupunkiseudun käräjäoikeuksien ratkaisemista vuosina 2004-2013 vireille tulleista riidoista. Tutkielmassa mallinnetaan huolto- ja asumisriidan voittajaa ja selvennetään isien ja äitien voittotodennäköisyyksien eroa aiempia tutkimuksia suuremman otoskoon avulla. Vastemuuttuja on luotu viisiportaisesti äidin ja isän voitoista, osittaisista voitoista ja tasapeleistä. Voittajaa tutkitaan erilaisilla osuustesteillä suhteessa taustamuuttujiin. Lisäksi mallinnetaan voittajaa logistisen regressionalyysin avulla, jossa vanhempien ikätietojen puuttuvat havainnot on impuitoitu. Voittajaa parhaiten ennustavan mallin valinnassa käytetään Bayesin informaatiokriteeriä. Havainnoista joka toisessa ei riidellä lapsen asumisesta, vaan riita koskee vain huoltomuotoa. Huolto- ja asumisriitoja analysoidaan pääsääntöisesti erikseen. Lasten asuminen muuttui lähes joka toisessa asumisriidassa. Valtaosassa huoltoriidoista äidit vaativat yksinhuoltoa ja isät yhteishuoltoa mutta suostuvat lasten asumiseen äidillä. Yksinhuolto määrättiin joka kolmannessa huoltoriidassa. Äidit voittivat useammin sekä asumis- että huoltoriidat. Informaatiokriteerin valitsemassa asumisriitamallissa oli selittävinä tekijöinä nuorimman lapsen ikä, tuomarin sukupuoli, lapsen vakiintunut tilanne, isän ulkomaalaistaustaisuus sekä toteennäytetty syytös väkivallasta, päihteistä tai mielenterveysongelmista. Huoltoriitamallissa tärkeimmiksi selittäjiksi nousivat ulkomaalaistaustaisuuden ja toteennäytettyjen syytösten lisäksi lisäksi syytökset vieraannuttamisesta ja mielenterveysongelmista sekä aiempi oikeuden päätös, joka heikensi isien voittotodenäköisyyttä. Äidit voittivat asumisriidan useammin, kun nuorin lapsi oli alle 7-vuotias. Isät voittivat todenn äköisemmin, kun nuorin lapsi oli yli 12-vuotias. Asumisriidoissa äidit voittivat selkeästi useammin miestuomarien ratkaisemat riidat, mutta vain hieman useammin naistuomarien ratkaisemat riidat. Lähivanhempi oli etulyöntiasemassa riippumatta siitä, oliko tämä isä vai äiti. Ulkomaalaistaustaiset isät voittivat riidan harvoin, mutta kantasuomalaisten välisissä riidoissa äidit ja isät voittivat riidan yhtä usein. Molemmat vanhemmat voittivat riidan lähes aina, kun heidän esittämänsä syytös väkivallasta, päihteistä tai mielenterveysongelmista oli näytetty toteen. Logistisessa regressioanalyysissä taustamuuttujat selittävät vastemuuttujan vaihtelusta noin kolmanneksen. Saatujen tulosten vahvistamiseksi olisi jatkotutkimuksissa syytä käyttää suurempaa aineistoa sekä saada kattavammin taustamuuttujia esimerkiksi väestörekisterien avulla.
  • Ryynänen, Heidi (2016)
    Väestölähtöisessä epidemiologiassa ollaan kiinnostuneita iän, periodin ja kohortin vaikutuksesta tarkasteltavaan tapahtumaan tai ilmiöön. Ikä-periodi-kohortti-ilmaantuvuusmalliin liittyy identifioitavuusongelma, mikä tarkoittaa sitä, että iän, kalenteriajan ja syntymäkohortin parametreja ei saada estimoitua perinteisellä päävaikutuksiin perustuvalla Poisson-regressiolla. Perinteinen frekventistinen identifioitavuusongelman ratkaisutapa on jättää pois kohortti, mutta tämä saattaa kuitenkin johtaa harhaiseen malliin. Toinen perinteinen ja usein käytetty frekventistinen identifoitavuusongelman ratkaisutapa on asettaa parametreille rajoituksia. Eri rajoitteet voivat kuitenkin tuottaa hyvin erilaisia estimaatteja iälle, periodille ja kohortille, joten tämä lähestymistapa ei ole ongelmaton. Bayesiläisessä lähestymistavassa sen sijaan ei tarvita lisärajoituksia, mikäli käytetään heikosti informatiivisia priorijakaumia. Bayesiläisessä lähestymistavassa päättely tehdään posteriorijakaumasta. Laskennallisesti tehokas menetelmä posteriorijakauman tunnuslukujen selvittämiseksi on integroitu upotettu Laplacen approksimaatio, sillä se on nopea ja riittävän tarkka. Rinta- ja kivessyövän analyysi toteutetaankin täten käyttäen integroitua upotettua Laplacen approksimaatiota. Priorijakaumina käytetään ensimmäisen ja toisen asteen satunnaiskävelypriorijakaumia. Hyperpriorijakaumina käytetään gamma-jakaumia eri parametrivalinnoin. Rintasyöpää ja kivessyöpää koskeva aineisto on saatu Suomen Syöpärekisteristä ja se kattaa vuodet 1971-2013. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta naisten rintasyövän sairastumisen vaaraan. Myöhemmillä ikäryhmillä rintasyövän ilmaantuvuus on suurta verrattuna ensimmäisiin ikäryhmiin. Myöhemmillä periodeilla riskisuhteet ovat suuria verrattuna ensimmäisiin periodeihin. Keskimääräinen periodivaikutus on 1.024, eli yhden kalenterivuoden lisäys kasvattaa naisten rintasyövän ilmaantuvuutta 2.4 % (Bayes-luottamusväli: 2.1 %, 2.6 %). Sen sijaan myöhemmillä kohorteilla riskisuhteet ovat pieniä verrattuna ensimmäisiin kohortteihin. Kohorttien riskisuhteissa on kuitenkin keskivaiheilla kohouma, jonka huippu osuu vuosina 1942-1946 syntyneiden naisten kohdalle. Rintasyövän kohdalla kaikissa malleissa tulokset ovat samansuuntaisia. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta kivessyöpävaaraan. Kivessyöpä on erityisesti nuorten miesten syöpä. Kivessyövän ilmaantuvuus on suurinta ikäryhmän 30-34 kohdalla. Myöhemmillä periodeilla on suuremmat riskisuhteet verrattuna aikaisempiin periodeihin. Keskimääräinen periodivaikutus on 1.025, joten yhden kalenterivuoden lisäys kasvattaa kivessyövän ilmaantuvuutta 2.5 % (Bayes-luottamusväli: 1.0%, 3.9 %). Kohorttien riskisuhteet laskevat ensimmäisestä kohortista kohorttiin 1957-1961 ja nousevat tämän jälkeen kohorttiin 1977-1981 asti, minkä jälkeen kohorttien riskisuhteet taas pienenevät. Rintasyöpä on naisten yleisin syöpä, ja syöpätapausten suuren määrän takia priorijakaumien ja hyperpriorijakaumien valinnalla ei ole kovin suurta vaikutusta rintasyövän tuloksiin. Kivessyöpä sen sijaan on harvinainen syöpä, joten priorijakaumien ja hyperpriorijakaumien valinnalla on melko suuri vaikutus kivessyövän tuloksiin. Erityisesti kivessyövän kohdalla eri malleissa on eroja periodin ja kohortin vaikutuksissa. Kun on kysessä mallit, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, periodilla on vähemmän vaikutusta kuin malleissa, joissa on toisen asteen satunnaiskävelypriorijakaumat. Toisaalta malleissa, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, kohortilla on enemmän vaikutusta kuin malleissa, joissa on toisen asteen satun-naiskävelypriorijakaumat. Toteutetun Bayes-mallinnuksen avulla voidaan arvioida aikaisempaa luotettavammin myös harvinaisten syöpien ikä-periodi-kohortti-malleja. Lisäksi Bayes-luottamusväleissä on tuotu parametrien epävarmuus paremmin mukaan kuin frekventistisellä lähestymistavalla.
  • Peltonen, Pauliina Maria (2013)
    Tutkielmassa vertaillaan pienalue-estimointimenetelmien toimivuutta Tilastokeskuksen Kulutustutkimus 2006 -aineistossa. Vertailussa on mukana asetelmaperusteinen Hájek-estimaattori, asetelmaperusteinen malliavusteinen GREG-estimaattori sekä malliperusteinen EBLUP-estimaattori. Vertailu suoritetaan eri aluejaotteluilla (maakunta, seutukunta, kunta), jolloin tutkittavaksi tulee hyvin erikokoisia alueita. Kuntatasolla muutamista kunnista ei ole yhtään havaintoa aineistossa. Malliavusteiset ja -perusteiset pienalue-estimointimenetelmät vaativat hyvän, koko perusjoukon kattavan lisäinformaation saatavuutta. Lisäinformaatioksi tulee valita sellaisia muuttujia, jotka korreloivat mahdollisimman voimakkaasti valitun tulosmuuttujan kanssa, mutta jotka eivät korreloi keskenään (multikollineaarisuus). Lisäinformaation käytöllä havaitaan olevan merkittävä rooli pienalue-estimaattien täsmällisyyden parantamisessa. Asetelmaperusteiset estimaattorit ovat hyvin tehottomia menetelmiä pienten osajoukkojen tapauksessa. Tällöin sekä Hájek- että GREG-estimaattorit tuottavat estimaatteja, joiden keskivirhe on hyvin suuri. Malliperusteinen EBLUP-estimaattori sen sijaan on hyvin täsmällinen osajoukon koosta riippumatta. Tutkielmassa vertaillaan yleisen tason vertailun lisäksi myös analyyttisiä ja bootstrap-menetelmällä laskettuja estimaatteja sekä niiden estimoituja keskivirheitä. Tuloksista havaitaan, että EBLUP-menetelmän tuottamat analyyttiset keskivirhe-estimaatit ovat aivan liian optimistisia (kuntatasolla bootstrap-menetelmän tuottamat keskivirhe-estimaatit ovat keskimäärin 80 % suurempia kuin analyyttiset keskivirhe-estimaatit). Hájek- ja GREG-menetelmien osalta analyyttisten ja bootstrap-keskivirheiden vastaavuus on ilmeinen. EBLUP-estimaattorin osalta testattiin myös painokertoimien vaikutusta estimaatin keskivirheeseen. Vertailusta havaittiin, että painokertoimet kasvattavat estimaatin keskivirhettä varsinkin pienissä osajoukoissa. Painokertoimien huomioiminen kuitenkin parantaa tulosten yleistettävyyttä perusjoukon tasolle. Tutkielman lopuksi keskityttiin enemmän estimoitavaksi valitun indikaattorin sisältöön, ja visualisoitiin estimoituja tuloksia Statistics Explorer -ohjelmistolla. Indikaattorina käytettiin terveyskeskuspalveluista saatuja etuuksia, josta ensin estimoitiin kuntakohtaiset vuosikeskiarvot kotitaloutta kohti. Saatuja keskiarvoestimaatteja verrattiin kuntakohtaiseen sairastavuusindeksiin, jotta saaduista tuloksista voitaisiin tehdä jonkinlaisia johtopäätöksiä. Analyysia jatkettiin siten, että estimoitiin kuntakohtaiset etuustotaalit ja suhteutettiin ne kunnan perusterveydenhuollon toimintamenoihin. Tämän suhteen ajatellaan kuvastavan sitä, kuinka monikertaisina kunnan perusterveydenhuoltoon käyttämät menot palautuvat asukkaille etuuksina.
  • Pohjanpää, Kirsti (2012)
    Merkittävä osa länsimaisesta yhteiskunnallisesta tutkimuksesta ja tilastoinnista perustuu survey-tutkimuksiin. Jokainen otokseen valituksi tullut ei kuitenkaan syystä tai toisesta anna vastauksia tutkimuskysymyksiin. Vastauskato heikentää tutkimusaineiston laatua ja kasvattaa saatujen estimaattien virhettä. Tutkimus tehtiin, koska oltiin huolestuneita survey-tutkimusten kato-osuuksien kasvamisesta ja vastauskadon vaikutuksista tutkimusten laatuun. Tutkimuksella haluttiin selvittää (a) keitä ovat ne, joita emme tutkimuksilla saa kiinni, ja (b) vastaavatko tutkimuksiin osallistumattomat samalla tapaa kuin osallistuneet. Selvitys tehtiin lähettämällä osalle aikuiskoulutustutkimuksesta vuonna 2006 poisjääneille uusi kontaktipyyntö tasan vuoden kuluttua. Näin syntyi AKU-laatutututkimus. Tiedot kerättiin käynti- ja puhelinhaastatteluin keväällä 2007. Myös laatututkimuksesta kieltäytyneille esitettiin (jos mahdollista) muutama kysymys koskien tutkimuksiin osallistumista (ns. katohaastattelu). Tutkimuksen keskeisin tulos on, että jo kertaalleen tutkimuksesta suorasti tai epäsuorasti kieltäytyneitä voidaan lähestyä uudestaan hyvinkin onnistuneesti: 59 prosenttia suostui yhteistyöhön uuden kontaktin myötä. Lisäksi osoittautui, etteivät vastaamattomat juurikaan poikenneet vastanneista taustansa ja aikuiskoulutukseen osallistumisen suhteen. Laatututkimuksen tulokset eivät tue ajatusta vastauskatoon jääneiden huonommasta yhteiskunnallisesta asemasta. Lisäksi laatututkimukseen mukaan saadut ja siis vuotta aikaisemmin vastauskatoon kuuluneet suhtautuivat survey-tutkimukseen positiivisesti. Tutkimus kuuluu survey-tutkimuskenttään, ja se tuo lisää tietoa survey-tutkimuksissa pimentoon jäävästä joukosta: tutkimuskatoon kuuluvista.
  • Hautakangas, Heidi (2018)
    To better understand biology of complex traits, quantifying the contribution of different genetic factors is essential. Heritability is a population parameter that estimates the proportion of phenotypic variance explained by genetic factors. A recent goal in statistical genetics has been to estimate heritability from genome-wide association study (GWAS) data. GWAS have shown that a large number of genetic variants with small effects together affect complex traits. Because the individual effects are so small, a challenge of the GWAS is to achieve enough statistical power to detect the true associations. Statistical power has been increased by increasing the GWAS sample size, typically by a meta-analysis. In a meta-analysis, summary association statistics from multiple study cohorts are jointly analysed, and therefore it is often impossible to get access to the original individual-level data underlying the meta-analysis. In this thesis, I will study linkage disequilibrium score regression (LDSC), that estimates heritability by regressing GWAS summary statistics on linkage disequilibrium (LD) scores, that measure how much genetic variation each variant tags. Importantly, LD Scores can be estimated from a reference panel without requiring any individual-level data. Furthermore, I will study stratified LD Score regression (S-LDSC), that is an extension of LDSC for partitioning heritability by functional annotations. This thesis has three aims. First, to explain the statistics behind LDSC. Second, to evaluate the effect of LD reference panel on heritability estimation of lipid levels in the Finnish population by comparing an in-sample LD reference panel to external LD reference panels. Third, to partition the heritability of lipid levels in the Finnish population by functional annotations using S-LDSC. I applied LDSC and S-LDSC to the National FINRISK Study and used four lipid levels as quantitative phenotypes: high-density lipoprotein cholesterol (HDL-C), low-density lipoprotein cholesterol (LDL-C), triglycerides (TG) and total cholesterol (TC). As results, I observed that LDSC was robust to the choice of LD reference panel when applied to the Finnish population. Heritability estimates were consistent between different LD reference panels regardless of the LD mismatch. The highest heritability point estimates and the lowest point estimates of confounding biases were produced by the Finnish specific panels, though the differences were not statistically significant. In the heritability enrichment analyses, I replicated several previous findings: for example, I observed enriched heritability for many histone marks in all four lipid traits and enriched heritability for super enhancers for HDL-C, TC and TG.
  • Lääperi, Mitja (2015)
    Coronary heart disease (CHD) is one of the leading causes of death worldwide. Linear mixed models (LMMs) are presented in this thesis and they are applied to family data from the European Multicenter Study on Familial Dyslipidemias in Patients with Premature Coronary Heart Disease (EUFAM) -project. The data contain 23 quantitative traits relating to risk of CHD and roughly 28 million genetic variants. The data consist of nearly 1600 individuals from around 150 families. Linear mixed models are used when the data contain clustering or repeated measurements. In other words, when the observations are dependent. In the EUFAM data the observations come from families. In this case, the linear mixed models take the relatedness of the individuals into account. Linear mixed models are applied for both heritability estimation and genome-wide association testing in this thesis. Both in simulations and in the analyses with the EUFAM-data the need for LMMs can be seen. The LMM has more statistical power than the standard linear model when heritability exists in the data. The standard linear model also has inflated type I error rate. Both of these occur because the standard linear model does not take the relatedness of the individuals into account. For example, in the genome-wide analysis done for the EUFAM-data the standard linear model gives a massive amount of false positives when compared to the linear mixed model. The thesis proves the usefulness of and need for linear mixed models when analyzing family data.
  • Huang, Zhiyong (2012)
    In this master's thesis we present two important classes of regularized linear models -regularized least squares regression (LS) and regularized least absolute deviation (LAD). Use of regularized regression in variable selection was pioneered by Tibshirani (1996) and his proposed LASSO rapidly became a popular and competitive method in variable selection. Properties of LASSO have been intensively studied and different algorithms to solve LASSO have been developed. While the success of LASSO was acclaimed during the process, its limitations were noticed and a number of alternative methods have been proposed in subsequent research. Among all of theses methods, adaptive LASSO (Zou, 2006) and SCAD (Fan and Li, 2001) attempt to improve the efficiency of LASSO; LAD LASSO (Wang et al., 2007) assumes non-Gaussian distributed errors; ridge, elastic net (Zou and Hastie, 2005) and Bridge (Frank and Friedman, 1993) adopt penalties other than L1; while fused LASSO (Tibshirani et al., 2005) and grouped LASSO (Yuan and Lin, 2006) take extra constrains of data into account. We discuss LASSO in length in the thesis. Its properties in orthogonal design, singular design and p > n design are examined. Its asymptotic performance is investigated and its limitations are carefully illustrated. Another two commonly used regularization methods in LS - ridge and elastic net - are discussed as well. The regularized LAD is another focus of the thesis. As a robust statistic, LAD, which fits the conditional median rather than the conditional mean of the response, has a bounded influence function and a high conditional breakdown point. It is natural to use regularized LAD to do variable selection in presence of long-tailed errors or outliers in the response. Compared with LASSO, LAD LASSO does robust estimation and variable selection simultaneously. We make a simulation study and examine two real examples on the performance of these regularized linear models. Our results demonstrate that no single one estimate dominates others in all cases. The sparsity of the true model, the distribution of the noise, noise-to-signal ratio, the sample size and the correction of predictors, all these factors matter. When the noise has a normal distribution, LASSO, adaptive LASSO and elastic net often outperform others in prediction accuracy. Adaptive LASSO is the best in variable selection and elastic net tends to reveal less sparsity than LASSO. When the noise follows a Laplace distribution, LAD LASSO is competitive with LASSO but is less efficient than adaptive LASSO. For noises with extremely long-tailed distribution such as Cauchy distribution, LAD LASSO dominates others in both the prediction accuracy and variable selection.
  • Wallenius, Minna (2013)
    Tutkielman tavoitteena oli perehtyä avioeron todennäköisyyden tarkasteluun käytettyihin menetelmiin, tutkia millaisia tuloksia niillä saadaan suomalaisesta aineistosta ja arvioida niiden soveltuvuutta virallisiin tilastoihin. Virallisissa tilastoissa yleisesti käytetty eronneisuuden mittari on kokonaiseronneisuusluku, jonka on yleensä tulkittu kertovan kuinka suuri osa liitoista päättyisi eroon eronneisuuden pysyessä tarkasteluvuoden tasolla. Se ei kuitenkaan ole toimiva avioeron todennäköisyyden estimaatti. Luku ei huomioi aiempaa eroamishistoriaa, joten muutokset avioerojen ajoituksessa voivat vääristää lukua kohtuuttomasti. Kokonaiseronneisuusluvun perusteella puolet avioliitoista päättyisi Suomessa eroon. Siviilisäätyjen muutoksia voidaan ajatella prosessina, jossa henkilöt siirtyvät tilasta toiseen avioliittojen, avioerojen ja kuolemien takia. Tämän tyyppisiä ilmiöitä on tarkasteltu monen tilan elinajantauluilla, joissa keinotekoinen kohortti kuljetetaan eri ikävaiheiden läpi altistettuna tutkittavan ajanjakson ikäryhmittäisille siirtymien todennäköisyyksille. Tulosten tulkitaan kertovan mitä seuraisi, jos siirtymien todennäköisyydet pysyisivät kyseisen ajanjakson tasolla. Monitilaiset elinajantaulut ovat Markovin prosesseja, jos tilaan siirtymisen todennäköisyys riippuu vain sen hetkisestä tilasta ja iästä, muttei aiemmista tiloista eikä tilassa olon kestosta. Semi-Markov-prosesseissa myös nykyisessä tilassa vietetty aika vaikuttaa siirtymien todennäköisyyteen. Tutkielmassa verrataan avioliiton kestosta riippumatonta ja keston vaikutuksen huomioivaa mallia. Lisäksi tutkitaan ikäryhmittäin avioeron suhteellista riskiä liiton keston mukaan. Tutkielma rajoittuu naisten ensimmäisiin avioliittoihin ja niiden päättymiseen. Tulosten perusteella vuoden 2011 tilanteen pysyessä voimassa Suomessa naisten ensimmäisistä avioliitoista päättyisi eroon noin 39 prosenttia, jos oletetaan ettei liiton kestolla ole yhteyttä avioeron riskiin, ja hieman alle 41 prosenttia, jos keston merkitys huomioidaan. Avioeron suhteellinen riski käyttäytyy eri ikäryhmissä hieman eri tavoin, mutta on kaikissa korkea muutaman vuoden kestäneissä liitoissa. Tulokset ovat samansuuntaisia aiemman tutkimuksen kanssa. Avioliiton kesto on yhteydessä eron todennäköisyyteen, vaikka eroavaisuudet keston huomioivien ja siitä riippumattomien elinajantaulujen välillä eivät kaikissa tilanteissa ole suuria. Ikäryhmittäisten siirtymätodennäköisyyksien estimoinnissa käytettiin ns. lineaarisuusoletusta, joka voi tuottaa teoreettisesti mahdottomia arvoja, jos ryhmien keskimääräiset siirtymäintensiteetit ovat kovin suuria. Tässä tapauksessa näin kävi keston huomioivassa mallissa, jossa väestö ja siirtymät luokiteltiin moniin pieniin ryhmiin iän lisäksi avioliiton keston mukaan. Lineaarisuusoletusta käytetään sen heikkouksista huolimatta, koska sillä saadaan useimmiten mielekkäitä tuloksia ja se on helppo toteuttaa. Ilmeisistä puutteistaan huolimatta se tuotti tässäkin tapauksessa elinajantauluja, joista saatiin avioeron todennäköisyydelle järkeviä estimaatteja. Avioeron todennäköisyyttä onkin parempi estimoida monitilaisten elinajantaulujen avulla kokonaiseronneisuuslukujen sijasta.
  • Maunula, Nico (Helsingin yliopistoHelsingfors universitetUniversity of Helsinki, 2012)
    Pienalue-estimoinnilla tarkoitetaan erilaisten tunnuslukujen estimointia jonkin perusjoukon, eli populaation osajoukoille. Osajoukkoja on tavallisesti paljon, jolloin otoskoko pienenee. Nämä osajoukot voivat olla tyypiltään esim. maantieteellisiä tai sosiaalisia (esim. ikä-sukupuoli-rotu -ryhmittely). Pienalue-estimointimenetelmiä käytetään normaalisti aluetilastoihin ja otantaperusteisiin haastattelututkimuksiin. Tutkielmassani vertaillaan eri pienalue-estimointimenetelmien ominaisuuksien eroja teoreettisesti sekä soveltamalla kahteen eri aineistoon. Sovellettuja menetelmiä on kolme: otanta-asetelmaan perustuva HT-estimointi on yksinkertaisin ja karkein menetelmä, joka toimii vertailukohtana kahdelle muulle tilastollista mallia hyödyntävälle menetelmälle. GREG ja EBLUP -estimoinnit käyttävät erilaisia malleja tuomaan vahvaa lisäinformaatiota tehostamaan estimointia. Nämä menetelmät lainaavat voimaa , eli ne käyttävät hyödykseen myös muiden kuin tutkittavana olevan osajoukon alkioiden informaatiota. Ensimmäinen aineisto on synteettinen Länsi-Suomen läänin populaatiodata, johon menetelmiä sovelletaan simulatiivisesti. Data on monistettu koko populaatioksi oikeista havainnoista, joten kyseessä on siis fiktiivinen aineisto. Tulosmuuttujan (=kotitalouksien käytettävissä olevat tulot) oikeat arvot tunnetaan kaikilta perusjoukon havainnoilta, joka mahdollistaa menetelmien harhaisuuden tutkimisen. Tämä ei ole mahdollista oikealla otosaineistolla. Kaksi eri simulointitilannetta konstruoidaan: ensimmäisenä osajoukkomuuttujana on seutukunta, jolloin osajoukkoja on 36 kpl. Toisessa tilanteessa tutkitaan ikäryhmä-sukupuoli-seutukunta -jaottelua, jolloin osajoukkojen määrä kymmenkertaistuu ja otoskoot pienenevät dramaattisesti. Tarkastelussa ovat erityisesti estimaattorien suhteellinen harha ja keskineliövirhe (MSE) tuhannen simulaation yli. Tuloksista käy ilmi, että malliperusteinen EBLUP-estimaattori on erittäin harhainen, vaikkakin tarkka menetelmä (pieni MSE). Sen sijaan asetelmaperusteiset HT ja GREG -estimaattorit ovat likimain harhattomia, mutta epätarkkoja. Estimointi paranee, kun osajoukkojen otoskoko kasvaa. Tulokset tukevat teoriaa. Toinen data on empiirinen, oikean maailman aineisto; Tilastokeskukselta saatu EU-SILC -tutkimuksen Suomen otosaineisto vuodelta 2009. Aineisto kattaa vajaan 11 000 suomalaisen vastaukset erilaisiin hyvinvointi-, elinolo- ja tulokysymyksiin. Tutkittavaksi muuttujaksi valikoitui Tilastokeskuksen toiveesta ihmisten koettu toimeentulo, joka mittaa vastaajan subjektiivista näkemystä omasta toimeentulostaan (asteikolla 1-6). Tilastokeskuksen rekistereistä linkitettiin useita voimakkaita apumuuttujia aineistoon lisäinformaation lähteeksi. Estimaattoreiden keskivirheitä sekä tulosmuuttujan osajoukkokohtaisia keskiarvoja tutkitaan, vaikkakin koettua toimeentuloa ei tulkita ilmiönä. Osajoukkomuuttujina toimivat maakunta ja seutukunta. Tuloksista havaitaan samoja asioita, kuin simulatiivisessa tarkastelussa aiemmin; estimointi tehostuu, eli keskivirheet pienenevät, kun otoskoko kasvaa ja menetelmistä EBLUP on tarkin. Harhan vaara on kuitenkin muistettava EBLUP-estimaattorin kohdalla, vaikka sitä ei voidakaan laskea tässä tapauksessa. Tilastollisia malleja käyttävät menetelmät GREG, MGREG ja EBLUP ovat reilusti yksinkertaista HT-estimaattoria tarkempia. Vahvalla lisäinformaatiolla on siis selvä vaikutus estimoinnin parantumiseen. Lineaarisen sekamallin satunnaistermillä ei ole suurta vaikutusta estimointiin, sillä kiinteiden tekijöiden mallia käyttävä GREG ja sekamallia käyttävä MGREG ovat keskivirheitä tarkasteltaessa hyvin lähellä toisiaan. Myös tunnettujen osajoukkokokojen käyttöä tutkitaan ja käy ilmi, että tunnettuja osajoukkokokoja kannattaa hyödyntää estimoinnissa, mikäli mahdollista. Sovelluksissa onnistutaan tuottamaan mielenkiintoisia, pienalue-estimoinnin teoriaa tukevia tuloksia. Asetelmaperusteiset menetelmät (HT, GREG) ovat likimain harhattomia, mutta ovat epätarkkoja menetelmiä. Sen sijaan malliperusteiset menetelmät (EBLUP) ovat harhaisia, mutta tarkkoja menetelmiä. Voimaa lainaavien, epäsuorien estimaattoreiden avulla voidaan myös tuottaa estimaatteja osajoukoille, joissa ei ole yhtään havaintoa, joskin tulokset ovat luonnollisesti tällöin harhaisia. Parasta menetelmää ei voida yksiselitteisesti määrittää; toiset soveltuvat eri tilanteisiin paremmin kuin toiset. Täytyy myös tietää, millaisia tuloksia mieluummin halutaan; harhattomia vai tarkkoja. Yleisesti ottaen pienalue-estimointimenetelmät lisäävät otosaineistojen hyödyntämismahdollisuuksia ja ovat erinomaisia työkaluja alueellisten tunnuslukujen tuottamisessa.