Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Tilastotiede"

Sort by: Order: Results:

  • Alonso, Pedro (2015)
    The purpose of this thesis is to compare different classification methods, on the basis of the results for accuracy, precision and recall. The methods used are Logistic Regression (LR), Support Vector Machines (SVM), Neural Networks (NN), Naive Bayes(NB) and a full Bayesian network(BN). Each section describes one of the methods, including the main idea of the methods used, the explanation of each one, the intuition underpinning each method, and their application to simple data sets. The data used in this thesis comprises 3 different sets used previously when learning the Logistic Regression model and the Support vector Machines one, then applied also to the Bayes counterparts, also to the Neural Networks model. The results show that the Bayesian methods are well suited to the classification task they are as good as their counterparts, some times better. While the Support Vectors Machine and Neural Networks are still the best all around, the Bayesian approach can have comparable performance, and, makes a good approximate to the traditional method's power. The results were Logistic Regression has the lowest performance of the methods for classification, then Naive Bayes, next Bayesian networks, finally Support Vector Machines and Neural Networks are the best.
  • Hellstrand, Julia (2018)
    The decreasing number of births has caused concerns among researchers and decision-makers and is currently a hot topic in Finland. The most commonly used fertility index, the total fertility rate (TFR), has been rapidly decreasing during the last seven years and reached an all-time low rate of 1.49 children per woman in 2017. The total fertility rate is a synthetic measure that is sensitive to changes in the timing of births and it does not necessarily reflect underlying changes in the level of fertility. A reduction in the total fertility rate could reflect that women are postponing their childbearing while the final number of children they ultimately will have remains unchanged, or, it could reflect that women actually are having less children. The aim with this thesis is to conclude to what extent the decrease in the total fertility rate is due to fertility timing and whether the expressed concern is truly valid. This thesis is a descriptive study produced in collaboration with Statistics Finland. Age-specific fertility rates were calculated by birth order, region and level of education based on data maintained by Statistics Finland. The produced contributions to the decrease in the total fertility rate were analysed by demographic decomposition, tempo-adjusted fertility rates were calculated to adjust for fertility timing and the completed cohort fertility rate for cohorts not yet reached age 44 was estimated mainly by a new Bayesian forecasting method. In addition, high quality fertility data from the Human Fertility Database was used to build a prior belief of already known demographic information about plausible age patterns of fertility. The results confirmed that the main reason for the rapid decrease in the total fertility rate in 2010-2017 was decreasing first order births mainly at ages 25-29. The massive decrease in first order births was observed in both urban and rural areas and by all levels of education, but particularly for higher educated women. Overall, fertility rates at younger ages have experienced a long-term decline while fertility rates at older ages have been increasing. Nevertheless, the fertility rates at ages 30-37 have in recent years also started to decrease. The tempo-adjusted TFR did show a period tempo effect of on average 0.17 live births per woman, but since the adjusted TFR also did decrease since 2010, the possibility that women only postpone but not reduce their number of births is not enough as the only explanation to the all-time low period fertility observed. The cohort fertility forecasts did in fact confirm that women actually are reducing their lifetime number of children. Women currently in their childbearing age have delayed or even eschewed entry to motherhood to such an extent that their average lifetime number of children is very unlikely to remain close to 2 children, which has been the approximately constant level observed over the last thirty years. The completed cohort fertility rate is instead likely to decline dramatically and fall below 1.50 children for women currently in their late 20s. Thus, the decrease in the total fertility rate in 2010-2017 does reflect a massive cohort quantum effect and the expressed concern about the decreasing number of births is indeed very much valid.
  • Simsek, Burak (2020)
    In this study, a classification scheme is implemented to obtain high resolution snow cover information from Sentinel-2 data using a very simple Bayesian Network (Naive-Bayes) that is trained with ground snow measurement data. Performance comparison of using Bayesian/non-Bayesian Naive-Bayes, different feature sets and different discretization methods is conducted. Results show that Bayesian NB performs the best with up to 0.88 classification accuracy for snow/no-snow classification. Use of most relevant spectral bands rather than all available bands provided improvement in some cases but also performed slighty worse in some, hence not giving a clear answer. However, effect of discretization method was clear, chimerge performed better than equal width binning but it was much slower to a point that it was not practical to discretisize a full Sentinel-2 image’s pixels.
  • Hyvönen, Ville (2015)
    Efficient nearest neighbor search in high dimensional spaces is a problem that has numerous practical applications in the fields of statistics and machine learning, for example in robotics, computer vision, and natural language processing. In this thesis a multiple random projection trees (MRPT) algorithm for fast approximate nearest neighbor search is proposed. It is based on a variant of space partitioning trees called random projection trees (RP-trees). Both the pseudocode of the algorithm and the actual R and C++ implementations are presented. The space and time complexity of the algorithm are analyzed. The efficiency of the algorithm is demonstrated experimentally by comparing both to the basic linear search, and to another approach of using RP-tree in approximate nearest neighbor search with moderately high-dimensional image and word frequency data sets. Different split criteria are compared experimentally, and the optimal choice of tuning parameters of the algorithm is discussed both in theory, and demonstrated in practice with benchmark data sets.
  • Tuominen, Samuli (2018)
    Modern day technology and computational power have allowed a large scale investigation of the human epigenome. Out of the epigenetic modifications, DNA methylation is of particular interest, since it is relatively easy to measure and very common in the DNA. A methylation site is a region of the DNA sequence that shows variation in the DNA methylation between individuals. Epigenome-wide association studies (EWAS) examine the interaction between these methylation sites one at a time and a specific human trait or an enviromental exposure. EWAS studies are, however, limited by low statistical power and problems related to multiple testing. To counter these issues, polygenic methylation scores have been developed to aggregate information over many methylation sites. These scores have two main applications. First is to formulate new hypotheses to explain human trait variation. Second one is to indicate unobserved environmental factors in cohort based studies or to predict individual developmental or disorder related outcomes. At the beginning of this thesis there is an introduction to epigenetics, to EWAS and polygenic methylation scores and to their genetic counterparts, genome-wide association studies (GWAS) and polygenic risk scores (PRS). Much of the methodology relating to the methylation scores is borrowed from GWAS and PRS. Some statistical properties of the methylation scores are derived in this thesis with focus on how the statistical power of detecting true association between a phenotype and human DNA methylation depends on the make up of the methylation scores. The theoretical derivations are tested through simulations. This thesis also examines how methylation scores may be calculated in practice using cross-validation and correlation reduction procedure called clumping. The methodology is applied to a Finnish cohort from the prediction and prevention of preeclampsia and intrauterine growth restriction study (Predo). The comparison of theoretical and observed statistical power in the simulations show that the theoretical and observed power correspond well to each other. In the practical analyses conducted using the DNA methylation data set and phenotype data of the Predo cohort and a maternal body-mass index (BMI) EWAS data, a clear piece of evidence of association of maternal pre-pregnancy BMI and offspring DNA methylation is found. The results support the growing evidence for the applicability of methylation scores in indicating prenatal environmental factors from the DNA methylation of the offspring.
  • Benner, Christian (2013)
    Background. DNA microarrays measure the expression levels of tens of thousands of genes simultaneously. Some differentially expressed genes may be useful as markers for the diagnosis of diseases. Available statistical tests examine genes individually, which causes challenges due to multiple testing and variance estimation. In this Master's thesis, Bayesian confirmatory factor analysis (CFA) is proposed as a novel approach for the detection of differential gene expression. Methods. The factor scores represent summary measures that combine the expression levels from biological samples under the same condition. Differential gene expression is assessed by utilizing their distributional assumptions. A mean-field variational Bayesian approximation is employed for computationally fast estimation. Results. Its estimation performance is equal to Gibbs sampling. Point estimation errors of model parameters decrease with increasing number of variables. However, mean centering of the data matrix and standardization of factor scores resulted in an inflation of the false positive rate. Conclusion. Avoiding mean centering and revision of the CFA model is required so that location parameters of factor score distributions can be estimated. The utility of CFA for the detection of differential gene expression needs also to be confirmed by a comparison with different statistical procedures to benchmark its false positive rate and statistical power.
  • Nevala, Aapeli (2020)
    Thanks to modern medical advances, humans have developed tools for detecting diseases so early, that a patient would be better off had the disease gone undetected. This is called overdiagnosis. Overdiagnosisisaproblemespeciallycommoninacts,wherethetargetpopulationofanintervention consists of mostly healthy people. Colorectal cancer (CRC) is a relatively rare disease. Thus screening for CRC affects mostly cancerfree population. In this thesis I evaluate overdiagnosis in guaiac faecal occult blood test (gFOBT) based CRC screening programme. In gFOBT CRC screening there are two goals: to detect known predecessors of cancers called adenomas and to remove them (cancer prevention), and to detect malign CRCs early enough to be still treatable (early detection). Overdiagnosis can happen when detecting adenomas, but also when detecting cancers. This thesis focuses on overdiagnosis due to detection of adenomas that are non-progressive in their nature. Since there is no clinical means to make distinction between progressive and non-progressive adenomas, statistical methods must be applied. Classical methods to estimate overdiagnosis fail in quantifying this type of overdiagnosis for couple of reasons: incidence data of adenomas is not available, and adenoma removal results in lowering cancer incidence in screened population. While the latter is a desired effect of screening, it makes it impossible to estimate overdiagnosis by just comparing cancer incidences among screened and control populations. In this thesis a Bayesian Hidden Markov model using HMC NUTS algorithm via software Stan is fitted to simulate the natural progression of colorectal cancer. The five states included in the model were healthy (1), progressive adenoma (2), screen-detectable CRC (3), clinically apparent CRC (4) and non-progressive adenoma (5). Possible transitions are from 1 to 2, 1 to 5, 2 to 3 and 3 to 4. The possible observations are screen-negative (1), detected adenoma (2), screen-detected CRC (3), clinically manifested CRC (3). Three relevant estimands for evaluating this type of overdiagnosis with a natural history model are presented. Then the methods are applied to estimate overdiagnosis proportion in guaiac faecal occult blood test (gFOBT) based CRC screening programme conducted in Finland between 2004 and 2016. The resulting mean overdiagnosis probability for all the patients that had an adenoma detected for programme is 0.48 (0.38, 0.56, 95-percent credible interval). Different estimates for overdiagnosis in sex and age-specific stratas of the screened population are also provided. In addition to these findings, the natural history model can be used to gain more insight about natural progression of colorectal cancer.
  • Matilainen, Oskari (2020)
    Tässä pro gradu -tutkielmassa käsitellään binomijakauman luottamusjoukkojen analysointimenetelmiä laajentaen niitä multinomijakauman luottamusjoukkojen tarkasteluun. Tutkielman tarkoituksena on vertailla valikoituja binomi- ja multinomijakaumien luottamusjoukkoja sekä binomijakauman luottamusjoukkojen vertailukriteereitä yleistäen niitä multinomijakauman luottamusjoukoille soveltuvin osin. Luottamusjoukkojen määrittelyssä on käytetty frekventististä päättelyä. Vertailuun valikoitujen vakiintuneiden binomijakauman luottamusjoukkojen lisäksi tyossä määritellään kaksi muuta luottamusjoukkoa. Näitä luottamusjoukkoja vertaillaan kahdeksan esitellyn vertailukriteerin perusteella. Luottamusjoukkojen tutkimisessa erityisesti peittotodennäköisyys osoittautuu hyödylliseksi menetelmäksi. Multinomijakauman luottamusjoukkoja esitellään kolme yleisesti käytössä olevaa sekä yksi vertailuun kehitetty luottamusjoukko. Multinomijakauman luottamusjoukoille yleistetään peittotodennäköisyys, jonka avulla luottamusjoukkoja analysoidaan. Esiteltyjä luottamusjoukkoja vertaillaan yhden yleistetyn kriteerin avulla. Tuloksina käydään läpi esitellyt luottamusjoukot, sekä arvioidaan niiden soveltuvuutta erilaisiin tutkimustilanteisiin pienillä havaintomäärillä. Luottamusjoukkojen peittotodennäköisyyden avulla joukkojen erilaiset ominaisuudet erottuvat selkeästi. Arvioidut vertailukriteerit yleistyvät multinomijakauman luottamusjoukoille pääosin hyvin.
  • Lehtonen, Toni (2020)
    Streptococcus pneumoniae is considered to be one of the most common causes of pneumonia and is known to cause a significant disease burden worldwide. During the past two decades much effort has been made globally to prevent pneumococcal illnesses through the use of vaccines. In Finland, all children under the age of five have been eligible to receive pneumococcal conjugate vaccine as part of the national vaccination programme since 2010. The impact of the pneumococcal vaccination has been studied extensively in Finland, and a significant decrease in the incidence of pneumonia has been observed among all vaccine-age children. One research question not yet examined in the previous studies is the exact point of time after which the impact of vaccination can be discerned in the incidence rates. This thesis considers a novel approach to multiple change point detection for time series data, where the change point problem is expressed in the form of a regression model. The model is specified so that potential change point positions are represented as separate explanatory variables. Relevant change points are then chosen by applying several established variable selection methods to the model. Out of these methods, the lasso estimate, its Bayesian analogue and two other Gaussian scale mixture priors are considered in this work. The change point model was implemented with the selected variable selection methods for age-group specific time series of pneumonia incidence rates in Finland between 2001 and 2016 to detect any changes that could be attributed to the introduction of the vaccine. These datasets were produced from routinely generated hospital discharge records, the operationalization of which is also discussed in the thesis. Aside from the vaccinated age group of under five year olds, data for both 25-44 year olds and over 65 year olds were also considered to inspect possible indirect effects of the vaccination. The implementations with different variable selection methods all provided very similar results for each age group. For under five year olds a change point during spring 2011 was selected, while for the over 65 year olds none were chosen during or after the introduction of the vaccine. For 25-44 year olds multiple change points between 2009 and 2014 were selected, but whether any of these could be attributed to the vaccination remains an open question.
  • Peussa, Aleksandr (2016)
    The major concern of lenders is to answer the next question: 'Who we lend to?' Until 1970s the traditional schema was used to answer this question. Traditional credit assessment relied on 'gut feel', which means that a bank clerk or manager analyses a borrower's character, collateral and ability to repay. Also, some recommendations from the borrower's employer or previous lender are used. The alternative approach is credit scoring, which is a new way to approach a customer. Credit scoring is one of the most successful applications of statistics in finance and banking industry today. It lowers the cost and time of application processing and gives flexibility in making trade off between risk and sales for financial institution. Credit scorecards are essential instruments in credit scoring. They are based on the past performance of customers with characteristics similar to a new customer. So, the purpose of a credit scorecard is to predict risk, not to explain reasons behind it. The purpose of this work is to review credit scoring and its applications both theoretically and empirically, and to end up with the best combination of variables used for default risk forecasting. The first part of the thesis is focused on theoretical aspects of credit scoring - statistical method for scorecard estimation and measuring scorecard's performance. Firstly, I explain the definition of the scorecard and underlying terminology. Then I review the general approaches for scorecard estimation and demonstrate that logistic regression is the most appropriate approach. Next, I describe methods used for measuring the performance of the estimated scorecard and show that scoring systems would be ranked in the same order of discriminatory power regardless the measure used. The goal of the second part is empirical analysis, where I apply the theoretical background discussed in the first part of the master's thesis to a data set from a consumer credit bank, which includes variables obtained from the application forms and from credit bureau data, and extracted from social security numbers. The major finding of the thesis is that that the estimated statistical model is found to perform much better than a non-statistical model based on rational expectations and managers' experience. This means that banks and financial institutions should benefit from the introduction of the statistical approach employed in the thesis.
  • Siljander, Ilona (2016)
    The purpose of this thesis is to study the cumulative probability of a false-positive (FP) test result during the Finnish 20-year breast cancer screening program. This study is based on breast cancer screening data provided by the Mass Screening Registry of the Finnish Cancer Registry, which consists of women aged 50–51 years at the time of their first invitation to mammography screening in 1992–1995. Generalized estimating equations (GEE) are used to estimate the cumulative probability of a FP screening result. In the theoretical part we present the corresponding theory together with reviewing the theory of generalized linear models (GLM). The cumulative probabilities are calculated from the modeling of individual examinations by using the theory and formulas of conditional probability. The confidence intervals (Cl) are calculated by using Monte Carlo simulation relying on the asymptotic properties of the GEE estimates. The estimated cumulative risk of at least one FP during the screening program was 15.84% (95% Cl: 15.49–16.18%). Previous FP findings increased the risk of (another) FP results with an odds ratio (OR) of 1.91 (95% Cl: 1.78–2.04), and OR 3.09 (95% Cl: 2.49–3.83) for one or more previous FP results, respectively. Irregular screening attendance increased the risk of FP results with an OR of 1.46 (95% Cl: 1.37–1.56).
  • Sandoval Zárate, América Andrea (2015)
    Personalised medicine involves the use of individual information to determine the best medical treatment. Such information include the historical health records of the patient. In this thesis, the records used are part of the Finnish Hospital Discharge Register. This information is utilized to identify disease trajectories for individuals for the FINRISK cohorts. The techniques usually implemented to analyse longitudinal register data use Markov chains because of their capability to capture temporal relations. In this thesis a first order Markov chain is used to feed the MCL algorithm that identifies disease trajectories. These trajectories highlight the most prevalent diseases in the Finnish population: circulatory diseases, neoplasms and musculoskeletal disorders. Also, they defined high level interactions between other diseases, some of them showing an agreement with physiological interactions widely studied. For example, circulatory diseases and their thoroughly studied association with symptoms from the metabolic syndrome.
  • Sobolev, Anton (2020)
    When couples with children split or divorce, they are often unable to come to a mutual agreement concerning their child's place of residency, custody, the child's meetings with the other parent and the frequency of these meetings, or financial aid one parent is obliged to pay the other parent for the child. In many countries, these disagreements quite often lead to long disputes in court. A lot of research has been made (both in Finland and internationally) concerning the court's consideration of disputes about children. This thesis studies the disputes on custody and residency of a child in the district courts of Finland. The objective is to find out which factors play the biggest role in solving these disputes in court. Nine district courts of Finland have kindly provided the documents of the disputes concerning custody and residency of children from the period of 2004 - 2015. Only the cases where a dispute was solely between the parents of a child (no other relatives) and where the final decision was made by court (no agreement between the parties) are taken into analysis. Disputes are divided into two types - the ones where residency of a child was involved in a dispute (residency disputes) and the ones where it was not involved (custody disputes). The winner of a dispute is a dependent variable. A logistic regression model is applied for the custody disputes, and a cumulative logistic regression model is applied for the residency disputes. Due to results of the analysis, mothers win more disputes than fathers, but the difference is statistically significant only for the residency disputes. When only father is of a foreign background, it lowers father's winning chances in a custody dispute, but neither father's nor mother's foreign backgrounds are statistically significant for the residency disputes. A substantiated violence of father towards mother again acts negatively for fathers in custody disputes, and so does a non-substantiated accusation regarding alcohol or drug abuse by father. For the residency disputes, the main factors decreasing fathers' probability to win are mother hiring a legal assistant and father receiving legal aid (which takes place when father is not financially capable of hiring a legal assistant). Established conditions of a child at one of the parents increase the winning chances of that parent, but the effect is higher for fathers. All the accusations (both substantiated and non-substantiated in court) act in favor of fathers; these are substantiated mother's mental disorder, non-substantiated alcohol or drug abuse by mother and non-substantiated accusation regarding father's violence towards mother. At the same time, no variables regarding genders of children disputed about, genders of a judge or of legal assistants are statistically significant in the models. The same concerns the parents' demands in court, as well as the ages of parents (and their difference) and of children involved in disputes. This investigation can be extended by adding the disputes from other years and from other district courts into the analysis.
  • Leinikka, Jussi (2018)
    Mobiililiittymien käyttö on muuttunut viimeisen puolen vuosikymmenen aikana huomattavasti mobiilidatan käytön kasvaessa merkittävästi ja ala on edelleen jatkuvassa murroksessa. Tällaisessa muuttuvan markkinan tilanteessa on tärkeää niin markkinaviranomaisille kuin alan yrityksillekin ymmärtää kuluttajien mielipiteitä ja toimintaa. Tässä tutkielmassa selvitetään kuluttajatyytymättömyyteen sekä operaattorin vaihtoon vaikuttavia tekijöitä mobiiliviestintäalalla Pohjoismaissa. Tekijöiden selvittämiseen käytetään logistista regressiomallia suurimman uskottavuuden estimoinnilla ja tulokset varmennetaan Exact logistisella regressiomallilla aineiston vinoumasta johtuen. Tutkielman aineistona käytetään Euroopan Komission keräämää eri toimialoihin liittyvää kyselyaineistoa. Taustateorian osalta tutkielmassa syvennytään kuluttajatyytymättömyyden käsitteeseen sekä tyytymättömän kuluttajan toimintamahdollisuuksiin. Kuluttajatyytymättömyyttä havaittiin kasvattavan mobiililiittymän kanssa koetut ongelmatilanteet sekä vastaajan matala luottamus alan toimijoihin ja vähentävän vastaajan suomalaisuus sekä erittäin hyvä taloudellinen tilanne. Operaattorin vaihdon todennäköisyyttä havaittiin kasvattavan mobiililiittymän kanssa koettujen ongelmatilanteiden aiheuttama aineellinen tai henkinen suuri haitta sekä Tanska vastaajan kotimaana. Vaihdon todennäköisyyttä laski Ruotsi vastaajan kotimaana ja internetin harva käyttö. Tulokset olivat yhdensuuntaisia molemmilla estimointimenetelmillä kummassakin mallinnuskohteessa.
  • Virolainen, Savi (2018)
    Erityisesti taloudellisissa ilmiöissä sekä niitä kuvaavissa aikasarjoissa esiintyy usein vaihtelua eri tilojen välillä, esimerkiksi markkinoiden vakauden heilahtelun aiheuttamana. Eri tilojen välillä vaihtelua selittämään kykeneviä aikasarjamalleja ovat muun muassa autoregressiiviset sekoitusmallit. Tällaisia ovat esimerkiksi GMAR-malli (Gaussian Mixture Autoregressive) ja StMAR-malli (Student's t Mixture Autoregressive), joihin perustuen tutkielmassa esitetään molempien piirteitä hyödyntävä G-StMAR-malli (Gaussian and Student's t Mixture Autoregressive). Autoregressiiviset sekoitusmallit voidaan ajatella kokoelmaksi lineaarisia autoregressiivisiä malleja, joista kutakin kutsutaan mallin komponentiksi. Kunkin komponentin ajatellaan kuvaavan kutakin ilmiössä esiintyvää tilaa. GMAR-mallissa komponenttien oletetaan olevan normaalisia autoregressiivisiä prosesseja, kun taas StMAR-mallissa ne ovat t-jakaumaan perustuvia, ehdollisesti heteroskedastisia autoregressiivisiä prosesseja. StMAR-mallin komponenttien ehdollisen varianssin riippuvuus samoista parametreista kuin ehdollinen odotusarvo voi kuitenkin olla rajoittava tekijä tapauksissa, joissa komponenttikohtainen ehdollinen odotusarvo on vahva, mutta ehdollinen varianssi heikko. Tästä syystä StMAR-malli yleistetään tutkielmassa G-StMAR-malliksi sallimalla osan sen komponenteista perustuvan GMAR-mallin käyttämiin normaalisiin autoregressiivisiin prosesseihin, joissa ehdollisen varianssin oletetaan olevan vakio. Tutkielmassa esitellään GMAR-malli ja StMAR-malli, ja määritellään niiden pohjalta G-StMAR-malli. Lisäksi osoitetaan, että GMAR-mallin ja StMAR-mallin houkuttelevat teoreettiset ominaisuudet, kuten ergodisuus ja stationaarisen jakauman tunteminen, periytyvät ilmeisellä tavalla myös G-StMAR-mallille. Mallien esittelemisen jälkeen tutkielmassa kerrotaan lyhyesti, kuinka esitetyt mallit voidaan estimoida kaksivaiheista menetelmää käyttäen, miten malleille voidaan valita sopivat asteet, kuinka kvantiiliresiduaaleja voidaan hyödyntää mallin sopivuuden tarkastelemisessa ja miten taustalla olevan prosessin tulevia havaintoja voidaan ennustaa simulaatiomenettelyllä. Tutkielman empiirisessä osiossa tutkitaan, millaisiksi G-StMAR-mallin parametrit estimoituvat pohjana olevaan StMAR-malliin verrattuna, ja lisäksi mallien ennustetarkkuuksia vertaillaan toisiinsa. Esimerkkiaineistona käytetään Standard & Poor's 500 osakemarkkinaindeksin päivittäistä volatiliteettia kuvaavaa, ajanjakson 3.1.2000-20.5.2016 kattavaa aikasarjaa. Tutkielman tulosten perusteella StMAR- ja G-StMAR-mallien ennustetarkkuuksien välillä ei voida sanoa olevan juurikaan eroa, mutta joissakin tapauksissa voidaan G-StMAR-malliin siirtymällä välttää StMAR-mallin parametrien estimaatteja koskevia ongelmia.
  • Karttunen, Henri (2015)
    Aikasarjoissa ilmenevien ei-normaalisten piirteiden mallintamiseen voidaan käyttää epälineaarisia aikasarjamalleja, joista erityisesti tutkielmassa tarkastellaan autoregressiivisia sekoitusmalleja. Autoregressiiviset sekoitusmallit määritellään sekoituksena lineaarisista autoregressiivisista malleista ja erona eri sekoitusmallien välillä on niiden sekoitussuhteiden määrittely. Autoregressiivisella GMAR (Gaussian Mixture Autoregressive)-sekoitusmallilla on houkuttelevia teoreettisia ominaisuuksia, sillä sen stationaarinen jakauma tunnetaan ja sen stationaarisuusehto ja ergodisuus voidaan johtaa ilman lisärajoituksia parametreille. Kuitenkin sekoitussuhteiden monimutkaisesta määrittelystä johtuen sen parametrien estimointi käyttäen kirjallisuudessa usein käytettyä EM-algoritmia on hankalaa. Tästä syystä tutkielmassa selvitetään mahdollisuutta käyttää parametrien estimoinnissa kaksivaiheista menetelmää, jossa geneettisen algoritmin avulla etsitään alkuarvoja gradienttiperusteiselle optimointialgoritmille. Parametrien estimoinnin lisäksi tutkielmassa tarkastellaan mallinvalintaa osana estimointiprosessia. Tarkasteltavia työkaluja sopivan mallin etsinnässä ovat informaatiokriteerit sekä erilaiset kvantiiliresiduaaleihin perustuvat testit, joiden avulla voidaan tehdä mallidiagnostiikkaa tavallisten residuaalien tapaan myös silloin, kun tavallisia residuaaleja ei voida käyttää. Lisäksi tarkastellaan ennusteiden laskemista simulaatioiden avulla ja esitetään miten GMAR-mallia voidaan simuloida. Tutkielman empiirisessä osassa tarkastellaan kahta esimerkkiä, joista ensimmäisessä keskitytään estimointiin, mallinvalitaan ja diagnostiikkaan. Tässä esimerkissä aineistona käytetään yhdysvaltain kuukausittaista inflaatiota vuodesta 1975 vuoteen 2015. Toisessa empiirisessä esimerkissä tarkastellaan tuulen nopeuksia päivittäisen aineiston avulla ja keskitytään erityisesti ennusteiden laskemiseen. Tuulen nopeutta mittaava aineisto on ei-negatiivinen aikasarja ja siksi esimerkissä tarkastellaan estimointia logaritmoidun sarjan avulla ja alkuperäisen sarjan ennustamista. Tutkielman tulosten perusteella kaksivaiheinen estimointi käyttäen geneettistä algoritmia toimii GMAR-mallin tapauksessa hyvin ja kohtuullisessa ajassa.
  • Hakala, Jani (2018)
    Tutkielman tavoitteena on luoda lineaarisen regressioanalyysin avulla hinnoittelumalli helsinkiläisille kerrostaloasunnoille, minkä avulla pyritään selvittämään asuntojen hinnanmuodostukseen vaikuttavia tekijöitä ja niiden vaikutusten suuruutta. Tutkielman alussa kuvataan asuntomarkkinoita Suomessa keskittyen erityisesti hinnanmuodostukseen mahdollisesti vaikuttaviin tekijöihin. Teoriaosiossa käsitellään lineaarista regressioanalyysiä, jota voidaan käyttää yhden selitettävän muuttujan ja yhden tai usean selittävän muuttujan välisen lineaarisen yhteyden mallintamiseen ja selittämiseen. Tutkielman empiiristä osiota varten on poimittu aineisto Kiinteistönvälitysalan Keskusliitto ry:n KVKL HSP -hintaseurantapalvelusta. Palvelusta löytyy suomalaisten kiinteistönvälittäjien tekemät asuntokaupat sisältäen yksityiskohtaista tietoa myydyistä asunnoista. Aineistoksi rajattiin tammikuun 2016 ja elokuun 2017 välillä tapahtuneet helsinkiläiset kerrostaloasuntokaupat. Lisäksi aineistoa on rikastettu lisäämällä kohteiden sijaintikoordinaatit -palvelusta, mistä löytyy Väestönrekisterikeskuksen ylläpitämät tiedot, sekä R-ohjelmiston avulla laskettu erilaisia matka-aikoja ja -pituuksia kohteista keskustaan hyödyntäen Google Maps -karttapalvelun ohjelmointirajapintaa. Tutkielmassa muodostetaan pienimmän neliösumman menetelmällä yhteensä kolme eri estimointimallia, joiden avulla kuvataan ja selitetään eri ominaisuustekijöiden vaikutuksia asunnon hintaan. Mallit kuvaavat niissä olevien yksittäisten selittäjien arvojen vaihtelun vaikutusta, kun muiden selittäjien vaikutus on vakioitu. Tutkielmassa onnistuttiin selittämään asuntojen hinnanmuodostusta melko tarkasti. Saadut tulokset ovat odotetun suuntaisia suhteessa taustateoriaan, ja niiden perusteella helsinkiläiset kerrostaloasunnot ovat hyvin moniuloitteisia hyödykkeitä, joiden hinnat määräytyvät useiden hintatekijöiden yhteisvaikutuksen perusteella. Tutkielman tuloksissa näkyi lisäksi selvästi asuntomarkkinoiden suhdanteen nousukehitys.
  • Lilja, Eero (2018)
    Lasten asumis- ja huoltoriitoja on Suomessa tutkittu toistaiseksi vähän. Tutkielmaa varten on kerätty 593 havainnon aineisto pääkaupunkiseudun käräjäoikeuksien ratkaisemista vuosina 2004-2013 vireille tulleista riidoista. Tutkielmassa mallinnetaan huolto- ja asumisriidan voittajaa ja selvennetään isien ja äitien voittotodennäköisyyksien eroa aiempia tutkimuksia suuremman otoskoon avulla. Vastemuuttuja on luotu viisiportaisesti äidin ja isän voitoista, osittaisista voitoista ja tasapeleistä. Voittajaa tutkitaan erilaisilla osuustesteillä suhteessa taustamuuttujiin. Lisäksi mallinnetaan voittajaa logistisen regressionalyysin avulla, jossa vanhempien ikätietojen puuttuvat havainnot on impuitoitu. Voittajaa parhaiten ennustavan mallin valinnassa käytetään Bayesin informaatiokriteeriä. Havainnoista joka toisessa ei riidellä lapsen asumisesta, vaan riita koskee vain huoltomuotoa. Huolto- ja asumisriitoja analysoidaan pääsääntöisesti erikseen. Lasten asuminen muuttui lähes joka toisessa asumisriidassa. Valtaosassa huoltoriidoista äidit vaativat yksinhuoltoa ja isät yhteishuoltoa mutta suostuvat lasten asumiseen äidillä. Yksinhuolto määrättiin joka kolmannessa huoltoriidassa. Äidit voittivat useammin sekä asumis- että huoltoriidat. Informaatiokriteerin valitsemassa asumisriitamallissa oli selittävinä tekijöinä nuorimman lapsen ikä, tuomarin sukupuoli, lapsen vakiintunut tilanne, isän ulkomaalaistaustaisuus sekä toteennäytetty syytös väkivallasta, päihteistä tai mielenterveysongelmista. Huoltoriitamallissa tärkeimmiksi selittäjiksi nousivat ulkomaalaistaustaisuuden ja toteennäytettyjen syytösten lisäksi lisäksi syytökset vieraannuttamisesta ja mielenterveysongelmista sekä aiempi oikeuden päätös, joka heikensi isien voittotodenäköisyyttä. Äidit voittivat asumisriidan useammin, kun nuorin lapsi oli alle 7-vuotias. Isät voittivat todenn äköisemmin, kun nuorin lapsi oli yli 12-vuotias. Asumisriidoissa äidit voittivat selkeästi useammin miestuomarien ratkaisemat riidat, mutta vain hieman useammin naistuomarien ratkaisemat riidat. Lähivanhempi oli etulyöntiasemassa riippumatta siitä, oliko tämä isä vai äiti. Ulkomaalaistaustaiset isät voittivat riidan harvoin, mutta kantasuomalaisten välisissä riidoissa äidit ja isät voittivat riidan yhtä usein. Molemmat vanhemmat voittivat riidan lähes aina, kun heidän esittämänsä syytös väkivallasta, päihteistä tai mielenterveysongelmista oli näytetty toteen. Logistisessa regressioanalyysissä taustamuuttujat selittävät vastemuuttujan vaihtelusta noin kolmanneksen. Saatujen tulosten vahvistamiseksi olisi jatkotutkimuksissa syytä käyttää suurempaa aineistoa sekä saada kattavammin taustamuuttujia esimerkiksi väestörekisterien avulla.
  • Ryynänen, Heidi (2016)
    Väestölähtöisessä epidemiologiassa ollaan kiinnostuneita iän, periodin ja kohortin vaikutuksesta tarkasteltavaan tapahtumaan tai ilmiöön. Ikä-periodi-kohortti-ilmaantuvuusmalliin liittyy identifioitavuusongelma, mikä tarkoittaa sitä, että iän, kalenteriajan ja syntymäkohortin parametreja ei saada estimoitua perinteisellä päävaikutuksiin perustuvalla Poisson-regressiolla. Perinteinen frekventistinen identifioitavuusongelman ratkaisutapa on jättää pois kohortti, mutta tämä saattaa kuitenkin johtaa harhaiseen malliin. Toinen perinteinen ja usein käytetty frekventistinen identifoitavuusongelman ratkaisutapa on asettaa parametreille rajoituksia. Eri rajoitteet voivat kuitenkin tuottaa hyvin erilaisia estimaatteja iälle, periodille ja kohortille, joten tämä lähestymistapa ei ole ongelmaton. Bayesiläisessä lähestymistavassa sen sijaan ei tarvita lisärajoituksia, mikäli käytetään heikosti informatiivisia priorijakaumia. Bayesiläisessä lähestymistavassa päättely tehdään posteriorijakaumasta. Laskennallisesti tehokas menetelmä posteriorijakauman tunnuslukujen selvittämiseksi on integroitu upotettu Laplacen approksimaatio, sillä se on nopea ja riittävän tarkka. Rinta- ja kivessyövän analyysi toteutetaankin täten käyttäen integroitua upotettua Laplacen approksimaatiota. Priorijakaumina käytetään ensimmäisen ja toisen asteen satunnaiskävelypriorijakaumia. Hyperpriorijakaumina käytetään gamma-jakaumia eri parametrivalinnoin. Rintasyöpää ja kivessyöpää koskeva aineisto on saatu Suomen Syöpärekisteristä ja se kattaa vuodet 1971-2013. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta naisten rintasyövän sairastumisen vaaraan. Myöhemmillä ikäryhmillä rintasyövän ilmaantuvuus on suurta verrattuna ensimmäisiin ikäryhmiin. Myöhemmillä periodeilla riskisuhteet ovat suuria verrattuna ensimmäisiin periodeihin. Keskimääräinen periodivaikutus on 1.024, eli yhden kalenterivuoden lisäys kasvattaa naisten rintasyövän ilmaantuvuutta 2.4 % (Bayes-luottamusväli: 2.1 %, 2.6 %). Sen sijaan myöhemmillä kohorteilla riskisuhteet ovat pieniä verrattuna ensimmäisiin kohortteihin. Kohorttien riskisuhteissa on kuitenkin keskivaiheilla kohouma, jonka huippu osuu vuosina 1942-1946 syntyneiden naisten kohdalle. Rintasyövän kohdalla kaikissa malleissa tulokset ovat samansuuntaisia. Tulosten mukaan iällä, periodilla ja kohortilla on vaikutusta kivessyöpävaaraan. Kivessyöpä on erityisesti nuorten miesten syöpä. Kivessyövän ilmaantuvuus on suurinta ikäryhmän 30-34 kohdalla. Myöhemmillä periodeilla on suuremmat riskisuhteet verrattuna aikaisempiin periodeihin. Keskimääräinen periodivaikutus on 1.025, joten yhden kalenterivuoden lisäys kasvattaa kivessyövän ilmaantuvuutta 2.5 % (Bayes-luottamusväli: 1.0%, 3.9 %). Kohorttien riskisuhteet laskevat ensimmäisestä kohortista kohorttiin 1957-1961 ja nousevat tämän jälkeen kohorttiin 1977-1981 asti, minkä jälkeen kohorttien riskisuhteet taas pienenevät. Rintasyöpä on naisten yleisin syöpä, ja syöpätapausten suuren määrän takia priorijakaumien ja hyperpriorijakaumien valinnalla ei ole kovin suurta vaikutusta rintasyövän tuloksiin. Kivessyöpä sen sijaan on harvinainen syöpä, joten priorijakaumien ja hyperpriorijakaumien valinnalla on melko suuri vaikutus kivessyövän tuloksiin. Erityisesti kivessyövän kohdalla eri malleissa on eroja periodin ja kohortin vaikutuksissa. Kun on kysessä mallit, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, periodilla on vähemmän vaikutusta kuin malleissa, joissa on toisen asteen satunnaiskävelypriorijakaumat. Toisaalta malleissa, joissa on ensimmäisen asteen satunnaiskävelypriorijakaumat, kohortilla on enemmän vaikutusta kuin malleissa, joissa on toisen asteen satun-naiskävelypriorijakaumat. Toteutetun Bayes-mallinnuksen avulla voidaan arvioida aikaisempaa luotettavammin myös harvinaisten syöpien ikä-periodi-kohortti-malleja. Lisäksi Bayes-luottamusväleissä on tuotu parametrien epävarmuus paremmin mukaan kuin frekventistisellä lähestymistavalla.
  • Leivonen, Aku (2020)
    Oikeudellisten ilmiöiden tilastollinen mallintaminen on vielä harvinaista Suomessa. Tutkielmassa mallinnetaan lasten huolto- ja asumisriitoja hovioikeuksissa järjestysregressiomallilla. Oikeuden päätökset huolto- ja asumisriidoissa voidaan luokitella järjestysasteikolla, missä asteikon toinen pää käsittää äidin voittoluokat ja toinen isän voittoluokat. Mallin tarkoitus on löytää keskeiset oikeuden päätöstä sekä äitien ja isien voittomahdollisuuksia selittävät tekijät. Mallia voidaan käyttää myös uuden riidan lopputuloksen ennustamiseen. Koska osapuolten vaatimukset rajoittavat sen, millaisen päätöksen oikeus voi antaa, niin mallia laajennetaan skaala- ja nominaalivaikutuksilla. Vastaavaa laajennettua järjestysregressiomallia ei ole sovellettu huolto- ja asumisriitoihin aiemmin. Työssä käytetty oikeustapausaineisto käsittää 500 huolto- ja asumisriitaa Suomen jokaisesta viidestä hovioikeudesta vuosien 2000 ja 2016 väliseltä ajalta. Aineisto on rajattu riitoihin, joissa äiti ja isä ovat eri mieltä lasten asumisesta ja mahdollisesti myös huollosta. Aineiston laajuus ja ilmiön vähäinen mallinnushistoria tekevät aineistosta kansainvälisesti ainutlaatuisen. Tiedot riidoista on poimittu hovioikeuksien ratkaisuista sekä niiden tausta-asiakirjoista. Kaikista riidoista on poimittu tieto myös vastaavasta käräjäoikeuden ratkaisusta, josta äiti tai isä on valittanut hovioikeuteen. Äidit ja isät ovat valittajina yhtä usein, mutta äidit saavat isiä hieman useammin vaatimuksiansa vastaavia päätöksiä hovioikeudessa. Äidit vaativat lasten yksinhuoltoa useammin kuin isät. Aineistossa on paljon muuttujia, joiden yhdistelmistä pyritään muodostamaan mahdollisimman hyviä malleja erilaisiin lähtökohtiin. Selittäjiä tarkastellaan aluksi yhden selittäjän malleilla, mutta varsinaiset analyysit perustuvat usean selittäjän malleihin, jotka muodostetaan yhden selittäjän mallien pohjalta. Usean selittäjän mallien valitsemisessa käytetään tavanomaisia tilastollisten mallien mallinvalintamenetelmiä. Lopputuloksena saadaan kolme mallia, joista ensimmäisen on tarkoitus löytää keskeiset oikeuden päätöstä selittävät tekijät. Toinen malli pyrkii ennustamaan uuden riidan lopputuloksen ja kolmas ennustamaan lopputuloksen riidassa, josta on käräjäoikeuden päätös. Kolmas malli pyrkii myös löytämään tekijät, jotka parhaiten selittävät käräjäoikeuden päätöksen muuttumista. Lasten vakiintunut asuinpaikka, sosiaaliviranomaisten esittämä suositus ja oikeuden todeksi katsoma väkivalta-, päihteidenkäyttö- tai mielenterveyssyytös toisesta osapuolesta ovat merkityksellisimmät oikeuden päätöstä selittävät tekijät. Näiden tekijöiden merkityksen suuruus ei näytä riippuvan siitä, onko kyseessä äiti vai isä. Lasten vakiintunut asuinpaikka on useammin äidin kuin isän luona, mikä selittää sitä, miksi äidit voittavat riitoja hieman useammin kuin isät. Mitä suurempi vanhempien välinen ikäero on, sitä paremmat ovat nuoremman osapuolen voittomahdollisuudet. Mikäli vanhin lapsi on alle kouluikäinen, niin äidin voittomahdollisuudet paranevat. Mikäli äidin avustaja oikeudessa on mies tai mikäli äiti on työtön, niin isän voittomahdollisuudet paranevat. Hovioikeus muuttaa käräjäoikeuden päätöstä asumisriidoissa noin 14 prosentissa valituksista. Koska käräjä- ja hovioikeuden päätökset ovat hyvin vahvasti kytkeytyneet toisiinsa, niin päätöksen muuttumiselle jää vain vähän selittäviä tekijöitä. Tällaisia ovat edeltävä huolto- ja asumistilanne ja vanhempien välinen ikäero. Järjestysregressiomalli toimii ilmiön mallintamisessa melko hyvin ja erityisesti skaala- ja nominaaliselittäjien käyttäminen osoittautuu toimivaksi tavaksi huomioida osapuolten vaatimukset. Mallien ennusteet ovat lupaavia, vaikka ennustekykyä on arvioitu vain aineistolla, jolla malli on sovitettu. Aineiston suuren muuttujamäärän vuoksi kaikkia yhteyksiä on vaikea havaita, minkä vuoksi aineistosta olisi mielenkiintoista tehdä vielä useita lisätarkasteluja.