Browsing by discipline "Statistics"

Now showing items 1-20 of 87

A comparison between some discriminative and generative classifiers (Logistic Regression, Support Vector Machines, Neural Networks, Naive Bayes and Bayesian Networks)

Alonso, Pedro (2015)

The purpose of this thesis is to compare different classification methods, on the basis of the results for accuracy, precision and recall. The methods used are Logistic Regression (LR), Support Vector Machines (SVM), Neural Networks (NN), Naive Bayes(NB) and a full Bayesian network(BN). Each section describes one of the methods, including the main idea of the methods used, the explanation of each one, the intuition underpinning each method, and their application to simple data sets. The data used in this thesis comprises 3 different sets used previously when learning the Logistic Regression model and the Support vector Machines one, then applied also to the Bayes counterparts, also to the Neural Networks model. The results show that the Bayesian methods are well suited to the classification task they are as good as their counterparts, some times better. While the Support Vectors Machine and Neural Networks are still the best all around, the Bayesian approach can have comparable performance, and, makes a good approximate to the traditional method's power. The results were Logistic Regression has the lowest performance of the methods for classification, then Naive Bayes, next Bayesian networks, finally Support Vector Machines and Neural Networks are the best.
Analysing bacterial data obtained with phenotype microarrays

Grönfors, Markus (2014)

In this thesis the main idea is analyse bacterial data obtained with specific technology called phenotype microarrays. The goal is to implement statistical methods and model cell respiration over period of 48 hours. The data are a bacterium called yersinia enterocolitica, which is a pathogen mainly carried by animals. Data was originally published in a scientific journal called Proceedings of the National Acedemy of Sciences of the United States of America and a small part of strain was chosen for thesis. Data consists about 110 000 rows of observations and it is divided to two experimental setups that are tested in two different temperatures. Data analysis consists three steps: cluster analysis, data normalization and comparing experimental setups. Statistical methods used are k-means clustering, Michaelis-Menten kinetics for growth curves, linear mixed effects models, restricted maximum likelihood estimation, random walk Metropolis-Hastings algorithm and highest posterior density intervals. Main results are there is a recognizable cluster for substrates implying grow and there are no differences between experimental setups. In conclusion statistical methods used in thesis are satisfactory for modelling data and while there are noticeable clusters, there lies no differences between experimental setups. In further analyses it should be better to include more experimental setups in one analysis.
Approximate nearest neighbor search using multiple random projection trees

Hyvönen, Ville (2015)

Efficient nearest neighbor search in high dimensional spaces is a problem that has numerous practical applications in the fields of statistics and machine learning, for example in robotics, computer vision, and natural language processing. In this thesis a multiple random projection trees (MRPT) algorithm for fast approximate nearest neighbor search is proposed. It is based on a variant of space partitioning trees called random projection trees (RP-trees). Both the pseudocode of the algorithm and the actual R and C++ implementations are presented. The space and time complexity of the algorithm are analyzed. The efficiency of the algorithm is demonstrated experimentally by comparing both to the basic linear search, and to another approach of using RP-tree in approximate nearest neighbor search with moderately high-dimensional image and word frequency data sets. Different split criteria are compared experimentally, and the optimal choice of tuning parameters of the algorithm is discussed both in theory, and demonstrated in practice with benchmark data sets.
Association between polygenic methylation scores and maternal phenotypes

Tuominen, Samuli (2018)

Modern day technology and computational power have allowed a large scale investigation of the human epigenome. Out of the epigenetic modifications, DNA methylation is of particular interest, since it is relatively easy to measure and very common in the DNA. A methylation site is a region of the DNA sequence that shows variation in the DNA methylation between individuals. Epigenome-wide association studies (EWAS) examine the interaction between these methylation sites one at a time and a specific human trait or an enviromental exposure. EWAS studies are, however, limited by low statistical power and problems related to multiple testing. To counter these issues, polygenic methylation scores have been developed to aggregate information over many methylation sites. These scores have two main applications. First is to formulate new hypotheses to explain human trait variation. Second one is to indicate unobserved environmental factors in cohort based studies or to predict individual developmental or disorder related outcomes. At the beginning of this thesis there is an introduction to epigenetics, to EWAS and polygenic methylation scores and to their genetic counterparts, genome-wide association studies (GWAS) and polygenic risk scores (PRS). Much of the methodology relating to the methylation scores is borrowed from GWAS and PRS. Some statistical properties of the methylation scores are derived in this thesis with focus on how the statistical power of detecting true association between a phenotype and human DNA methylation depends on the make up of the methylation scores. The theoretical derivations are tested through simulations. This thesis also examines how methylation scores may be calculated in practice using cross-validation and correlation reduction procedure called clumping. The methodology is applied to a Finnish cohort from the prediction and prevention of preeclampsia and intrauterine growth restriction study (Predo). The comparison of theoretical and observed statistical power in the simulations show that the theoretical and observed power correspond well to each other. In the practical analyses conducted using the DNA methylation data set and phenotype data of the Predo cohort and a maternal body-mass index (BMI) EWAS data, a clear piece of evidence of association of maternal pre-pregnancy BMI and offspring DNA methylation is found. The results support the growing evidence for the applicability of methylation scores in indicating prenatal environmental factors from the DNA methylation of the offspring.
Bayesian confirmatory factor analysis for detection of differential gene expression

Benner, Christian (2013)

Background. DNA microarrays measure the expression levels of tens of thousands of genes simultaneously. Some differentially expressed genes may be useful as markers for the diagnosis of diseases. Available statistical tests examine genes individually, which causes challenges due to multiple testing and variance estimation. In this Master's thesis, Bayesian confirmatory factor analysis (CFA) is proposed as a novel approach for the detection of differential gene expression. Methods. The factor scores represent summary measures that combine the expression levels from biological samples under the same condition. Differential gene expression is assessed by utilizing their distributional assumptions. A mean-field variational Bayesian approximation is employed for computationally fast estimation. Results. Its estimation performance is equal to Gibbs sampling. Point estimation errors of model parameters decrease with increasing number of variables. However, mean centering of the data matrix and standardization of factor scores resulted in an inflation of the false positive rate. Conclusion. Avoiding mean centering and revision of the CFA model is required so that location parameters of factor score distributions can be estimated. The utility of CFA for the detection of differential gene expression needs also to be confirmed by a comparison with different statistical procedures to benchmark its false positive rate and statistical power.
Credit risk scorecard estimation by logistic regression

Peussa, Aleksandr (2016)

The major concern of lenders is to answer the next question: 'Who we lend to?' Until 1970s the traditional schema was used to answer this question. Traditional credit assessment relied on 'gut feel', which means that a bank clerk or manager analyses a borrower's character, collateral and ability to repay. Also, some recommendations from the borrower's employer or previous lender are used. The alternative approach is credit scoring, which is a new way to approach a customer. Credit scoring is one of the most successful applications of statistics in finance and banking industry today. It lowers the cost and time of application processing and gives flexibility in making trade off between risk and sales for financial institution. Credit scorecards are essential instruments in credit scoring. They are based on the past performance of customers with characteristics similar to a new customer. So, the purpose of a credit scorecard is to predict risk, not to explain reasons behind it. The purpose of this work is to review credit scoring and its applications both theoretically and empirically, and to end up with the best combination of variables used for default risk forecasting. The first part of the thesis is focused on theoretical aspects of credit scoring - statistical method for scorecard estimation and measuring scorecard's performance. Firstly, I explain the definition of the scorecard and underlying terminology. Then I review the general approaches for scorecard estimation and demonstrate that logistic regression is the most appropriate approach. Next, I describe methods used for measuring the performance of the estimated scorecard and show that scoring systems would be ranked in the same order of discriminatory power regardless the measure used. The goal of the second part is empirical analysis, where I apply the theoretical background discussed in the first part of the master's thesis to a data set from a consumer credit bank, which includes variables obtained from the application forms and from credit bureau data, and extracted from social security numbers. The major finding of the thesis is that that the estimated statistical model is found to perform much better than a non-statistical model based on rational expectations and managers' experience. This means that banks and financial institutions should benefit from the introduction of the statistical approach employed in the thesis.
Cumulative probability of a false-positive screening result in the Finnish breast cancer screening program

Siljander, Ilona (2016)

The purpose of this thesis is to study the cumulative probability of a false-positive (FP) test result during the Finnish 20-year breast cancer screening program. This study is based on breast cancer screening data provided by the Mass Screening Registry of the Finnish Cancer Registry, which consists of women aged 50–51 years at the time of their first invitation to mammography screening in 1992–1995. Generalized estimating equations (GEE) are used to estimate the cumulative probability of a FP screening result. In the theoretical part we present the corresponding theory together with reviewing the theory of generalized linear models (GLM). The cumulative probabilities are calculated from the modeling of individual examinations by using the theory and formulas of conditional probability. The confidence intervals (Cl) are calculated by using Monte Carlo simulation relying on the asymptotic properties of the GEE estimates. The estimated cumulative risk of at least one FP during the screening program was 15.84% (95% Cl: 15.49–16.18%). Previous FP findings increased the risk of (another) FP results with an odds ratio (OR) of 1.91 (95% Cl: 1.78–2.04), and OR 3.09 (95% Cl: 2.49–3.83) for one or more previous FP results, respectively. Irregular screening attendance increased the risk of FP results with an OR of 1.46 (95% Cl: 1.37–1.56).
Discovering disease trajectories from the Finnish Hospital Discharge Register with the MCL algorithm

Sandoval Zárate, América Andrea (2015)

Personalised medicine involves the use of individual information to determine the best medical treatment. Such information include the historical health records of the patient. In this thesis, the records used are part of the Finnish Hospital Discharge Register. This information is utilized to identify disease trajectories for individuals for the FINRISK cohorts. The techniques usually implemented to analyse longitudinal register data use Markov chains because of their capability to capture temporal relations. In this thesis a first order Markov chain is used to feed the MCL algorithm that identifies disease trajectories. These trajectories highlight the most prevalent diseases in the Finnish population: circulatory diseases, neoplasms and musculoskeletal disorders. Also, they defined high level interactions between other diseases, some of them showing an agreement with physiological interactions widely studied. For example, circulatory diseases and their thoroughly studied association with symptoms from the metabolic syndrome.
Edustavuuden kehitys kuluttajabarometrissa siirryttäessä yhdistelmätiedonkeruuseen

Hyhkö, Simo Heikki (2020)

Otoksen edustavuus on yksi keskeisimpiä asioita kyselytutkimusten hyvyyttä tarkasteltaessa. Edustavuutta voi mitata usealla eri tavalla. Perinteisin mittari on vastausaste. Korkea vastausaste ei kuitenkaan ole yksinään mikään tae otoksen edustavuudesta. Toimivia edustavuusmittareita on pitkään pyritty kehittämään. Yksi näistä on $R$-indikaattori, jota tässä tutkielmassa tarkastellaan. Tilastokeskuksen perinteisen Kuluttajabarometrin sisältöä muutettiin toukokuussa 2019. Keskeisimmät muutokset olivat: 1) siirtyminen yhdistelmätiedonkeruuseen, 2) ikäjakauman kaventaminen 3) osan haastattelukysymyksistä vaihtuminen. Samassa yhteydessä tutkimuksen nimeksi vaihdettiin Kuluttajien luottamus. Tämän tutkielman kannalta keskeisin mainituista muutoksista oli siirtyminen puhelinhaastatteluista yhdistelmätiedonkeruuseen. Tutkielman tarkoituksena on selvittää haastattelutavan muutoksen vaikutusta otoksen edustavuuteen. Edustavuusmittariksi valittiin $R$-indikaattori. Tutkimusaineistona oli kuluttajabarometridata vuoden 2012 tammikuusta vuoden 2019 toukokuuhun. Kuluttajabarometridatan lisäksi käytössä oli Kuluttajien luottamus -tutkimuksen data neljältä ensimmäiseltä kuukaudelta toukokuusta elokuuhun 2019. Tutkimuksen tuloksena oli, että siirtyminen yhdistelmätiedonkeruuseen ei heikentänyt otoksen edustavuutta. Toisaalta kävi kuitenkin ilmi, että $R$-indikaattorin saamat arvot eivät koko tutkimusperiodilla olleet valittujen hyvyysrajojen mukaan riittävän korkealla tasolla. Toinen tarkastelluista muutoksista oli ikäjakauman kaventaminen molemmista päistä. Yläpäästä jätettiin kokonainen ikäluokka pois (75-84 v.). Alapäästä jätettiin pois osa nuorimmasta ikäluokasta (15-17 v.). Vanhin ikäluokka oli aktiivisin vastaajaryhmä ja vastaavasti nuorin ikäluokka oli passiivisin vastaamaan. Ikäjakauman kaventaminen ei kuitenkaan heikentänyt otoksen edustavuutta. Edustavuuden kehityksen lisäksi tarkasteltiin vaihtoehtoisia edustavuusindikaattoreita ja $R$-indikaattorin erilaisia versioita. Suurin osa vaihtoehtoisista indikaattoreista antoi hyvin samankaltaisia tuloksia, kuin $R$-indikaattori. Mikään testatuista vaihtoehtoisista indikaattoreista ei osoittautunut merkittävästi helpommin tulkittavaksi kuin $R$-indikaattori.
Effects of Corpus Size on Word Similarity Model

Oksanen, Joni (2020)

Text mining methods provide a solution to the task of extracting relevant information from large text datasets. These methods can be applied to extract the relevant parts of Suomi24 internet health discussion to analyze how people discuss and negotiate their health through words, which represents medication or symptoms. Semantic similarities between these two concepts can be examined by learning the word vector representations from data and exploring the vector space using Word2Vec, a popular word embedding method. This thesis reviews how the training of word similarity models is affected by increasing corpus size using text retrieval methods.The effects of corpus size are examined by comparing the measured cosine similarity distances between word vectors representations in two different vector spaces. Word vector representations are learned using two different sized corpora. The first corpus includes only messages from the health discussion area of Suomi24. The second corpus includes the same messages as the first corpus, but also messages from other discussion areas, which include health related words. Cosine similarities are evaluated on using concept vocabularies including relevant health related words. Increasing the number of training examples by almost 30% did not have a drastic effect on the qualities of the training data. The results did not indicate a distinct connection between corpus size and the measured cosine similarity distances between word vector representations of health related words.
Ehdollinen logit-malli ja naiivi Bayes-luokittelija : Kaksi eri tapaa diskreetin valinnan päättelyyn

Lehtimäki, Aku-Ville (2018)

Diskreetillä valinnalla tarkoitetaan tilannetta, jossa valitsijan pitää valita jokin vaihtoehto äärellisestä vaihtoehtojen joukossa. Yksilön käyttäytymisen taustalla ajatellaan yleisesti olevan taloustieteellinen, individualistinen suuntaus, jonka myötä valitsija pyrkii maksimoimaan hyötynsä. Tämän lisäksi valitsijan ajatellaan olevan rationaalinen eli toimivan tiettyjen aksiomien mukaisesti. Paradigmasta riippuen valitsijan preferenssit voivat olla satunnaiset tai deterministiset ja valitsija voi valita myös vahingossa väärin, jolloin preferenssi tai sen estimaattori on satunnaismuuttuja. Aineisto, joka kuvaa diskreettiä valintaa, kerätään siten, että valitsijalla tai valitsijoille arvotaan joukko vaihtoehtoja, jotka koostuvat eri attribuuttien tasoista. Attribuutti on ominaisuus, esimerkiksi väri, ja sen tasoja ovat esimerkiksi punainen, vihreä ja sininen. Näin yhdellä vaihtoehdolla ei voi olla saman attribuutin kahta tasoa. Toisaalta attribuuttien määrää ei ole rajoitettu. Näiden varsinaisten vaihtoehtojen lisäksi valitsijalle on tapana esittää ei mikään -vaihtoehto, jonka valitsemalla hän pääsee pois valintatilanteesta, eikä hän esimerkiksi joudu pakotettuna valitsemaan satunnaisesti jotakin vaihtoehdoista. Jokaisesta valintatilanteesta kirjataan ylös valittavina olleet vaihtoehdot sekä tieto siitä, mikä vaihtoehto valittiin. Perinteisesti edellä kuvattua tilannetta on estimoitu ehdollisella logit-mallilla. Se on yleistetty lineaarinen malli, eikä sen avulla eri vaihtoehtojen valintatodennäköisyyksille ole mahdollista saada analyyttisia ratkaisuja. Tämän lisäksi ei mikään -vaihtoehto tuottaa sille vaikeuksia, sillä se on oikeastaan multinomiaalisen logit-mallin luokka, ja esittämällä sen attribuuttien tasot neutraaleina tasoina lopputulemana on lineaarisen riippuvuuden ongelma. Asian ratkaisemiseksi jonkinlainen simulointi on välttämätön. Tässä pro gradu -tutkielmassa ehdollisen logit-mallin rinnalle tuodaan naiivi Bayes-luokittelija, jonka avulla on mahdollista laskea analyyttiset ratkaisut valintatodennäköisyyksille sekä ottaa mukaan ei mikään -vaihtoehto yhtenä luokkana. Kahden aineiston avulla osoitetaan, että molemmat menetelmät ennustavat yhtä hyvin, joten tämän perusteella naiivia Bayesluokittelijaa voi käyttää siinä missä ehdollista logit-malliakin sekä lisäksi aina silloin, kun numeerinen approksimoinnin käyttäminen ei tule kysymykseen. Tämän lisäksi todetaan, että vastaajien, jotka valitsivat ei mikään -vaihtoehdon joka kohdassa, ja täten ovat mahdollisesti vähemmän kiinnostuneita tarjotuista vaihtoehdoista, poistaminen ei tee kummastakaan mallista toista parempaa, vaikkakin osumatarkkuus molempien mallien tapauksessa parani.
Epidemiological and spatial study of a community-wide waterborne outbreak

Jalava, Katri (2014)

Failures in the drinking water distribution system often cause gastrointestinal outbreaks associated with multiple pathogens. We investigated a community-wide waterborne outbreak using a polyphasic approach combining advanced epidemiological, statistical, spatial and microbiological methods. A water pipeline breakage due to construction works occurred in the water distribution line in Vuorela, Eastern Finland on July 4th 2012. Two weeks later, gastrointestinal illness in the community increased and immediate control measures were implemented. Of 2931 inhabitants of the defined outbreak area, a total of 473 (16 %) responded to the web-based questionnaire. Samples from patients and water were analyzed for multiple microbial targets, subjected to appropriate molecular typing and microbial community analysis. We developed a method that enabled us to calculate the distance between the water pipe line breakage point and inhabitant locations. We used the responses obtained from the questionnaires in the univariate and multivariate analysis as explanatory variables. In addition, we used spatial logistic regression model to further analyze the data. The main symptoms in the cohort were stomach ache, nausea and diarrhoea. The clinical picture was mild and the length of the illness had a median of three days. Several pathogens and/or faecal indicators were detected by from the patient faecal and/or water samples, including sapovirus, single Campylobacter jejuni, arcobacters and various E. coli types (EHEC, EPEC, EAEC and EHEC). A case definition was created based on the clinical symptoms, which was used as a response variable in the statistical models. Drinking untreated tap water from the defined outbreak area had a risk ratio (proportion of those exposed among ill to those exposed among healthy) of 5.6 (95% CI 1.9-16.4) increasing in a dose response manner. We were able to calculate the distance between the water breakage point and the inhabitant position by the path of the water distribution network with the method developed for this study. The closer a person lived to the water distribution breakage point, the higher the risk of becoming ill. Children were more likely to fall ill. In the multiple log and logistic regression models, age (inversely), distance from the breakage point (inversely) and drinking the tap water were significant. In addition, a spatial term (describing the spread of the infection between close contacts, inaccuracy in the distance variable and nonlinear fluctuation of the water in the distribution network) was significant. Transmission between persons is common among children and with viral infections. The novel methods used in this study improved the characterization of the source of the infections, and aided to define the extent and magnitude of this outbreak. These methods may be applied to wide range of future outbreaks.
Espoolaisten koettu terveys : Pienalue-estimoinnin soveltaminen aluetasoisen tiedon tuottamiseen

Lindroth, Tanja (2011)

Koettu terveys on subjektiivinen mittari, jota voidaan käyttää objektiivisten mittareiden ohella kunnan sosiaali- ja terveyspolitiikan onnistumisen arviointiin sekä ohjaamaan palveluiden järjestämistä. Tutkimuksessa selvitettiin mahdollisuuksia tuottaa pienalue-estimointimenetelmillä tietoa Espoon eri alueiden 20–64 -vuotiaan väestön kokemasta terveydestä. Erityisesti työ keskittyi selvittämään; kuinka pienille Espoon alueille voidaan tuottaa luotettavaa tietoa käytettävissä olevasta otosaineistosta ja miten käytetty mallitaso sekä otoskoon kasvattaminen muiden pääkaupunkiseudun asukkaiden vastauksilla vaikuttaa estimointitulokseen? Tutkimusaineistona käytettiin vuoden 2008 aikana Helsingin sosiaalialan osaamiskeskuksen keräämän Pääkaupunkiseudun hyvinvointitutkimus -aineiston lisäksi Aluesarjat-tilastotietokannasta sekä Tilastokeskuksen Väestötilastopalvelusta saatavaa tietoa. Pienalue-estimointimenetelminä käytettiin malliavusteista GREG-estimointia sekä malliperusteista EBLUP-estimointia. Sekä Espoon että koko pääkaupunkiseudun otosaineistosta muodostettujen yksikkö- ja aluetason mallien parametrien ja Espoon eri alueiden 20–64 -vuotiaaseen väestöön liittyvän tiedon avulla tuotettiin alue-estimaatteja Espoon pien-, tilasto- ja suuralueille. Koetun terveyden aluekeskiarvon estimointi onnistui kaikilla aluetasoilla kyseisen aluetason malliin perustuvalla EBLUP-estimaattorilla. GREG-estimaattori onnistui vain suuraluetason estimoinnissa, muilla aluetasoilla alueiden pienet otoskoot huononsivat GREG-estimaatin tarkkuutta. Yksikkötason sekamallin huono selitysvoima ja mallista puuttuva selittäjä huononsivat siihen perustuvan EBLUP-estimaattorin tarkkuutta. Estimoinnin kannalta mallitasoa tärkeämmäksi osoittautui mallin hyvyyden toteutuminen. Voiman lainaaminen kohdejoukon ulkopuoliselta otokselta heikensi satunnaisvaikutuksen merkitsevyyttä ja alue-estimaattien välistä vaihtelua sekä lisäsi estimaattien tarkkuutta. Pienaluetiedon tuottaminen onnistuu EBLUP-estimaattoreilla jopa 85 pienalueelle noin 800 havainnon otosaineistosta, mikäli käytössä on luotettavaa lisäinformaatiota ja hyvä malli. GREG-estimaattori sallii huonomman mallin käytön, mutta edellyttää suurempia pienalueittaisia otoskokoja kuin EBLUP-estimaattorit. EBLUP-estimaattoreiden etuna on alueittaisen otoskoon lisäksi mahdollisuus perustaa estimointi sekä yksikkötasoiseen että aluetasoiseen malliin. Pienalue-estimointimenetelmät lisäävät otosaineistojen hyödyntämismahdollisuuksia. Onnistumisen takaa menetelmiin sisältyvien, aineistoon ja malliin kohdistuvien vaatimusten huomiointi tiedonkeruun suunnitteluvaiheessa mm. kysymysten asettelussa. Pienalue-estimointimenetelmien käyttö edellyttää tilastollista osaamista, kriittisyyttä saatuja tuloksia kohtaan ja vastuullisuutta tuloksia julkaistaessa. Laatuvaatimukset täyttävät pienalue-estimaatit soveltuvat hyvin päätöksenteon tueksi, kun halutaan vertailla alueita ja kohdentaa resursseja tarvelähtöisesti.
Eturauhaussyöpäkuolleisuuden selittäminen elinaika-analyysin avulla

Asikainen, Timo (2011)

Eturauhassyöpä on miesten yleisin syöpä länsimaissa. Suomessa se aiheuttaa vuosittain noin 800 kuolemaa ja uusia eturauhassyöpiä diagnosoidaan vuosittain yli 4 000 kappaletta. Eturauhassyövän tarkasteleminen tilastotieteen keinoin on lähtökohtaisesti kannattavaa, koska eturauhassyövän diagnosoinnista ja hoidosta kerätään laajoja ja kattavia tietoaineistoja. Aineistojen otoskoot ovat lisäksi sairauden yleisyydestä johtuen verrattain suuria, mikä edesauttaa tilastollisia analyyseja. Tässä tutkielmassa analysoidaan tilastollisesti suomalaisesta eturauhassyövän seulontatutkimuksesta peräisin olevaa aineistoa ($n$=1 608) elinaika-analyysin keinoin. Elinaika-analyysi on tilastotieteen osa-alue, jonka tehtävänä on antaa vastauksia kysymyksiin, jotka liittyvät tiettyjen kiinnostavien tapahtumien ilmenemiseen ja selittävien tekijöiden vaikutukseen tapahtumien ilmenemiseen. Elinaika-analyysin menetelmistä sovelletaan regressiomalleihin kuuluvaa Coxin suhteellisten riskitiheyksien mallia ja Kaplan-Meierin estimaattoreita. Sovelletut menetelmät ovat yleisesti sovellettuja eturauhassyövän tilastollisessa analyysissa. Analyysin tulokset osoittavat, että diagnoosihetkellä määritetyt muuttujat selittävät eturauhassyöpäkuolleisuutta tilastollisesti merkitsevällä tavalla. Merkittävä osa kuolleisuudesta jää kuitenkin selittämättä, minkä vuoksi saatujen tulosten sovellettavuus rajoittuu väestötason tarkasteluun; yksittäisiä potilaita koskevien hoitopäätösten teko vaatii diagnoosihetkellä määritettyjen muuttujien lisäksi muita tutkimuksia. Analyysiin sisältyvät diagnostiset tarkastelut eivät paljasta merkittäviä poikkeamia sovellettuihin tilastollisiin menetelmiin sisältyvistä oletuksista.
Exact logistinen regressiomalli kuluttajatyytymättömyyden sekä teleoperaattorin vaihdon selittämisessä mobiiliviestintäalalla Pohjoismaissa

Leinikka, Jussi (2018)

Mobiililiittymien käyttö on muuttunut viimeisen puolen vuosikymmenen aikana huomattavasti mobiilidatan käytön kasvaessa merkittävästi ja ala on edelleen jatkuvassa murroksessa. Tällaisessa muuttuvan markkinan tilanteessa on tärkeää niin markkinaviranomaisille kuin alan yrityksillekin ymmärtää kuluttajien mielipiteitä ja toimintaa. Tässä tutkielmassa selvitetään kuluttajatyytymättömyyteen sekä operaattorin vaihtoon vaikuttavia tekijöitä mobiiliviestintäalalla Pohjoismaissa. Tekijöiden selvittämiseen käytetään logistista regressiomallia suurimman uskottavuuden estimoinnilla ja tulokset varmennetaan Exact logistisella regressiomallilla aineiston vinoumasta johtuen. Tutkielman aineistona käytetään Euroopan Komission keräämää eri toimialoihin liittyvää kyselyaineistoa. Taustateorian osalta tutkielmassa syvennytään kuluttajatyytymättömyyden käsitteeseen sekä tyytymättömän kuluttajan toimintamahdollisuuksiin. Kuluttajatyytymättömyyttä havaittiin kasvattavan mobiililiittymän kanssa koetut ongelmatilanteet sekä vastaajan matala luottamus alan toimijoihin ja vähentävän vastaajan suomalaisuus sekä erittäin hyvä taloudellinen tilanne. Operaattorin vaihdon todennäköisyyttä havaittiin kasvattavan mobiililiittymän kanssa koettujen ongelmatilanteiden aiheuttama aineellinen tai henkinen suuri haitta sekä Tanska vastaajan kotimaana. Vaihdon todennäköisyyttä laski Ruotsi vastaajan kotimaana ja internetin harva käyttö. Tulokset olivat yhdensuuntaisia molemmilla estimointimenetelmillä kummassakin mallinnuskohteessa.
GMAR- ja StMAR-mallin yleistäminen G-StMAR-malliksi

Virolainen, Savi (2018)

Erityisesti taloudellisissa ilmiöissä sekä niitä kuvaavissa aikasarjoissa esiintyy usein vaihtelua eri tilojen välillä, esimerkiksi markkinoiden vakauden heilahtelun aiheuttamana. Eri tilojen välillä vaihtelua selittämään kykeneviä aikasarjamalleja ovat muun muassa autoregressiiviset sekoitusmallit. Tällaisia ovat esimerkiksi GMAR-malli (Gaussian Mixture Autoregressive) ja StMAR-malli (Student's t Mixture Autoregressive), joihin perustuen tutkielmassa esitetään molempien piirteitä hyödyntävä G-StMAR-malli (Gaussian and Student's t Mixture Autoregressive). Autoregressiiviset sekoitusmallit voidaan ajatella kokoelmaksi lineaarisia autoregressiivisiä malleja, joista kutakin kutsutaan mallin komponentiksi. Kunkin komponentin ajatellaan kuvaavan kutakin ilmiössä esiintyvää tilaa. GMAR-mallissa komponenttien oletetaan olevan normaalisia autoregressiivisiä prosesseja, kun taas StMAR-mallissa ne ovat t-jakaumaan perustuvia, ehdollisesti heteroskedastisia autoregressiivisiä prosesseja. StMAR-mallin komponenttien ehdollisen varianssin riippuvuus samoista parametreista kuin ehdollinen odotusarvo voi kuitenkin olla rajoittava tekijä tapauksissa, joissa komponenttikohtainen ehdollinen odotusarvo on vahva, mutta ehdollinen varianssi heikko. Tästä syystä StMAR-malli yleistetään tutkielmassa G-StMAR-malliksi sallimalla osan sen komponenteista perustuvan GMAR-mallin käyttämiin normaalisiin autoregressiivisiin prosesseihin, joissa ehdollisen varianssin oletetaan olevan vakio. Tutkielmassa esitellään GMAR-malli ja StMAR-malli, ja määritellään niiden pohjalta G-StMAR-malli. Lisäksi osoitetaan, että GMAR-mallin ja StMAR-mallin houkuttelevat teoreettiset ominaisuudet, kuten ergodisuus ja stationaarisen jakauman tunteminen, periytyvät ilmeisellä tavalla myös G-StMAR-mallille. Mallien esittelemisen jälkeen tutkielmassa kerrotaan lyhyesti, kuinka esitetyt mallit voidaan estimoida kaksivaiheista menetelmää käyttäen, miten malleille voidaan valita sopivat asteet, kuinka kvantiiliresiduaaleja voidaan hyödyntää mallin sopivuuden tarkastelemisessa ja miten taustalla olevan prosessin tulevia havaintoja voidaan ennustaa simulaatiomenettelyllä. Tutkielman empiirisessä osiossa tutkitaan, millaisiksi G-StMAR-mallin parametrit estimoituvat pohjana olevaan StMAR-malliin verrattuna, ja lisäksi mallien ennustetarkkuuksia vertaillaan toisiinsa. Esimerkkiaineistona käytetään Standard & Poor's 500 osakemarkkinaindeksin päivittäistä volatiliteettia kuvaavaa, ajanjakson 3.1.2000-20.5.2016 kattavaa aikasarjaa. Tutkielman tulosten perusteella StMAR- ja G-StMAR-mallien ennustetarkkuuksien välillä ei voida sanoa olevan juurikaan eroa, mutta joissakin tapauksissa voidaan G-StMAR-malliin siirtymällä välttää StMAR-mallin parametrien estimaatteja koskevia ongelmia.
GMAR-mallin parametrien kaksivaiheinen estimointi

Karttunen, Henri (2015)

Aikasarjoissa ilmenevien ei-normaalisten piirteiden mallintamiseen voidaan käyttää epälineaarisia aikasarjamalleja, joista erityisesti tutkielmassa tarkastellaan autoregressiivisia sekoitusmalleja. Autoregressiiviset sekoitusmallit määritellään sekoituksena lineaarisista autoregressiivisista malleista ja erona eri sekoitusmallien välillä on niiden sekoitussuhteiden määrittely. Autoregressiivisella GMAR (Gaussian Mixture Autoregressive)-sekoitusmallilla on houkuttelevia teoreettisia ominaisuuksia, sillä sen stationaarinen jakauma tunnetaan ja sen stationaarisuusehto ja ergodisuus voidaan johtaa ilman lisärajoituksia parametreille. Kuitenkin sekoitussuhteiden monimutkaisesta määrittelystä johtuen sen parametrien estimointi käyttäen kirjallisuudessa usein käytettyä EM-algoritmia on hankalaa. Tästä syystä tutkielmassa selvitetään mahdollisuutta käyttää parametrien estimoinnissa kaksivaiheista menetelmää, jossa geneettisen algoritmin avulla etsitään alkuarvoja gradienttiperusteiselle optimointialgoritmille. Parametrien estimoinnin lisäksi tutkielmassa tarkastellaan mallinvalintaa osana estimointiprosessia. Tarkasteltavia työkaluja sopivan mallin etsinnässä ovat informaatiokriteerit sekä erilaiset kvantiiliresiduaaleihin perustuvat testit, joiden avulla voidaan tehdä mallidiagnostiikkaa tavallisten residuaalien tapaan myös silloin, kun tavallisia residuaaleja ei voida käyttää. Lisäksi tarkastellaan ennusteiden laskemista simulaatioiden avulla ja esitetään miten GMAR-mallia voidaan simuloida. Tutkielman empiirisessä osassa tarkastellaan kahta esimerkkiä, joista ensimmäisessä keskitytään estimointiin, mallinvalitaan ja diagnostiikkaan. Tässä esimerkissä aineistona käytetään yhdysvaltain kuukausittaista inflaatiota vuodesta 1975 vuoteen 2015. Toisessa empiirisessä esimerkissä tarkastellaan tuulen nopeuksia päivittäisen aineiston avulla ja keskitytään erityisesti ennusteiden laskemiseen. Tuulen nopeutta mittaava aineisto on ei-negatiivinen aikasarja ja siksi esimerkissä tarkastellaan estimointia logaritmoidun sarjan avulla ja alkuperäisen sarjan ennustamista. Tutkielman tulosten perusteella kaksivaiheinen estimointi käyttäen geneettistä algoritmia toimii GMAR-mallin tapauksessa hyvin ja kohtuullisessa ajassa.
Haastattelijavaikutus EU-rikosuhritutkimuksessa ja kansallisessa uhritutkimuksessa

Pelanteri, Antti (2012)

Haastattelu on yksi yleisimmistä tiedonkeruun menetelmistä, ja sitä käytetään useilla yhteiskuntaa käsittelevillä aloilla. Siihen, kuten kaikkiin tiedonkeruumenetelmiin, liittyy virhelähteitä. Tämä tutkielma tarkastelee haastattelijoiden vaikutusta kerättyyn aineistoon. Tarkoituksena on selvittää, miten haastattelijat ja haastattelutilanne vaikuttavat vastauksiin, miten näitä vaikutuksia mitataan sekä mikä on niiden suuruusluokka ja merkitys survey-tutkimuksessa. Haastattelu on erittäin monimutkainen survey-toiminto, sillä se sisältää kognitiivista vuorovaikutusta haastattelijan ja vastaajan välillä. Haastattelijan toimenkuvaan kuuluu paljon muutakin kuin vain kysymyksen lukeminen ääneen vastaajalle: haastattelijan pitää lisäksi muun muassa selvittää, onko henkilö oikeutettu vastaamaan tutkimukseen, suostutella hänet osallistumaan ja kysyä häneltä tarvittaessa tarkentavia kysymyksiä. Haastattelijan tehtävien monimutkaisuus altistaa helposti virheille ja vaihtelulle eri haastattelijoiden välillä. Käyntihaastatteluin suoritettavissa survey-tutkimuksissa ei yleensä ole kustannustehokkuuden vuoksi mahdollista osittaa vastaajajoukkoa haastattelijoille täysin satunnaisesti. Puhelinhaastatteluissa vastaavaa ongelmaa ei periaatteessa ole, mutta tämän tutkielman aineistoissa vastaajat oli silti allokoitu haastattelijoille alueellisin perustein myös puhelinhaastatteluissa. Näistä seikoista johtuen analyysiasetelmaa ei voitu rakentaa yksinkertaisen varianssianalyysin pohjalta, sillä tällöin alueiden ja haastattelijoiden vaikutukset olisivat sekoittuneet toisiinsa. Näin ollen tutkielmassa tarvittiin monitasomallien soveltamista. Käytetyn mallin hierarkkisessa rakenteessa vastaajat ovat alimmalla tasolla ja haastattelijat ja alueet molemmat toisella asteella, mutta keskenään ristiinkytkeytyneinä. Tutkielman empiirisessä osiossa aineistona on kaksi Tilastokeskuksen keräämää uhritutkimusaineistoa: EU-rikosuhritutkimus ja kansallinen uhritutkimus. Rikoksista kerätään luonnollisesti tietoa suoraan viranomaisilta, mutta koska kaikki rikokset tai uhrikokemukset eivät tule viranomaisten tietoon, tarvitaan survey-tutkimusta. Herkän aihealueen vuoksi hypoteesina oli, että haastattelijavaikutusta esiintyy enemmän kuin sellaisissa tutkimuksissa, joissa aiheet ovat olleet neutraalimpia. Aineiston perusteella tutkielmassa vastataan erityisesti kysymyksiin, kuinka paljon haastattelijavarianssi selittää tulosmuuttujien kokonaisvarianssista, kuinka suuri on asetelmakerroin ja mitkä ovat alueellisten ja haastattelijavaikutusten suuruuksien suhteet. Lisäksi on mallinnettu haastattelijoiden vaikutusta vastauskatoon. Havaitut haastattelijavaikutukset poikkeavat suuresti toisistaan eri tulosmuuttujien välillä. Keskimäärin havaitut vaikutukset ovat kansainvälisissä verrokkitutkimuksissa havaittuja vaikutuksia pienempiä. Suomalaisia vertailukohteita varsinaisista analyysin kohteista ei ole. Haastattelijavaikutukset ovat paikoin suurempia kuin aluevaikutukset, erityisesti kaikkein herkimmiksi koetuissa kysymyksissä. Asetelmavaikutukset eivät pääsääntöisesti nouse suuriksi edes eniten sisäkorrelaatiota sisältävissä kysymyksissä, sillä haastattelijakohtaiset haastattelumäärät olivat maltillisia. Keskivirheet ovat sisäkorrelaatioiden suuruuteen nähden isoja, ja vain muutamat kysymykset sisältävät tilastollisesti merkitsevää sisäkorrelaatiota. Tulosten perusteella näyttää, että haastattelijat noudattavat sovittuja haastattelukäytäntöjä hyvin ja toimivat siten riittävän yhdenmukaisesti. Kertaluontoisissa survey-tutkimuksissa haastattelijavaikutustutkimukset ovat osa surveyn jälkeistä laadun arviointia. Toistettavassa tutkimuksessa tai saman tutkimuksen eri aalloissa haastatteluvaikutusten tutkimisen avulla voidaan seuraavalla kerralla tai seuraavassa aallossa parantaa surveyn laatua. Monissa survey-tutkimuksissa haastattelijavaikutusten tutkiminen olisi mahdollista rutiininomaisesti ilman monimutkaisia analyysiasetelmia ja tutkielmassa halutaan kannustaa tähän. Tärkeimpiä lähteitä tutkielmassa ovat L. Kishin tutkimus haastattelijavarianssista mielipidekysymyksissä, F. Fowlerin ja T. Mangionen standardoidusta haastattelumallista esittämät ajatukset, J. Hoxin teos monitasomalleista sekä S. Gablerin ja P. Lahirin artikkeli haastattelijavaikutuksista monimutkaisissa otanta-asetelmissa. Tutkielman aiheeseen johdatteli S. Laaksosen Helsingin yliopistossa pitämä survey-metodiikan kurssi.
Havaintovälin pituuden vaikutus kuolevuusennusteen tarkkuuteen

Lehtinen, Milla (2015)

Väestöennustelaskelmia tehdään, jotta voidaan varautua tulevaisuuden väestönkehitykseen, esimerkiksi huoltosuhteen muutokseen. Pro gradu -tutkielman tarkoitus oli kehittää kuolevuusennustetta, joka on osa väestöennustetta. Kuolevuutta mallinnettiin ja ennustettiin Suomen aineistoa käyttäen. Tutkimuskysymys oli havaintovälin pituuden vaikutus ennusteen tarkkuuteen. Kuolevuutta ennustettiin ekstrapoloimalla, eli yhteiskunnallisiin tai lääketieteellisiin muutoksiin ei otettu kantaa. Miesten ja naisten kuolevuus ennustettiin erikseen, koska niissä on suuria eroja. Tutkimus rajattiin koskemaan 60–99-vuotiaita. Tutkielmassa vertailtiin toteutunutta ja ennustettua kuolemanvaaralukua. Kuolemanvaaraluku tietyssä iässä kertoo todennäköisyyden kuolla ennen seuraavan iän saavuttamista ja sitä estimoidaan kuolevuuslukujen avulla. Kuolevuusluku lasketaan suhteuttamalla ikäryhmän kuolleet ikäryhmän keskiväkilukuun havaintovuonna. Puuttuvat ja epäuskottavat arvot korvattiin aineistosta interpoloidulla arvolla. Tutkielmassa käytettiin Human Mortality Database -tietokannan ja Tilastokeskuksen StatFin-tietokannan aineistoja. Tarkasteluperiodeiksi valittiin kaksi viiden peräkkäisen vuoden jaksoa vuosilta 1958–2012. Tarkasteluperiodien keskipisteiden etäisyydeksi eli havaintoväliksi valittiin 10–30 vuotta, kun Tilastokeskuksen nykyisin käyttämä havaintoväli on 20 vuotta. Ennustettiin 1–41 vuoden päähän eli havaintovälistä riippuen vuosia 1973–2013. Ennustevuodet valittiin menneeseen aikaan, jotta voitiin verrata toteutunutta ja ennustettua kuolevuutta. Tilastokeskuksen mallin mukaisesti ennuste laskettiin viimeisimmän havaitun kuolemanvaaraluvun ja alenemisvauhdin avulla. Kuolemanvaaraluvun alenemisvauhti riippuu kuolevuuden trendistä valitulla havaintovälillä. Jos kuolevuus laskee nopeasti tarkasteluperiodien välillä, myös ennuste on jyrkempi kuin tilanteessa, jossa ennustetaan perustuen pitkän aikavälin suhteellisen maltilliseen muutokseen. Saatuja ennusteita verrattiin toteutuneisiin lukuihin laskemalla suhteellisia keskineliövirheitä. Keskineliövirheistä otettiin ensin neliöjuuri ja tutkittiin graafisesti virheen suhdetta ennustevälin pituuteen eri havaintoväleillä. Sen jälkeen valittiin ennustevälit 1–20, joista oli kaikilla havaintoväleillä vähintään kaksi havaintoa, ja laskettiin niistä keskineliövirheiden summat havaintoväleittäin. Kuvien ja taulukoiden perusteella suositetut havaintovälit vastaavat Tilastokeskuksen nykyisin käyttämää väliä naisilla ikäryhmissä 65–84-vuotiaat sekä miehillä 80—89- ja 95–99-vuotiaat. Miehillä virheet ovat suurempia kuin naisilla ja mikään havaintoväli ei tuota tarkkoja ennusteita erityisesti nuoremmissa ikäryhmissä. Suoritettiin myös dekompositio eli hajotettiin keskineliövirhe varianssiin ja harhan neliöön. Havaittiin, että varianssin osuus keskineliövirheestä pienenee ennustevälin pidentyessä ja miehillä harhan osuus on keskimäärin suurempi kuin naisilla. Havaitaan, että paras mahdollinen havaintoväli vaihtelee jonkin verran ikäryhmittäin ja sukupuolittain. Kuolevuusennusteita laadittaessa tulisi siis ottaa huomioon optimaaliset ikäryhmittäiset havaintovälit. Toisaalta ennustemallin vaihtaminen saattaisi mahdollistaa parempia ennusteita kuin mitä pelkällä ikäryhmän ja sukupuolen huomioon ottavalla havaintovälin muutoksella saavutetaan.
Helsinkiläisten kerrostaloasuntojen hinnanmuodostus

Hakala, Jani (2018)

Tutkielman tavoitteena on luoda lineaarisen regressioanalyysin avulla hinnoittelumalli helsinkiläisille kerrostaloasunnoille, minkä avulla pyritään selvittämään asuntojen hinnanmuodostukseen vaikuttavia tekijöitä ja niiden vaikutusten suuruutta. Tutkielman alussa kuvataan asuntomarkkinoita Suomessa keskittyen erityisesti hinnanmuodostukseen mahdollisesti vaikuttaviin tekijöihin. Teoriaosiossa käsitellään lineaarista regressioanalyysiä, jota voidaan käyttää yhden selitettävän muuttujan ja yhden tai usean selittävän muuttujan välisen lineaarisen yhteyden mallintamiseen ja selittämiseen. Tutkielman empiiristä osiota varten on poimittu aineisto Kiinteistönvälitysalan Keskusliitto ry:n KVKL HSP -hintaseurantapalvelusta. Palvelusta löytyy suomalaisten kiinteistönvälittäjien tekemät asuntokaupat sisältäen yksityiskohtaista tietoa myydyistä asunnoista. Aineistoksi rajattiin tammikuun 2016 ja elokuun 2017 välillä tapahtuneet helsinkiläiset kerrostaloasuntokaupat. Lisäksi aineistoa on rikastettu lisäämällä kohteiden sijaintikoordinaatit avoindata.fi -palvelusta, mistä löytyy Väestönrekisterikeskuksen ylläpitämät tiedot, sekä R-ohjelmiston avulla laskettu erilaisia matka-aikoja ja -pituuksia kohteista keskustaan hyödyntäen Google Maps -karttapalvelun ohjelmointirajapintaa. Tutkielmassa muodostetaan pienimmän neliösumman menetelmällä yhteensä kolme eri estimointimallia, joiden avulla kuvataan ja selitetään eri ominaisuustekijöiden vaikutuksia asunnon hintaan. Mallit kuvaavat niissä olevien yksittäisten selittäjien arvojen vaihtelun vaikutusta, kun muiden selittäjien vaikutus on vakioitu. Tutkielmassa onnistuttiin selittämään asuntojen hinnanmuodostusta melko tarkasti. Saadut tulokset ovat odotetun suuntaisia suhteessa taustateoriaan, ja niiden perusteella helsinkiläiset kerrostaloasunnot ovat hyvin moniuloitteisia hyödykkeitä, joiden hinnat määräytyvät useiden hintatekijöiden yhteisvaikutuksen perusteella. Tutkielman tuloksissa näkyi lisäksi selvästi asuntomarkkinoiden suhdanteen nousukehitys.

Now showing items 1-20 of 87

Browsing by discipline "Statistics"

Yhteystiedot

HELSINGIN YLIOPISTO