Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by department "Matematiikan ja tilastotieteen laitos"

Sort by: Order: Results:

  • Tamminen, Mira Johanna (2016)
    Vakuutusten hinnoittelussa ongelmaksi muodostuu vakuutusmaksun oikean tason löytyminen huomioiden vakuutetun sekä yhtiön intressit. Työssä ongelmaa lähestytään credibility-teorian avulla ja ratkaisuna tähän ongelmaan esitetään Bühlmann-Straub-malli. Vakuutusmaksu koostuu useasta eri osasta, tässä tutkielmassa kiinnostukseen kohteena on riskimaksu. Riskimaksu on se osa vakuutusmaksua, joka kohdistuu suoraan korvauksiin. Aluksi riskimaksu määritetään yhdelle vakuutetulle, nojautuen vakuutetun omaan vakuutushistoriaan. Esitetään myös kollektiivin riskimaksu, jossa huomioidaan se tosiasia että vakuutettu kuuluu joukkoon samankaltaisia vakuutettuja. Todellisuudessa riskimaksu on kuitenkin yhdistelmä näistä kahdesta ominaisuudesta. Esitetään credibility-teoriaa hyödyntäen riskimaksulle estimaattori, joka yhdistää vakuutetun oman vahinkohistorian ja sen tosiasian, että vakuutettu kuuluu tiettyyn heterogeeniseen kollektiiviin. Löydetään kertoimet painottamaan näitä ominaisuuksia ja riskimaksulle saadaan sopiva estimaattori, jota kutsutaan credibility-estimaattoriksi ja tämän avulla saatua riskimaksua credibility-maksuksi. Laajennetaan credibility-maksun käsite esitettäväksi L^2- avaruudessa. Tässä yleisessä mallissa ei aiemmin määriteltyjä todennäköisyysjakaumia määritellä tarkasti ja esitetään tärkeitä tuloksia itse Bühlmann-Straub-mallin määrittämistä varten. Lopuksi päästään päälauseeseen. Bühlmann-Straub-malli on laajennus tutkielmassa aiemmin esitetyistä malleista. Mallissa esitetään credibility-estimaattori sekä homogeeninen credibility-estimaattori ja jälkimmäisen avulla credibility-maksu. Tässä laajennetussa mallissa määritelty credibility-maksu ottaa huomioon koko yhtiön koko vakuutuskannan. Esitetään myös malliin liittyviä tunnuslukuja.
  • Hyvärinen, Tommi (2015)
    Tutkielmassani käsitellään Burgersin yhtälön nimellä tunnettua kvasilineaarista osittaisdifferentiaaliyhtälöä, sekä paneudutaan osittaisdifferentiaaliyhtälöiden teoriaan yleisemmin. Fyysikko Johannes Martinus Burgersin mukaan nimetyllä yhtälöllä voidaan kuvata häiriöiden etenemistä fluideissa, ja sitä voidaan soveltaa myös vaikkapa liikenneruuhkien kehittymisen analysointiin. Burgersin yhtälö on esimerkki yleisemmästä säilymislaista. Matemaattisessa fysiikassa säilymislakien mukaan eristetyssä systeemissä vuorovaikutustapahtumissa tiettyjen suureiden kokonaismäärät pysyvät muuttumattomina. Tunnetuin esimerkki säilymislakeihin liittyen on Noetherin lause, jonka mukaan suurella on vastaavuus tietyn systeemin symmetriaominaisuuden kanssa. Esimerkiksi nestedynamiikan Navier-Stokesin yhtälö on esimerkki epähomogeenisesta versiosta säilymislakia. Tutkimukseni alussa esitellään Hamilton-Jakobin yhtälö, sekä sivutaan variaatiolaskentaa, Legendren muunnosta ja Euler-Lagrangen yhtälöitä. Näytetään, miten annettu osittaisdifferentiaaliyhtälö voidaan samaistaa karakteristiseen yhtälöryhmään, joka koostuu tavallisista differentiaaliyhtälöistä. Karakteristinen yhtälöryhmä johdetaan kvasilineaarisen osittaisdifferentiaaliyhtälön tapauksessa ja sille annetaan geometrinen tulkinta. Ensimmäisen luvun lopussa Hamilton-Jacobin yhtälö ratkaistaan Hopf-Lax kaavan avulla. Toisessa ja kolmannessa luvussa esitellään Burgersin yhtälö ja ratkaistaan se karakteristisen yhtälöryhmän avulla. Saatu ratkaisu ei kuitenkaan päde kaikkialla, vaan tapauksissa, joissa karakteristiset käyrät kohtaavat ('shokkikäyrä'), Burgersin yhtälön ratkaisu vaatii ratkaisufunktion ehtojen heikentämistä ja ingraaliratkaisun määrittelemistä. Rankine-Hugoniot-ehto johdetaan ja sen avulla voidaan löytää ratkaisuja tilanteessa, jossa karakteristiset käyrät leikkaavat. Esittelen myös entropia-ehdon, jonka avulla karsitaan 'epäfysikaaliset' ratkaisut pois ja täten saadaan yksikäsitteinen ja yleinen ratkaisu Burgersin yhtälölle. Lopuksi todistan Lax-Oleinikin kaavan, joka antaa ratkaisun yleisemmälle ongelmalle. Lopuksi tälle ratkaisulle räätälöidään entropia-ehto, jotta siitä saadaan yksikäsitteinen.
  • Ng, Kim (2012)
    In analysis of structural information for transmembrane (TM) proteins it is ideal to work with a three-dimensional (3D) structure. This is not always possible as determining an accurate 3D structure can be challenging and expensive as pursuing one can take large amounts of time. Sequence analysis is often used as a surrogate to determine a subset of information regarding secondary and tertiary protein structure given the primary structure (an amino acid sequence). Using Equilibrative Nucleoside Transporter member 1 (ENT1) as a model, the objective of predicting secondary and tertiary structure given primary structure is attempted through computational (in silico) methods. The in silico methods include the use of a pipeline of programs spanning both custom made and ready built software. A set of 2034 homologous protein sequences are first obtained from the initial human ENT1 (hENT1) sequence through a BLASTp. This sequence information is then processed to acquire information on variation, conservation, and hydrophobicity through topology prediction, hydropathic moment plots and variation moment plots. Comparing these results with data acquired from Glycerol-3-Phosphate Transporter (GlpT), a protein with a known 3D structure of 3.3 Angstrom resolution is done to assess evidence of evolutionary origin. This in turn allows estimation on the reliability of predictions to be made on aspects of the secondary and tertiary structure for hENT1. The results show that within predicted TM alpha helical regions that there is some level of correlation between the variation of the amino acids within the alpha helical TM region and its orientation towards the membrane. This can be further refined by gathering statistics on other known proteins with a 3D structure for their relationships in TM regions to hydrophobicity and variability. This will aid in secondary and tertiary structure predictions of other TM proteins given further refinement and additional data. In addition, the sequence conservation information obtained should prove to be robust and allow for a large number of sequences to be analyzed to determine conservation of amino acids given a reference protein. Ideally this information will provide aid in determining interesting amino acids for experiments to be done on hENT1.
  • Keskinen, Matti (2012)
    Tässä tutkielmassa esitellään algebrallisen ryhmän käsite sekä hieman tavallisesta poikkeava tapa ymmärtää permutaatioita. Työn tärkeimpinä kohtina voi pitää Caleyn lausetta, joka yhdistää permutaation ja ryhmän käsitteet, sekä p-ryhmän käsitettä. Työssä käsitellään myös pintapuolisesti suoraan tuloon liittyviä ryhmiä. Varsinaisia esitietovaatimuksia työn ymmärtämiseksi ei ole, mutta tietynlainen matemaattinen yleissivistys on toivottavaa. Kenen tahansa kandidaattitasoisen matematiikan opiskelijan kuitenkin pitäisi pystyä ymmärtämään tämän tutkielman oleellinen sisältö. Esitelmäni perustuu Joseph J. Rotmanin kirjaan An Introduction to the Theory of Groups [2]. Tukena olen käyttänyt Tauno Metsänkylän ja Marjatta Näätäsen teosta Algebra I [1]. Permutaatioita käsittelevässä luvussa olen tukeutunut Pekka Tuomisen Todennäköisyyslaskenta I- kirjaan [3]. Permutaatioita oli tutkittu jo aikaisemminkin, mutta ryhmien teorian tutkimuksen aloitti varsinaisesti Galois (1811-1832). 1800-luvun lopussa ryhmäteoriaa tutkittiin lähinnä kahdessa päähaarassa. Nämä päähaarat olivat algebralliset ryhmät, erityisesti Lien ryhmät, sekä äärelliset ryhmät. 1900-luvulla ilmaantui kuitenkin kolmas päähaara, äärettömät ryhmät. Nykyään ryhmät esiintyvät monilla matematiikan aloilla, esimerkiksi geometriassa, topologiassa ja logiikassa.
  • Valve, Heikki (2012)
    Tässä tutkielmassa tarkastellaan Cantorin joukkoa ja sen soveltamista muutamiin matemaattisiin tarkoituksiin. Cantorin joukon määrittelyssä otetaan huomioon sen monet topologiset ominaisuudet. Tarkoituksena on muotoilla Cantorin joukkoon liittyvät matemaattiset erikoisuudet mahdollisimman ymmärrettävällä tavalla matematiikkaa vain vähän opiskelleelle. Cantorin joukko on hämmentänyt matemaatikkoja sen ensimmäisestä esiintymisestä lähtien. Joukko muodostetaan vaiheittain poistamalla yksikkövälistä [0, 1] avoimia kolmanneksia. Prosessin ensimmäisessä vaiheessa välistä [0, 1] poistetaan väli (1/3, 2/3). Seuraavassa vaiheessa kahdesta välistä [0, 1/3] ja [2/3, 1] poistetaan jälleen niiden keskimmäiset kolmannekset eli välit (1/9, 2/9) ja (7/9, 8/9). Kun tätä prosessia jatketaan loputtomasti, välistä [0, 1] lopulta jäljelle jäävät pisteet muodostavat Cantorin joukon. Cantorin joukkoon kuuluvat ainakin kaikkien poistettujen välien päätepisteet. Yhtenä joukon erikoisuutena on kuitenkin se, että siihen kuuluu vielä ylinumeroituvasti ääretön määrä pisteitä, jotka eivät ole poistettujen välien päätepisteitä. Tämän seurauksena myös Cantorin joukko on siis ylinumeroituvasti ääretön. Topologiset ominaisuudet ovat Cantorin joukolla myös erikoisia. Voidaan osoittaa, että joukolla ei ole sisäpisteitä eli pisteitä, joilla olisi jokin Cantorin joukkoon kuuluva ympäristö. Lisäksi voidaan osoittaa, että jokainen Cantorin joukon piste on kasautumispiste eli piste, jonka jokaisessa ympäristössä on jokin toinen Cantorin joukon piste. Pirunporrasfunktionakin tunnetun Cantorin funktion lähtö- ja maalijoukko on yksikköväli [0, 1] eli gamma : [0, 1] -> [0, 1]. Funktion määrittely aloitetaan kuitenkin usein Cantorin joukon avulla. Nimen pirunporrasfunktio on saanut portaikkoa muistuttavasta kuvaajastaan. Vaikka gamma muistuttaa portaikkoa ja ensisilmäyksellä vaikuttaa katkonaiselta, niin se on kuitenkin jatkuva ja jopa tasaisesti jatkuva. Viimeisenä asiana tässä tutkielmassa esitetään lyhyesti Cantorin joukkoon liittyvä Lebesguen käyrä. Lebesguen käyrää sanotaan avaruuden täyttäväksi käyräksi, koska se kulkee jokaisen maalijoukkonsa, tässä tapauksessa yksikköneliön [0; 1] x [0; 1], pisteen kautta.
  • Wiikinkoski, Oskari (2013)
    Ylioppilastutkintolautakunta päätyi laskinohjetta uudistaessaan sallimaan kevään 2012 matematiikan ylioppilaskokeessa ensimmäistä kertaa myös niin kutsuttujen CAS-laskinten käytön. Tämä uudistus johti tilanteeseen, jossa osa pitkän matematiikan kokeen tehtävistä oli mahdollista ratkaista pelkästään laskimen avulla. Matematiikan opettajat ovat ilmaisseet huolensa laskinten käytön tuomista haasteista ja uhkista matematiikan opiskelulle ja opetukselle lukiossa sekä myös matematiikan tulevaisuudelle oppiaineena. Tässä tutkielmassa perehdytään teknisten apuvälineiden, erityisesti CAS-laskinten, käytön vaikutuksiin matematiikan opiskelussa sekä opettajien näkemyksiin ja odotuksiin siitä, miten laskimet tulevat muuttamaan lukion matematiikan opetusta ja ylioppilaskoetta. Matematiikan opettajien keskuudessa on herännyt kriittinen keskustelu uusien apuvälineiden käytöstä ja erityisesti CAS-laskinten antamasta edusta pitkän matematiikan ylioppilaskokeessa. Tässä tutkielmassa käydään läpi kevään 2013 pitkän matematiikan kokeen tehtäviä, ja pohditaan millaisen edun CAS-laskinta käyttävä ylioppilaskokelas saa sellaiseen opiskelijatoveriinsa verrattuna, jolla on käytössään tavallinen graafinen laskin ja taulukkokirja. Tehtävien ratkaisuja lähestytään konstruktivistisen oppimiskäsityksen ja -ratkaisuprosessin näkökulmasta. Ratkaisujen lopuksi pohditaan tulevatko ylioppilaskokelaan taidot mitatuksi tehtävän tarkoittamalla tavalla, jos kokelaalla on käytössään uusimmat tekniset apuvälineet. Lisäksi tutkielmassa esitellään mahdollisuuksia hyödyntää CAS-laskinta pitkän matematiikan opetuksen apuvälineenä ja tehdään katsaus saatavilla oleviin matematiikan ohjelmistoihin. Tutkielmassa käydään läpi myös Matemaattisten aineiden opettajien liiton keväällä 2012 tekemän CAS-laskimia koskevan kyselytutkimuksen tuloksia pohjustuksena laskimista käytävälle keskustelulle. Tutkielman tuloksena todettiin, että opettajakunta on jossain määrin kahtiajakautunut suhteessa teknisten apuvälineiden, erityisesti CAS-laskinten, käyttöön matematiikan opetuksen tukena. Yleinen vallitseva mielipide opettajien keskuudessa oli, että ainakin ylioppilaskokeen tehtäviä täytyy miettiä uudelleen, jos CAS-laskinten käyttö aiotaan sallia myös jatkossa. Jopa koko matematiikan kokeen uudistamista ehdotettiin. Tätä näkemystä tukevat myös tässä tutkielmassa pitkän matematiikan tehtävien ratkaisuista saadut kokemukset. Osa kokeen tehtävistä menetti jossain määrin merkityksensä, kun niiden ratkaisemiseen käytettiin apuvälineenä CAS-laskinta. Tutkielmassa havaittiin, että on silti mahdollista luoda myös sellaisia koetehtäviä, jotka edelleen mittaavat ylioppilaskokelaan matemaattisia taitoja luotettavasti.
  • Chuppin, Ivan (2013)
    This thesis provides a number of examples of changing cofinalities of cardinals using forcing. The main emphasis is put on the forcing notion developed by Prikry, which is used to change the cofinality of a measurable cardinal kappa to omega, while preserving all other cardinals and the universe below kappa . It is shown that the assumption of measurability cannot be weakened. Next, two variations of the original Prikry forcing are explored. Finally, a forcing notion developed by Namba is introduced, which makes the only nontrivial change of cofinality without assuming any large cardinal properties.
  • Oluwatosin, Ishmeal (2017)
    The finite simple groups started attracting the interest of the mathematicians in the nineteenth century, especially once the concept of normal subgroups was introduced by Galois in 1832; di erentiation between the simple and compound groups by Camille Jordan in 1870; and the theorems on subgroups of prime power order published by Ludwig Sylow in 1872. This was given in a historical form as a means of introduction. This thesis also focuses on the Sylow's theorem and their wide range of use in classifying nite groups in algebra. Groups of order 1-15 were classi ed using the Sylow's theorems in addition to other established results in algebra. The uniqueness and existence of such groups were also proved to the best of the writer's ability.
  • Eriksson-Bique, Sylvester (Helsingin yliopistoHelsingfors universitetUniversity of Helsinki, 2011)
    Cliffordin algebrat ovat äärellisulotteisia reaali- tai kompleksikertoimisia algebroja, jotka yleistävät kvaterneja ja kompleksilukuja. Näitä algebroja on kutsuttu myös geometrisiksi algebroiksi. Tässä tutkielmassa tarkastellaan analyysiä Cliffordin algebroilla ja sen sovelluksia. Analyysi tässä tarkoittaa sitä, että tarkastellaan Cliffordin algebraarvoisia funktioita, jotka omaavat erikseen määriteltyjä sileysominaisuuksia. Sovelluskohteina ovat osittaisdifferentiaaliyhtälöt ja reuna-arvo-ongelmat. Menetelmät ovat klassisia kompleksianalyysin menetelmiä. Tutkielmassa esitellään Cliffordin algebrat yleisille neliömuodollisille avaruuksille. Keskeisiä algebrallisia ominaisuuksia ovat Frobeniuksen teoreema ja perusoperaatiot. On yleisesti tunnettua, että kvaterneilla voidaan esittää kolmiulotteisen ja neljäulotteisen avaruuden rotaatiot. Tutkielmassa esitellään, miten Cliffordin ryhmiä, jotka ovat Cliffordin algebrojen osajoukkoja, käytetään useamman ulottuvuuden rotaatioiden esityksessä. Toinen sovelluskohde on Möbius-kuvausten esittäminen Vahlenin matriiseilla. Tutkielman toisessa osiossa määritellään monogeeniset funktiot erään Diracin operaattorin nollaratkaisuina. Monogeenisten funktioiden pääominaisuus on Cauchyn integraalikaava. Välittömiä seurauksia ovat esimerkiksi potenssisarjakehitelmät, analyyttisuus, Liuvillen teoreema ja muut klassisen kompleksianalyysin tuloksien yleistykset. Toisaalta monet kompleksianalyysin tulokset eivät yleisty. Esimerkiksi monogeenisten funktioiden tulo ei ole yleisesti ottaen monogeeninen. Potenssisarjat voidaan esittää monogeenisten polynomeiden avulla. Esitämme kannan monogeenisten polynomien avaruudelle käyttäen CK-laajennusta. Cauchyn ytimen ominaisuuksien avulla tarkastelemme Diracin operaattorin reuna-arvo-ongelmia ja nk. D-ongelmaa. Käyttäen Rungen lauseen yleistystä osoitamme D-ongelman yleisen ratkaistavuuden. Toisaalta reuna-arvo-ongelman ratkaistavuus karakterisoidaan käyttäen Cauchyn ytimen reuna-arvo-ominaisuuksia ja hyppyrelaatioita. Keskeinen sovellus tuloksille on aikaharmonisen Maxwellin yhtälön reuna-arvo-ongelmien tarkastelu. Mielenkiintoista on myös, miten Diracin operaattori linearisoi Laplacen operaattorin ja aalto-operaattorin. Toisaalta Diracin operaattorin avulla voidaan ilmaista Maxwellin yhtälöt tiiviissä muodossa. Muita tuloksia tutkielmassa ovat meromorfifunktioiden määritelmä ja Mittag-Lefflerin lause. Tutkielman lopuksi tarkastellaan lyhyesti harmonisten funktioiden ja monogeenisten funktioiden suhdetta. Jokainen harmoninen funktio on jonkin monogeenisen funktion reaaliosa. Tosin monogeeninen funktio ei ole yksikäsitteisesti määrätty sen reaaliosan avulla.
  • Asan-Liski, Bakiye Hilal (2014)
    Evolutionary mechanisms in living organisms exist in the most microscopic organisms too, such as populations of tumor cells. This process causes cancer to be one of the most difficult disease to cure for the objective of the evolutionary process taking place within the cells is to make the cancerous population resistant to treatment, while causing them to change in several ways and increase in number. One critical result of this process is called tumor heterogeneity, a term which is used to describe how each tumor population has distinctive properties within and between tumors. Cancer stem cells, small groups of cells that have the capability to form tumors, are one of the foundations of tumor heterogeneity. This study surveys expressions of known Cancer stem cells in different cancer types to note the effects of intratumor heterogeneity (heterogeneity within tumors). This comparative analysis consists of comparisons between normal tissues and cancerous tissues of the same cancer type (colorectal cancer) and between primary cancer tissues and metastatic cancer tissues of the same cancer type (colorectal cancer). The expectation is to observe cancer stem cells to be more expressive in metastatic tissues as they are source of transformation in primary cancers to become more aggressive metastatic cancers. All data used in this study were downloaded from National Center for Biotechnology Information (NCBI) Gene Expression Omnibus (GEO) website and data analysis were done with R/Bioconductor tools. After extracting the differentially expressed genes between the groups, functional annotation was carried out with The Database for Annotation, Visualization and Integrated Discovery (DAVID) Bioinformatics Tools.
  • Tuominen, Pekko (2016)
    Forecasting of solar power energy production would benefit from accurate sky condition predictions since the presence of clouds is a primary variable effecting the amount of radiation reaching the ground. Unfortunately the spatial and temporal resolution of often used satellite images and numerical weather prediction models can be too small for local, intra-hour estimations. Instead, digital sky images taken from the ground are used as data in this thesis. The two main building blocks needed to make sky condition forecasts are reliable cloud segmentation and cloud movement detection. The cloud segmentation problem is solved using neural networks, a double exposure imaging scheme, automatic sun locationing and a novel method to study the circumsolar region directly without the use of a sun occluder. Two different methods are studied for motion detection. Namely, a block matching method using cross-correlation as the similarity measure and the Lukas-Kanade method. The results chapter shows how neural networks overcome many of the situations labelled as difficult for other methods in the literature. Also, results by the two motion detection methods are presented and analysed. The use of neural networks and the Lukas-Kanade method show much promise for forming the cornerstone of local, intra-hour sky condition now-casting and prediction.
  • Elkin, Yury (2017)
    In this thesis we extend topological model of planar robotic hands emerging in the field of topological robotics. This research elaborates further recent works of Robert Ghrist and others. The main purpose of this thesis is to classify configuration spaces in terms of topological and algebraic invariants, which among others provides complexity estimates for potential optimization algorithms. The thesis is split into two parts. In the first part we investigate a robotic system consisting of a single hand which can occupy any position as long as it doesn't self-intersect. Using a new innovative representation of positions we are able to treat two basic movements of the robotic arm: the 'claw' and the 'swap' movements separately. The main appliance of this part is the nerve theorem, which helps to establish that under some restrictions the configuration space of such robotic hand has the homotopy type of S^1. In the second part we investigate systems consisting of multiple hands. This time we are dealing with hands limited to length one whose positions satisfy the two conditions: each pairwise hand trace intersection is contractible and the hand intersection graph is a forest. As the local main result we prove that the fundamental group of such robotic system is isomorphic to the Artin right-angeled group, where the set of generators is in bijection with the set of all hands and relations are determined by the intersection graph. The main tool exploited in this chapter is the Seifert-van Kampen theorem. Although the results are proven only for some special cases, the thesis introduces methodology that can drive their generalization further. In the final chapter we give a few sophisticated research directions.
  • Knuutinen, Janne (2017)
    Copuloista on tullut yleinen työkalu finanssimaailman käyttötarkoituksiin. Tämän työn tavoitteena on esitellä copuloiden teoriaa ja sen soveltamista rahoitusriskien mallintamiseen. Copulat määritellään ja niihin liittyvää keskeistä teoriaa käydään läpi. Tärkeimpiä korrelaatiokonsepteja esitellään, muun muassa tunnusluvut Kendallin tau ja Spearmanin rho. Lisäksi copulaperheet, joihin eniten käytetyt copulat kuuluvat, määritellään. Copuloiden parametreja voi estimoida eri metodien avulla. Kolme tärkeintä loguskottavuusfunktioon perustuvaa metodia käydään läpi, samoin kuin Monte Carlo -menetelmä, jolla voidaan simuloida muuttujia copuloista. Esitellään häntäriippuvuus, joka on hyödyllinen käsite äärimmäisiä ilmiöitä mallinnettaessa. Value at Risk eli VaR on yksi tärkeimmistä sijoitusriskien riskimitoista. Uudelleenjärjestelyalgoritmiin perustuvan menetelmän avulla voidaan laskea huonoimmat ja parhaat VaR:n arvot. Menetelmän toimintaa havainnollistetaan järjestelemällä eräs matriisi algoritmin avulla niin, että nähdään huonoimman VaR:n yläraja. Menetelmää sovelletaan vielä kolmen eri osakkeen, Nokian, Samsungin ja Danske Bankin, useamman vuoden päivittäisistä tappioista koostetun matriisin uudelleenjärjestelyyn. Näin saatu huonoimman VaR:n yläraja on suurempi kuin historiallisen VaR:n arvo, joka laskettiin toisella menetelmällä. Tutkielman teorian käytännön soveltamista jatketaan vielä laskemalla osakkeiden tappioiden välisiä korrelaatioita. Nokian ja Deutsche Bankin tappioiden välisen korrelaatiokertoimen huomataan olevan arvoltaan suurin, ja todettaan, että niiden välistä riippuvuusrakennetta voidaan kuvata parhaiten t-copulalla.
  • Yi, Xinxin (2015)
    Problem: Helsinki psychotherapy study (HPS) is a quasi-experimental clinical trial, which is designed to compare the effects of different treatments (i.e. psychotherapy and psychoanalysis) on patients with mood and anxiety disorders. During its 5-year follow-ups from the year 2000 to 2005, repeated measurements were carried out at 0, 12, 24, 36, 48, 60 months. However, some individuals did not show up at certain data collection points or dropped out of the study forever, leading to the occurrence of missing values. This will prevent the applications of further statistical methods and violate the intention-to-treat (ITT) principle in longitudinal clinical trials (LCT). Method: Multiple Imputation (MI) has many claimed advantages in handling missing values. This research will compare different MI methods i.e. Markov chain Monte Carlo (MCMC), Bayesian Linear Regression (BLR), Predictive Mean Matching (PMM), Regression Tree (RT), Random Forest (RF) in their treatments of HPS missing data. The statistical software is SAS PROC MI procedure (version 9.3) and R MICE package (version 2.9). Results: MI has better performance than the ad-hoc methods such as listwise deletion in the detections of potential relationships and the reduction of potential biases in parameter estimations if missing completely at random (MCAR) assumption is not satisfied. PMM, RT and RF have better performance in generating imputed values inside the range of the observed data than BLR and MCMC. The machine learning methods i.e. RT and RF are preferable than the regression methods such as PMM and BLR since the imputed data have quite similar distribution curves and other features (e.g. median, interguatile, skewness of distribution) as the observed data. Implications: It is suggestive to use MI methods to replace those ad-hoc methods in the treatments of missing data, if additional efforts and time are not a problem. The machine learning methods such as RT and RF are more preferable than those relatively arbitrary user-specified regression methods such as PMM and BLR according to our data, but further research are required to approve this indication. R is more flexible than SAS where RT and RF can be applied.
  • Kumar, Ajay Anand (2012)
    Due to next generation of sequencing technologies the amount of public sequence data is exponentially growing, however the rate of sequence annotation is lagging behind. There is need for development of robust computational tools for correct assignment of annotation to protein sequences. Sequence homology based inference of molecular function assignment and subsequent transfer of the annotation is the traditional way of annotating genome sequences. TF-IDF based methodology of mining informative description of high quality annotated sequences can be used to cluster functionally similar and dissimilar protein sequences. The aim of this thesis work is to perform the correlation analysis of TF-IDF methodology with standard methods of Gene Ontology (GO) semantic similarity measures. We have developed and implemented a high-throughput tool named GOParGenPy for effective and faster analysis related to Gene Ontology. It incorporates any Gene Ontology linked annotation file and generates corresponding data matrices, which provides a useful interface for any downstream analysis associated with Gene Ontology across various mathematical platforms. Finally, the correlation evaluation between TF-IDF and standard Gene Ontology semantic similarity methods validates the effectiveness of TF-IDF methodology in order to cluster functionally similar protein sequences.
  • Berg, Jeremias (2014)
    Clustering is one of the core problems of unsupervised machine learning. In a clustering problem we are given a set of data points and asked to partition them into smaller subgroups, known as clusters, such that each point is assigned to exactly one cluster. The quality of the obtained partitioning (clustering) is then evaluated according to some objective measure dependent on the specific clustering paradigm. A traditional approach within the machine learning community to solving clustering problems has been focused on approximative, local search algorithms that in general can not provide optimality guarantees of the clusterings produced. However, recent advances in the field of constraint optimization has allowed for an alternative view on clustering, and many other data analysis problems. The alternative view is based on stating the problem at hand in some declarative language and then using generic solvers for that language in order to solve the problem optimally. This thesis contributes to this approach to clustering by providing a first study on the applicability of state-of-the-art Boolean optimization procedures to cost-optimal correlation clustering under constraints in a general similarity-based setting. The correlation clustering paradigm is geared towards classifying data based on qualitative--- as opposed to quantitative similarity information of pairs of data points. Furthermore, correlation clustering does not require the number of clusters as input. This makes it especially well suited to problem domains in which the true number of clusters is unknown. In this thesis we formulate correlation clustering within the language of propositional logic. As is often done within computational logic, we focus only on formulas in conjunctive normal form (CNF), a limitation which can be done without loss of generality. When encoded as a CNF-formula the correlation clustering problem becomes an instance of partial Maximum Satisfiability (MaxSAT), the optimization version of the Boolean satisfiability (SAT) problem. We present three different encodings of correlation clustering into CNF-formulas and provide proofs of the correctness of each encoding. We also experimentally evaluate them by applying a state-of-the-art MaxSAT solver for solving the resulting MaxSAT instances. The experiments demonstrate both the scalability of our method and the quality of the clusterings obtained. As a more theoretical result we prove that the assumption of the input graph being undirected can be done without loss of generality, this justifies our encodings being applicable to all variants of correlation clustering known to us. This thesis also addresses another clustering paradigm, namely constrained correlation clustering. In constrained correlation clustering additional constraints are used in order to restrict the acceptable solutions to the correlation clustering problem, for example according to some domain specific knowledge provided by an expert. We demonstrate how our MaxSAT-based approach to correlation clustering naturally extends to constrained correlation clustering. Furthermore we show experimentally that added user knowledge allows clustering larger datasets, decreases the running time of our approach, and steers the obtained clusterings fast towards a predefined ground-truth clustering.
  • Koskinen, Miikka (2018)
    Työssä tarkastellaan majoriteettikvanttorien ilmaisuvoimaa sanamallien kontekstissa. Kuten eksistenssikvanttori (∃) ja universaalikvanttori (∀), majoriteettikvanttori on looginen kvanttori. Sillä voidaan ilmaista väitteen pätevän yli puolelle tarkasteltavan mallin perusjoukon alkioista. Deskriptiivisen vaativuusteorian näkökulmasta uniformi TC⁰-piirivaativuusluokka vastaa ensimmäisen kertaluvun logiikkaa yhteenlaskulla, kertolaskulla ja majoriteettikvanttorilla varustettuna. Työssä tutkitaan TC⁰-luokan sisäistä rakennetta rajoittamalla tarkastelu loogiseen fragmenttiin, jossa käyttettävissä on vain majoriteettikvanttori ja järjestysrelaatio. Työssä osoitetaan, että sekä eksistenssi- että universaalikvanttoria voidaan simuloida majoriteettikvanttorin ja järjestysrelaation avulla. Myös yhteenlasku ja perusjoukon parillisuus ovat ilmaistavissa. Sen sijaan kertolasku ei ole ilmastavissa yksipaikkaisella majoriteettikvanttorilla. Lisäksi työssä osoitetaan, että kertolasku voidaan ilmaista kaksipaikkaisella majoriteettikvanttorilla. Tästä seuraa, että kaksipaikkainen majoriteettikvanttori on aidosti voimakkaampi kuin yksipaikkainen majoriteettikvanttori.
  • Arppe, Alli-Kaisa (2014)
    Coxeterin ryhmät ovat ryhmiä, joille voidaan antaa esitys G=<s_1, ... s_d: s2_i=1, (s_i s_j)^m_{ij}=1> missä m_{ij}ЄZ. Tämän pro gradun tehtävänä on näyttää, että kyseisen rajoitetun esityksen ryhmiä on rajallinen määrä sekä esittää niiden luokittelu. Luokitteluun tarvittavia työkaluja ovat Coxeterin graafit ja matriisit. Pro gradussa muistutetaan tarpeellisista lineaarialgebran määritelmistä sekä annetaan taustatietoa positiividefiniitti ja positiivisemidefiniitti matriiseista. Lisäksi käydään läpi ryhmäteorian taustoja ja erityisesti ryhmien esittämistä generaattoreiden ja relaatioiden avulla. Taustatietojen jälkeen määritellään Coxeterin graafit muutamien esimerkkien kera ja selitetään miten matriisi voidaan johtaa Coxeterin graafin esityksestä. Työssä näytetään, että kaikki listatut Coxeterin graafit ovat joko positiividefiniittejä tai positiivisemidefiniittejä sekä todistetaan, että ne ovat ainoat positiividefiniitti ja -semidefiniitti graafit. Luokittelu loppuu siihen. Lopuksi pro gradussa annetaan yleisempi kuvaus rajallisten heijastusten ryhmistä (finite reflection groups).
  • Peussa, Aleksandr (2016)
    The major concern of lenders is to answer the next question: 'Who we lend to?' Until 1970s the traditional schema was used to answer this question. Traditional credit assessment relied on 'gut feel', which means that a bank clerk or manager analyses a borrower's character, collateral and ability to repay. Also, some recommendations from the borrower's employer or previous lender are used. The alternative approach is credit scoring, which is a new way to approach a customer. Credit scoring is one of the most successful applications of statistics in finance and banking industry today. It lowers the cost and time of application processing and gives flexibility in making trade off between risk and sales for financial institution. Credit scorecards are essential instruments in credit scoring. They are based on the past performance of customers with characteristics similar to a new customer. So, the purpose of a credit scorecard is to predict risk, not to explain reasons behind it. The purpose of this work is to review credit scoring and its applications both theoretically and empirically, and to end up with the best combination of variables used for default risk forecasting. The first part of the thesis is focused on theoretical aspects of credit scoring - statistical method for scorecard estimation and measuring scorecard's performance. Firstly, I explain the definition of the scorecard and underlying terminology. Then I review the general approaches for scorecard estimation and demonstrate that logistic regression is the most appropriate approach. Next, I describe methods used for measuring the performance of the estimated scorecard and show that scoring systems would be ranked in the same order of discriminatory power regardless the measure used. The goal of the second part is empirical analysis, where I apply the theoretical background discussed in the first part of the master's thesis to a data set from a consumer credit bank, which includes variables obtained from the application forms and from credit bureau data, and extracted from social security numbers. The major finding of the thesis is that that the estimated statistical model is found to perform much better than a non-statistical model based on rational expectations and managers' experience. This means that banks and financial institutions should benefit from the introduction of the statistical approach employed in the thesis.
  • Siljander, Ilona (2016)
    The purpose of this thesis is to study the cumulative probability of a false-positive (FP) test result during the Finnish 20-year breast cancer screening program. This study is based on breast cancer screening data provided by the Mass Screening Registry of the Finnish Cancer Registry, which consists of women aged 50–51 years at the time of their first invitation to mammography screening in 1992–1995. Generalized estimating equations (GEE) are used to estimate the cumulative probability of a FP screening result. In the theoretical part we present the corresponding theory together with reviewing the theory of generalized linear models (GLM). The cumulative probabilities are calculated from the modeling of individual examinations by using the theory and formulas of conditional probability. The confidence intervals (Cl) are calculated by using Monte Carlo simulation relying on the asymptotic properties of the GEE estimates. The estimated cumulative risk of at least one FP during the screening program was 15.84% (95% Cl: 15.49–16.18%). Previous FP findings increased the risk of (another) FP results with an odds ratio (OR) of 1.91 (95% Cl: 1.78–2.04), and OR 3.09 (95% Cl: 2.49–3.83) for one or more previous FP results, respectively. Irregular screening attendance increased the risk of FP results with an OR of 1.46 (95% Cl: 1.37–1.56).