Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by department "Department of Mathematics and Statistics"

Sort by: Order: Results:

  • Chuppin, Ivan (2013)
    This thesis provides a number of examples of changing cofinalities of cardinals using forcing. The main emphasis is put on the forcing notion developed by Prikry, which is used to change the cofinality of a measurable cardinal kappa to omega, while preserving all other cardinals and the universe below kappa . It is shown that the assumption of measurability cannot be weakened. Next, two variations of the original Prikry forcing are explored. Finally, a forcing notion developed by Namba is introduced, which makes the only nontrivial change of cofinality without assuming any large cardinal properties.
  • Oluwatosin, Ishmeal (2017)
    The finite simple groups started attracting the interest of the mathematicians in the nineteenth century, especially once the concept of normal subgroups was introduced by Galois in 1832; di erentiation between the simple and compound groups by Camille Jordan in 1870; and the theorems on subgroups of prime power order published by Ludwig Sylow in 1872. This was given in a historical form as a means of introduction. This thesis also focuses on the Sylow's theorem and their wide range of use in classifying nite groups in algebra. Groups of order 1-15 were classi ed using the Sylow's theorems in addition to other established results in algebra. The uniqueness and existence of such groups were also proved to the best of the writer's ability.
  • Eriksson-Bique, Sylvester (Helsingin yliopistoHelsingfors universitetUniversity of Helsinki, 2011)
    Cliffordin algebrat ovat äärellisulotteisia reaali- tai kompleksikertoimisia algebroja, jotka yleistävät kvaterneja ja kompleksilukuja. Näitä algebroja on kutsuttu myös geometrisiksi algebroiksi. Tässä tutkielmassa tarkastellaan analyysiä Cliffordin algebroilla ja sen sovelluksia. Analyysi tässä tarkoittaa sitä, että tarkastellaan Cliffordin algebraarvoisia funktioita, jotka omaavat erikseen määriteltyjä sileysominaisuuksia. Sovelluskohteina ovat osittaisdifferentiaaliyhtälöt ja reuna-arvo-ongelmat. Menetelmät ovat klassisia kompleksianalyysin menetelmiä. Tutkielmassa esitellään Cliffordin algebrat yleisille neliömuodollisille avaruuksille. Keskeisiä algebrallisia ominaisuuksia ovat Frobeniuksen teoreema ja perusoperaatiot. On yleisesti tunnettua, että kvaterneilla voidaan esittää kolmiulotteisen ja neljäulotteisen avaruuden rotaatiot. Tutkielmassa esitellään, miten Cliffordin ryhmiä, jotka ovat Cliffordin algebrojen osajoukkoja, käytetään useamman ulottuvuuden rotaatioiden esityksessä. Toinen sovelluskohde on Möbius-kuvausten esittäminen Vahlenin matriiseilla. Tutkielman toisessa osiossa määritellään monogeeniset funktiot erään Diracin operaattorin nollaratkaisuina. Monogeenisten funktioiden pääominaisuus on Cauchyn integraalikaava. Välittömiä seurauksia ovat esimerkiksi potenssisarjakehitelmät, analyyttisuus, Liuvillen teoreema ja muut klassisen kompleksianalyysin tuloksien yleistykset. Toisaalta monet kompleksianalyysin tulokset eivät yleisty. Esimerkiksi monogeenisten funktioiden tulo ei ole yleisesti ottaen monogeeninen. Potenssisarjat voidaan esittää monogeenisten polynomeiden avulla. Esitämme kannan monogeenisten polynomien avaruudelle käyttäen CK-laajennusta. Cauchyn ytimen ominaisuuksien avulla tarkastelemme Diracin operaattorin reuna-arvo-ongelmia ja nk. D-ongelmaa. Käyttäen Rungen lauseen yleistystä osoitamme D-ongelman yleisen ratkaistavuuden. Toisaalta reuna-arvo-ongelman ratkaistavuus karakterisoidaan käyttäen Cauchyn ytimen reuna-arvo-ominaisuuksia ja hyppyrelaatioita. Keskeinen sovellus tuloksille on aikaharmonisen Maxwellin yhtälön reuna-arvo-ongelmien tarkastelu. Mielenkiintoista on myös, miten Diracin operaattori linearisoi Laplacen operaattorin ja aalto-operaattorin. Toisaalta Diracin operaattorin avulla voidaan ilmaista Maxwellin yhtälöt tiiviissä muodossa. Muita tuloksia tutkielmassa ovat meromorfifunktioiden määritelmä ja Mittag-Lefflerin lause. Tutkielman lopuksi tarkastellaan lyhyesti harmonisten funktioiden ja monogeenisten funktioiden suhdetta. Jokainen harmoninen funktio on jonkin monogeenisen funktion reaaliosa. Tosin monogeeninen funktio ei ole yksikäsitteisesti määrätty sen reaaliosan avulla.
  • Asan-Liski, Bakiye Hilal (2014)
    Evolutionary mechanisms in living organisms exist in the most microscopic organisms too, such as populations of tumor cells. This process causes cancer to be one of the most difficult disease to cure for the objective of the evolutionary process taking place within the cells is to make the cancerous population resistant to treatment, while causing them to change in several ways and increase in number. One critical result of this process is called tumor heterogeneity, a term which is used to describe how each tumor population has distinctive properties within and between tumors. Cancer stem cells, small groups of cells that have the capability to form tumors, are one of the foundations of tumor heterogeneity. This study surveys expressions of known Cancer stem cells in different cancer types to note the effects of intratumor heterogeneity (heterogeneity within tumors). This comparative analysis consists of comparisons between normal tissues and cancerous tissues of the same cancer type (colorectal cancer) and between primary cancer tissues and metastatic cancer tissues of the same cancer type (colorectal cancer). The expectation is to observe cancer stem cells to be more expressive in metastatic tissues as they are source of transformation in primary cancers to become more aggressive metastatic cancers. All data used in this study were downloaded from National Center for Biotechnology Information (NCBI) Gene Expression Omnibus (GEO) website and data analysis were done with R/Bioconductor tools. After extracting the differentially expressed genes between the groups, functional annotation was carried out with The Database for Annotation, Visualization and Integrated Discovery (DAVID) Bioinformatics Tools.
  • Tuominen, Pekko (2016)
    Forecasting of solar power energy production would benefit from accurate sky condition predictions since the presence of clouds is a primary variable effecting the amount of radiation reaching the ground. Unfortunately the spatial and temporal resolution of often used satellite images and numerical weather prediction models can be too small for local, intra-hour estimations. Instead, digital sky images taken from the ground are used as data in this thesis. The two main building blocks needed to make sky condition forecasts are reliable cloud segmentation and cloud movement detection. The cloud segmentation problem is solved using neural networks, a double exposure imaging scheme, automatic sun locationing and a novel method to study the circumsolar region directly without the use of a sun occluder. Two different methods are studied for motion detection. Namely, a block matching method using cross-correlation as the similarity measure and the Lukas-Kanade method. The results chapter shows how neural networks overcome many of the situations labelled as difficult for other methods in the literature. Also, results by the two motion detection methods are presented and analysed. The use of neural networks and the Lukas-Kanade method show much promise for forming the cornerstone of local, intra-hour sky condition now-casting and prediction.
  • Elkin, Yury (2017)
    In this thesis we extend topological model of planar robotic hands emerging in the field of topological robotics. This research elaborates further recent works of Robert Ghrist and others. The main purpose of this thesis is to classify configuration spaces in terms of topological and algebraic invariants, which among others provides complexity estimates for potential optimization algorithms. The thesis is split into two parts. In the first part we investigate a robotic system consisting of a single hand which can occupy any position as long as it doesn't self-intersect. Using a new innovative representation of positions we are able to treat two basic movements of the robotic arm: the 'claw' and the 'swap' movements separately. The main appliance of this part is the nerve theorem, which helps to establish that under some restrictions the configuration space of such robotic hand has the homotopy type of S^1. In the second part we investigate systems consisting of multiple hands. This time we are dealing with hands limited to length one whose positions satisfy the two conditions: each pairwise hand trace intersection is contractible and the hand intersection graph is a forest. As the local main result we prove that the fundamental group of such robotic system is isomorphic to the Artin right-angeled group, where the set of generators is in bijection with the set of all hands and relations are determined by the intersection graph. The main tool exploited in this chapter is the Seifert-van Kampen theorem. Although the results are proven only for some special cases, the thesis introduces methodology that can drive their generalization further. In the final chapter we give a few sophisticated research directions.
  • Knuutinen, Janne (2017)
    Copuloista on tullut yleinen työkalu finanssimaailman käyttötarkoituksiin. Tämän työn tavoitteena on esitellä copuloiden teoriaa ja sen soveltamista rahoitusriskien mallintamiseen. Copulat määritellään ja niihin liittyvää keskeistä teoriaa käydään läpi. Tärkeimpiä korrelaatiokonsepteja esitellään, muun muassa tunnusluvut Kendallin tau ja Spearmanin rho. Lisäksi copulaperheet, joihin eniten käytetyt copulat kuuluvat, määritellään. Copuloiden parametreja voi estimoida eri metodien avulla. Kolme tärkeintä loguskottavuusfunktioon perustuvaa metodia käydään läpi, samoin kuin Monte Carlo -menetelmä, jolla voidaan simuloida muuttujia copuloista. Esitellään häntäriippuvuus, joka on hyödyllinen käsite äärimmäisiä ilmiöitä mallinnettaessa. Value at Risk eli VaR on yksi tärkeimmistä sijoitusriskien riskimitoista. Uudelleenjärjestelyalgoritmiin perustuvan menetelmän avulla voidaan laskea huonoimmat ja parhaat VaR:n arvot. Menetelmän toimintaa havainnollistetaan järjestelemällä eräs matriisi algoritmin avulla niin, että nähdään huonoimman VaR:n yläraja. Menetelmää sovelletaan vielä kolmen eri osakkeen, Nokian, Samsungin ja Danske Bankin, useamman vuoden päivittäisistä tappioista koostetun matriisin uudelleenjärjestelyyn. Näin saatu huonoimman VaR:n yläraja on suurempi kuin historiallisen VaR:n arvo, joka laskettiin toisella menetelmällä. Tutkielman teorian käytännön soveltamista jatketaan vielä laskemalla osakkeiden tappioiden välisiä korrelaatioita. Nokian ja Deutsche Bankin tappioiden välisen korrelaatiokertoimen huomataan olevan arvoltaan suurin, ja todettaan, että niiden välistä riippuvuusrakennetta voidaan kuvata parhaiten t-copulalla.
  • Yi, Xinxin (2015)
    Problem: Helsinki psychotherapy study (HPS) is a quasi-experimental clinical trial, which is designed to compare the effects of different treatments (i.e. psychotherapy and psychoanalysis) on patients with mood and anxiety disorders. During its 5-year follow-ups from the year 2000 to 2005, repeated measurements were carried out at 0, 12, 24, 36, 48, 60 months. However, some individuals did not show up at certain data collection points or dropped out of the study forever, leading to the occurrence of missing values. This will prevent the applications of further statistical methods and violate the intention-to-treat (ITT) principle in longitudinal clinical trials (LCT). Method: Multiple Imputation (MI) has many claimed advantages in handling missing values. This research will compare different MI methods i.e. Markov chain Monte Carlo (MCMC), Bayesian Linear Regression (BLR), Predictive Mean Matching (PMM), Regression Tree (RT), Random Forest (RF) in their treatments of HPS missing data. The statistical software is SAS PROC MI procedure (version 9.3) and R MICE package (version 2.9). Results: MI has better performance than the ad-hoc methods such as listwise deletion in the detections of potential relationships and the reduction of potential biases in parameter estimations if missing completely at random (MCAR) assumption is not satisfied. PMM, RT and RF have better performance in generating imputed values inside the range of the observed data than BLR and MCMC. The machine learning methods i.e. RT and RF are preferable than the regression methods such as PMM and BLR since the imputed data have quite similar distribution curves and other features (e.g. median, interguatile, skewness of distribution) as the observed data. Implications: It is suggestive to use MI methods to replace those ad-hoc methods in the treatments of missing data, if additional efforts and time are not a problem. The machine learning methods such as RT and RF are more preferable than those relatively arbitrary user-specified regression methods such as PMM and BLR according to our data, but further research are required to approve this indication. R is more flexible than SAS where RT and RF can be applied.
  • Kumar, Ajay Anand (2012)
    Due to next generation of sequencing technologies the amount of public sequence data is exponentially growing, however the rate of sequence annotation is lagging behind. There is need for development of robust computational tools for correct assignment of annotation to protein sequences. Sequence homology based inference of molecular function assignment and subsequent transfer of the annotation is the traditional way of annotating genome sequences. TF-IDF based methodology of mining informative description of high quality annotated sequences can be used to cluster functionally similar and dissimilar protein sequences. The aim of this thesis work is to perform the correlation analysis of TF-IDF methodology with standard methods of Gene Ontology (GO) semantic similarity measures. We have developed and implemented a high-throughput tool named GOParGenPy for effective and faster analysis related to Gene Ontology. It incorporates any Gene Ontology linked annotation file and generates corresponding data matrices, which provides a useful interface for any downstream analysis associated with Gene Ontology across various mathematical platforms. Finally, the correlation evaluation between TF-IDF and standard Gene Ontology semantic similarity methods validates the effectiveness of TF-IDF methodology in order to cluster functionally similar protein sequences.
  • Berg, Jeremias (2014)
    Clustering is one of the core problems of unsupervised machine learning. In a clustering problem we are given a set of data points and asked to partition them into smaller subgroups, known as clusters, such that each point is assigned to exactly one cluster. The quality of the obtained partitioning (clustering) is then evaluated according to some objective measure dependent on the specific clustering paradigm. A traditional approach within the machine learning community to solving clustering problems has been focused on approximative, local search algorithms that in general can not provide optimality guarantees of the clusterings produced. However, recent advances in the field of constraint optimization has allowed for an alternative view on clustering, and many other data analysis problems. The alternative view is based on stating the problem at hand in some declarative language and then using generic solvers for that language in order to solve the problem optimally. This thesis contributes to this approach to clustering by providing a first study on the applicability of state-of-the-art Boolean optimization procedures to cost-optimal correlation clustering under constraints in a general similarity-based setting. The correlation clustering paradigm is geared towards classifying data based on qualitative--- as opposed to quantitative similarity information of pairs of data points. Furthermore, correlation clustering does not require the number of clusters as input. This makes it especially well suited to problem domains in which the true number of clusters is unknown. In this thesis we formulate correlation clustering within the language of propositional logic. As is often done within computational logic, we focus only on formulas in conjunctive normal form (CNF), a limitation which can be done without loss of generality. When encoded as a CNF-formula the correlation clustering problem becomes an instance of partial Maximum Satisfiability (MaxSAT), the optimization version of the Boolean satisfiability (SAT) problem. We present three different encodings of correlation clustering into CNF-formulas and provide proofs of the correctness of each encoding. We also experimentally evaluate them by applying a state-of-the-art MaxSAT solver for solving the resulting MaxSAT instances. The experiments demonstrate both the scalability of our method and the quality of the clusterings obtained. As a more theoretical result we prove that the assumption of the input graph being undirected can be done without loss of generality, this justifies our encodings being applicable to all variants of correlation clustering known to us. This thesis also addresses another clustering paradigm, namely constrained correlation clustering. In constrained correlation clustering additional constraints are used in order to restrict the acceptable solutions to the correlation clustering problem, for example according to some domain specific knowledge provided by an expert. We demonstrate how our MaxSAT-based approach to correlation clustering naturally extends to constrained correlation clustering. Furthermore we show experimentally that added user knowledge allows clustering larger datasets, decreases the running time of our approach, and steers the obtained clusterings fast towards a predefined ground-truth clustering.
  • Koskinen, Miikka (2018)
    Työssä tarkastellaan majoriteettikvanttorien ilmaisuvoimaa sanamallien kontekstissa. Kuten eksistenssikvanttori (∃) ja universaalikvanttori (∀), majoriteettikvanttori on looginen kvanttori. Sillä voidaan ilmaista väitteen pätevän yli puolelle tarkasteltavan mallin perusjoukon alkioista. Deskriptiivisen vaativuusteorian näkökulmasta uniformi TC⁰-piirivaativuusluokka vastaa ensimmäisen kertaluvun logiikkaa yhteenlaskulla, kertolaskulla ja majoriteettikvanttorilla varustettuna. Työssä tutkitaan TC⁰-luokan sisäistä rakennetta rajoittamalla tarkastelu loogiseen fragmenttiin, jossa käyttettävissä on vain majoriteettikvanttori ja järjestysrelaatio. Työssä osoitetaan, että sekä eksistenssi- että universaalikvanttoria voidaan simuloida majoriteettikvanttorin ja järjestysrelaation avulla. Myös yhteenlasku ja perusjoukon parillisuus ovat ilmaistavissa. Sen sijaan kertolasku ei ole ilmastavissa yksipaikkaisella majoriteettikvanttorilla. Lisäksi työssä osoitetaan, että kertolasku voidaan ilmaista kaksipaikkaisella majoriteettikvanttorilla. Tästä seuraa, että kaksipaikkainen majoriteettikvanttori on aidosti voimakkaampi kuin yksipaikkainen majoriteettikvanttori.
  • Arppe, Alli-Kaisa (2014)
    Coxeterin ryhmät ovat ryhmiä, joille voidaan antaa esitys G=<s_1, ... s_d: s2_i=1, (s_i s_j)^m_{ij}=1> missä m_{ij}ЄZ. Tämän pro gradun tehtävänä on näyttää, että kyseisen rajoitetun esityksen ryhmiä on rajallinen määrä sekä esittää niiden luokittelu. Luokitteluun tarvittavia työkaluja ovat Coxeterin graafit ja matriisit. Pro gradussa muistutetaan tarpeellisista lineaarialgebran määritelmistä sekä annetaan taustatietoa positiividefiniitti ja positiivisemidefiniitti matriiseista. Lisäksi käydään läpi ryhmäteorian taustoja ja erityisesti ryhmien esittämistä generaattoreiden ja relaatioiden avulla. Taustatietojen jälkeen määritellään Coxeterin graafit muutamien esimerkkien kera ja selitetään miten matriisi voidaan johtaa Coxeterin graafin esityksestä. Työssä näytetään, että kaikki listatut Coxeterin graafit ovat joko positiividefiniittejä tai positiivisemidefiniittejä sekä todistetaan, että ne ovat ainoat positiividefiniitti ja -semidefiniitti graafit. Luokittelu loppuu siihen. Lopuksi pro gradussa annetaan yleisempi kuvaus rajallisten heijastusten ryhmistä (finite reflection groups).
  • Peussa, Aleksandr (2016)
    The major concern of lenders is to answer the next question: 'Who we lend to?' Until 1970s the traditional schema was used to answer this question. Traditional credit assessment relied on 'gut feel', which means that a bank clerk or manager analyses a borrower's character, collateral and ability to repay. Also, some recommendations from the borrower's employer or previous lender are used. The alternative approach is credit scoring, which is a new way to approach a customer. Credit scoring is one of the most successful applications of statistics in finance and banking industry today. It lowers the cost and time of application processing and gives flexibility in making trade off between risk and sales for financial institution. Credit scorecards are essential instruments in credit scoring. They are based on the past performance of customers with characteristics similar to a new customer. So, the purpose of a credit scorecard is to predict risk, not to explain reasons behind it. The purpose of this work is to review credit scoring and its applications both theoretically and empirically, and to end up with the best combination of variables used for default risk forecasting. The first part of the thesis is focused on theoretical aspects of credit scoring - statistical method for scorecard estimation and measuring scorecard's performance. Firstly, I explain the definition of the scorecard and underlying terminology. Then I review the general approaches for scorecard estimation and demonstrate that logistic regression is the most appropriate approach. Next, I describe methods used for measuring the performance of the estimated scorecard and show that scoring systems would be ranked in the same order of discriminatory power regardless the measure used. The goal of the second part is empirical analysis, where I apply the theoretical background discussed in the first part of the master's thesis to a data set from a consumer credit bank, which includes variables obtained from the application forms and from credit bureau data, and extracted from social security numbers. The major finding of the thesis is that that the estimated statistical model is found to perform much better than a non-statistical model based on rational expectations and managers' experience. This means that banks and financial institutions should benefit from the introduction of the statistical approach employed in the thesis.
  • Siljander, Ilona (2016)
    The purpose of this thesis is to study the cumulative probability of a false-positive (FP) test result during the Finnish 20-year breast cancer screening program. This study is based on breast cancer screening data provided by the Mass Screening Registry of the Finnish Cancer Registry, which consists of women aged 50–51 years at the time of their first invitation to mammography screening in 1992–1995. Generalized estimating equations (GEE) are used to estimate the cumulative probability of a FP screening result. In the theoretical part we present the corresponding theory together with reviewing the theory of generalized linear models (GLM). The cumulative probabilities are calculated from the modeling of individual examinations by using the theory and formulas of conditional probability. The confidence intervals (Cl) are calculated by using Monte Carlo simulation relying on the asymptotic properties of the GEE estimates. The estimated cumulative risk of at least one FP during the screening program was 15.84% (95% Cl: 15.49–16.18%). Previous FP findings increased the risk of (another) FP results with an odds ratio (OR) of 1.91 (95% Cl: 1.78–2.04), and OR 3.09 (95% Cl: 2.49–3.83) for one or more previous FP results, respectively. Irregular screening attendance increased the risk of FP results with an OR of 1.46 (95% Cl: 1.37–1.56).
  • Lehto, Susanna (2015)
    Dagumin jakauma on jatkuva todennäköisyysjakauma, joka on saanut nimensä Camilo Dagumin mukaan tämän esitellessä jakaumaa 1970-luvulla. Dagumin jakauman kehittäminen sai alkusysäyksen, kun Camilo Dagum ei ollut tyytyväinen jo olemassa oleviin todennäköisyysjakaumiin ja alkoi kehitellä vaatimuksiaan vastaavaa mallia. Tämän kehitystyön tuloksena syntyi kolme jakaumaa, joita kutsutaan Dagumin jakauman tyypeiksi I—III. Tyyppi I on kolme parametria sisältävä jakauma, kun taas tyypit II ja III ovat keskenään hyvin samankaltaisia, neljä parametria sisältäviä jakaumia. Dagumin jakauma tyypistä riippumatta kehitettiin kuvaamaan henkilökohtaisia tuloja, ja tämän vuoksi jakauma yhdistetään usein taloustieteen tulonjako-oppiin. Lisäksi Dagumin jakauman kolme tyyppiä voidaan luokitella tilastollisiksi kokojakaumiksi, joita usein hyödynnetään etenkin taloustieteessä ja vakuutusmatematiikassa. Luku 1 koostuu johdannosta, jossa esitellään pro gradu -tutkielman rakenne pääpiirteissään sekä valotetaan syitä, miksi juuri Dagumin jakauma valikoitui tutkielman aiheeksi. Luvussa 2 esitellään lyhyesti jatkuvien todennäköisyysjakaumien yleistä teoriaa siltä osin kuin sen tunteminen on vähintäänkin tarpeellista. Tässä yhteydessä esitellään myös tärkeitä merkintöjä erityisesti luvun 3 ymmärtämiseksi. Luku 3 alkaa Dagumin jakauman kehittäjän, Camilo Dagumin, henkilöhistorialla. Tästä päästään sujuvasti syihin, jotka motivoivat Dagumia entistä paremman mallin etsimiseen ja johtivat lopulta kokonaan uuden jakauman tai jakaumaperheen syntymiseen. Aivan tuulesta Dagumin jakaumaa ei kuitenkaan ole temmattu, vaan pohjalla on Dagumin laaja-alainen asiantuntemus ja useiden eri jakaumien ja mallien tutkiminen ja testaaminen. Vaikka Dagumin jakauma tyyppeineen on aivan oma jakaumansa, sillä on myös läheisiä yhteyksiä muihin jakaumiin ja näiden yhteyksien vuoksi siitä käytetään usein myös nimeä Burr III -jakauma. Luvussa 3 valotetaan lisäksi Dagumin jakauman perusominaisuuksia, joiden esittelyn myötä katse suunnataan jakauman käyttökelpoisuuteen sovelluksissa: jakauma osoittautuu hyödylliseksi tulonjaon tasa-arvoisuuden mittaamisessa, jossa myös estimoinnilla ja päätelmien tekemisellä on tärkeä rooli. Luvun lopussa käsitellään lyhyesti ja ytimekkäästi Dagumin jakauman käyttämistä tietokoneohjelmien avulla. Vaikka luvussa 3 viitataan monessa kohtaa Dagumin jakauman sovelluksiin, vasta luvussa 4 jakauman soveltaminen käytäntöön otetaan lähempään tarkasteluun. Viimeisessä luvussa kootaan päällimmäisiä ajatuksia ja mietteitä Dagumin jakaumasta sekä haasteista tutustua siihen: yhdessä pro gradussa pystytään vasta raapaisemaan pintaa, joten työsarkaa riittäisi muillekin jakaumasta kiinnostuneille.
  • Hakkarainen, Janne (Helsingin yliopistoHelsingfors universitetUniversity of Helsinki, 2009)
    Data-assimilaatio on tekniikka, jossa havaintoja yhdistetään dynaamisiin numeerisiin malleihin tarkoituksena tuottaa optimaalista esitystä esimerkiksi ilmankehän muuttuvasta tilasta. Data-assimilaatiota käytetään muun muassa operaativisessa sään ennustamisessa. Tässä työssä esitellään eri data-assimilaatiomenetelmiä, jotka jakautuvat pääpiirteittäin Kalmanin suotimiin ja variaatioanaalisiin menetelmiin. Lisäksi esitellään erilaisia data-assimilaatiossa tarvittavia apuvälineitä kuten optimointimenetelmiä. Eri data-assimilaatiomenetelmien toimintaa havainnollistetaan esimerkkien avulla. Tässä työssä data-assimilaatiota sovelletaan muun muassa Lorenz95-malliin. Käytännön data-assimilaatio-ongelmana on GOMOS-instrumentista saatavan otsonin assimiloiminen käyttäen hyväksi ROSE-kemiakuljetusmallia.
  • Helander, Jenni (2015)
    Muodostaakseen värikuvan digitaalikamera tarvitsee kuhunkin kuvan pikseliin tiedon kolmesta väristä: punaisesta, vihreästä ja sinisestä. Tavallinen digitaalikamera ei kuitenkaan mittaa jokaisen mainitun värin numeerista arvoa jokaiseen pikseliin, vaan vain yhden näistä. Demosaicing-algoritmit ovat algoritmeja, jotka käyttävät näitä kameran mittaamia vajaita väritietoja arvioidakseen puuttuvat tiedot väreistä kuhunkin pikseliin. Tämän tutkielman tarkoituksena on esitellä muutama tällainen demosaicing-algoritmi ja verrata näiden algoritmien tuottamia tuloksia keskenään. Tutkielmassa esitellään ensin itse aiheen ymmärtämistä varten tarvittava taustateoria. Tämä tapahtuu luvussa kaksi, jossa ensin määritellään kuva ja siihen liittyvää termistöä, esitellään kaksi väriavaruutta: RGB-väriavaruus ja CIELAB-väriavaruus sekä, miten siirtyminen RGB-väriavaruudesta CIELAB-väriavaruuteen tapahtuu. Väriavaruuksien jälkeen luvussa kaksi perehdytään hieman digitaalikameran toimintaan ja siihen, miten digitaalikamera eroaa perinteisestä filmikamerasta. Filmikamera muodostaa kuvan kuvattavasta kohteesta filmille, mutta digitaalikamerassa ei käytetä vanhanaikaista filmirullaa tai -paperia, vaan kuva muodostetaan elektronisesti CCD-kennoon tai CMOS-kennoon, jotka ovat tutkielmassa seuraavana esittelyvuorossa. Niin CCD- kuin CMOS-kenno ovat kumpikin värisokeita kuvanmuodostukseen käytettäviä komponentteja. Jotta otettavasta valokuvasta saataisiin värillinen, täytyy käytössä olevan kennon eteen asettaa värisuodatin. Tällaisista värisuodattimista esitellään yleisessä käytössä oleva Bayer-suodatin. Viimeiseksi luvussa kaksi esitellään vielä Fourier-muunnos, konvoluutio ja SSIM. Luvussa kolme esitellään kolme eri demosaicing-algoritmia: bilineaarinen interpolaatio, gradienttikorjattu bilineaarinen interpolaatio ja homogeeniohjautuva demosaicing-algoritmi. Luvussa neljä esitellään tutkielmassa käytettävä aineisto, jona toimii kaksi itse otettua valokuvaa. Valokuvat otettiin kameralla, joka mittaa jokaisen värikuvan muodostamiseen tarvittavan värin kussakin kuvan pikselissä. Näin ollen demosaicing-algoritmeilla saaduilla värikuvilla on vertailukohde, joka on samanaikaisesti algoritmien tavoitekuva. Luvussa viisi esitellään tutkielmassa käytetyillä algoritmeilla saadut tulokset tutkielman aineistolle ja luvussa kuusi tehdään johtopäätöksiä saaduista tuloksista. Tulokset ovat jopa yllättäviä. Kaikki esitellyistä algoritmeista tuottavat hyviä tuloksia, mutta mikään niistä ei päädy olemaan paras tai huonoin. Algoritmit näyttävät suoriutuvan eri tilanteissa erilailla. Mikäli käsiteltävät kuvat ovat tarpeeksi suuria, vaikuttaisi bilineaarinen interpolaatio toimivan parhaiten. Mikäli käsiteltävät kuvat ovat pieniä ja reunojen terävyydelle on tarvetta, on gradienttikorjattu bilineaarinen interpolaatio hyvä valinta. Jos käsiteltävät kuvat ovat pieniä sekä halutaan, että kuvassa on mahdollisimman vähän värihäiriöitä, tällöin puolestaan homogeeniohjautuva demosaicing-algoritmi on toimiva valinta.
  • Narayanasamy, Shaman (2012)
    Cyanobacteria are ancient photosynthetic microorganisms found in both fresh and saline water bodies all over the world. Anabaena is a genus of filamentous heterocystous diazotrophic cyanobacteria that are common in freshwater lakes and often implicated in the formation of blooms. They are known to play a vital role in the nitrogen cycle and to produce harmful toxins. The reason for this toxic producing nature is still unknown. The Anabaena sp. strain 37, isolated from lake Sääksjärvi, western Finland was found to produce the neurotoxin, anatoxin-a which affects the nervous systems of humans and animals, capable of causing paralysis. During the past decade, genome sequencing has aided in the understanding of genetic information in many organisms including cyanobacteria. A whole genome sequencing project was carried out to understand the mechanism of anatoxin-a production in the Anabaena sp. strain 37. The 454 pyrosequencing produced 258,430 reads with a coverage of approximately 22X. The data was subjected to a de novo assembly which produced a draft genome, made up of 828 contigs above 500 bp, an N50 contig of 10,548 bp and a longest contig of 47,660 bp. The draft assembly underwent a finishing procedure which included scaffolding, gap closure and error correction. Two types of mate pair libraries; 3 Kb and 8 Kb were constructed and sequenced for scaffolding. The scaffolding using 196,221 of 3 Kb mate pair reads yielded 31 major scaffolds with an N50 scaffold of 344,872 bp. A second scaffolding using 34,498, 8 Kb mate pair reads resulted in 16 scaffolds, and an N50 scaffold of 1,085,340 bp. Three automated gap closure rounds were carried out using consed autofinish. The primers amplified the genomic DNA with PCR and the products were sequenced using Sanger sequencing. A total of 1,406 Sanger reads were used to closed more than 800 gaps in the draft assembly. In addition, the 454-based draft assembly contained many sequencing errors among single nucleotide homopolymeric regions of three-mers and above. Moreover, these errors were found in coding regions, namely the anatoxin-a synthetase gene cluster and was further confirmed with additional PCR and Sanger sequencing. There were 370,648 single nucleotide homopolymer sites of three mers and above that accounted for 38.18% of the genome length and a density of 668.1 per 10 Kb. A correction procedure was carried out by incorporating 100X coverage Illumina/Solexa data into the assembly. The high depth data corrected an estimated 1,888 single nucleotide homopolymer error sites of three-mers and above which translates to a 454 single nucleotide homopolymer error rate of 0.51% or 3.37 per 10 Kb. The correction also increased the overall quality of the Q20. The current assembly is made up of 14 scaffolds out of which six are major scaffolds. The assembly has an N50 scaffold of 1,085,340 bp where 99.7% of the consensus bases are of phred Q20 bases and an overall error rate of 8.21 per 10 Kb. Finally, the genome has a GC-content of 38.3% with four ribosomal RNA operons and the anatoxin-a synthetase gene cluster confirmed.
  • Heikkilä, Saara (2017)
    Työssä esitellään ääretönharmonisten funktioiden ominaisuuksia. Ääretönharmoniset funktiot ovat äärettömän Laplacen yhtälön viskositeettiratkaisuja. Työn päämääränä on todistaa, että ääretönharmoniset funktiot ovat derivoituvia. Aluksi tutustutaan viskositeettiratkaisun määritelmään. Sen jälkeen esitellään vertailuperiaate kartiofunktioiden suhteen, ja osoitetaan, että ääretönharmoniset funktiot noudattavat kyseistä vertailuperiaatetta. Tällä ominaisuudella on useita hyödyllisiä seurauksia, jotka johdetaan kappaleessa 3. Erityisesti voidaan osoittaa, että funktiot, jotka noudattavat vertailuperiaatetta kartiofunktioiden suhteen ovat lokaalisti Lipschitz-jatkuvia. Kappaleessa 4 tutkitaan muokattua versiota äärettömästä Laplacen yhtälöstä. Muokatun version etuna on se, että ratkaisujen olemassaolo, yksikäsitteisyys ja säännöllisyys seuraavat standardista kvasilineaaristen osittaisdifferentiaaliyhtälöiden teoriasta. Kappaleessa 5 todistetaan, että ääretönharmoniset funktiot ovat derivoituvia. Sitä varten osoitetaan ensin, että ääretönharmoniselle funktiolle löydetään tangenttitaso jokaisessa määrittelyjoukon pisteessä. Tangenttitason olemassaolo seuraa pitkälti kappaleessa 3 johdetuista tuloksista. Lopuksi todistetaan, että ääretönharmonisen funktion tangenttitaso on yksikäsitteinen. Derivoituvuus seuraa suoraan tangenttitason yksikäsitteisyydestä. Kappaleen 4 tulokset muokatun version ratkaisusta ovat keskeisiä työkaluja todistettaessa tangenttitason yksikäsitteisyyttä.
  • Nieminen, Arttu (2017)
    Differential privacy is a mathematically defined concept of data privacy that is based on the idea that a person should not face any additional harm by opting to give their data to a data collector. Data release mechanisms that satisfy the definition are said to be differentially private and they guarantee the privacy of the data on a specified privacy level by utilising carefully designed randomness that sufficiently masks the participation of each individual in the data set. The introduced randomness decreases the accuracy of the data analysis, but this effect can be diminished by clever algorithmic design. Robust private linear regression algorithm is a differentially private mechanism originally introduced by A. Honkela, M. Das, O. Dikmen, and S. Kaski in 2016. The algorithm is based on projecting the studied data inside known bounds and applying differentially private Laplace mechanism to perturb the sufficient statistics of the Bayesian linear regression model that is then fitted to the data using the privatised statistics. In this thesis, the idea, definitions and the most important theorems and properties of differential privacy are presented and discussed. The robust private linear regression algorithm is then presented in detail, including improvements that are related to determining and handling the parameters of the mechanism and were developed during my work as a research assistant in the Probabilistic Inference and Computational Biology research group (Department of Computer Science at University of Helsinki and Helsinki Institute for Information Technology) in 2016-2017. The performance of the algorithm is evaluated experimentally on both synthetic and real-life data. The latter data are from the Genomics of Drug Sensitivity in Cancer (GDSC) project and consist of the gene expression data of 985 cancer cell lines and their responses to 265 different anti-cancer drugs. The studied algorithm is applied to the GDSC data with the goal of predicting which cancer cell lines are sensitive to each drug and which are not. The application of a differentially private mechanism to the gene expression data is justifiable because genomic data are identifying and carry highly sensitive information about e.g. an individual's phenotype, health, and risk of various diseases. The results presented in the thesis show the studied algorithm works as planned and is able to benefit from having more data: in the sense of prediction accuracy, it approaches the non-private version of the same algorithm as the size of the available data set increases. It also reaches considerably better accuracy than the three compared algorithms that are based on different differentially private mechanisms: private linear regression with no projection, output perturbed linear regression, and functional mechanism linear regression.