Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Tilastotiede"

Sort by: Order: Results:

  • Nikula, Jenni (2010)
    Tutkielmassa tarkastellaan, miten eri tiedonkeruumenetelmillä kerättyjen aineistojen perusteella lasketut estimaatit poikkeavat toisistaan. Erityisesti tutkimus on rajattu vastauskadosta aiheutuvien erojen kartoittamiseen.Tutkielman tarkoituksena on luoda lisätietoa eri tiedonkeruumenetelmien tuottamien tulosten vertailtavuudesta. Tuloksien vertailtavuuden tunteminen on keskeistä muun muassa suosiotaan kasvattavien mixed mode -tiedonkeruiden suunnittelussa ja toteutuksessa. Estimaattien vertailu tiedonkeruumenetelmien välillä on luontevaa ainoastaan, jos vastauskatoa on kompensoitu painotusmenetelmin ja näitä painoja käytetty estimoinnissa. Tutkielman toisena teemana on siten tarkastella, onko valitulla painotusmenetelmällä vaikutusta eri tiedonkeruumenetelmien tuottamista aineistoista laskettujen estimaattien eroihin. Tarkasteluun on valittu kaksi erilaista painotusmenetelmää, joista kumpikin perustuu vastaustaipumuksen estimointiin vastaustaipumusmallin avulla. Vastaustaipumusmalli voidaan rakentaa eri tavoin, ja tutkielmassa vertaillaan myös mallin toteutustavan vaikutuksia aineistosta laskettuihin estimaatteihin. Tutkielman empiirinen osa pohjautuu EU-rikosuhritutkimuksen pilottivaiheen kolmeen osa-aineistoon, jotka kerättiin eri tiedonkeruumenetelmillä: käyntihaastatteluilla, puhelinhaastatteluilla ja internetkyselyillä. EUrikosuhritutkimushanke on Euroopan komission rahoittama, ja Suomessa hankkeesta vastaavat Euroopan kriminaalipolitiikan instituutti (HEUNI), Tilastokeskus sekä Helsingin yliopiston sosiaalitieteiden laitos. Tutkielman tärkeimmiksi tuloksiksi nousivat tiedonkeruumenetelmien väliset eroavaisuudet. Kolmessa erillisessä aineistossa toteutunut vastauskato oli toisistaan poikkeavaa. Puhelinhaastatteluilla saatiin korkein vastausaste. Internetkyselyiden kohdalla vastausaste jäi selvästi alhaisimmaksi. Kaikissa tiedonkeruumenetelmäaineistoissa vastaamisessa esiintyi eroja myös otoshenkilöiden demografisten ominaisuuksien suhteen, eivätkä eroavaisuudet olleet identtisiä tiedonkeruumenetelmien välillä. Suurimmat demografiset eroavaisuudet vastanneiden ja vastaamattomien välillä olivat internetaineistossa. Aineistoista lasketut estimaatit poikkesivat myös toisistaan, vaikka vastauskatoa oikaisevia painoja käytettiin estimoinnissa. Tiedonkeruumenetelmällä on siten vaikutusta aineistosta laskettujen estimaattien kannalta ja tämä on syytä huomioida tiedonkeruun suunnittelussa. Painotusmenetelmällä ei sen sijaan ollut yhtä suurta vaikutusta estimaatteihin kuin tiedonkeruumenetelmällä. Tiedonkeruumenetelmäaineistojen sisällä estimaatit olivat siten hyvin samankaltaisia kummankin painotusmenetelmän avulla tuotettujen adjustoituijen painojen avulla laskettuina. Erot olivat suurimmat käyntiaineistossa, joka oli otoskooltaan selvästi kaikkein pienin. Myöskään painotusmenetelmissä käytettävän vastaustaipumusmallin toteutustavalla ei ollut merkittävää vaikutusta tuloksiin. Koska pienitä eroavaisuuksia painotusmenetelmien ja vastaustaipumusmallin toteutustapojen välillä esiintyi, on näihin syytä kiinnittää huomiota myös jatkossa. Tutkielman tärkeimmät lähteet olivat Roderick J. A. Little sekä Seppo Laaksosen painotusmenetelmiä ja niiden toteuttamistapoja esittelevät vertailevat artikkelit. Tutkielman pohjana on käytetty myös useita tiedonkeruumenetelmien eroja käsitteleviä artikkeleita.
  • Koufos, Mikhael (2018)
    Pro gradu -tutkielman tavoitteena oli rakentaa OP Vakuutuksen henkilövakuutusyritysasiakkaiden henkilöstöille suunnatun työntekijän ja koko organisaation työhyvinvointia mittaavan Hyvinvointikartoitus-kyselyn aineiston pohjalta kokonaisvaltaista työhyvinvointia kuvaava rakenneyhtälömalli. Malli mahdollistaa siihen sisällytettyjen eli endogeenisten työhyvinvoinnin osa-alueita ilmentävien faktoreiden yhteyksien tarkastelun suhteessa työhyvinvointiin. Tämän lisäksi tarkasteluun otettiin mukaan mallin ulkopuolisia eli eksogeenisia muuttujia, jotka oli johdettu Hyvinvointikartoitus-kyselyn ikä-, sukupuoli-, asema- ja koulutusmuuttujista. Työhyvinvoinnin taloudellista vaikutusta oli mahdollista tarkastella sairauspoissaolojen määrää kuvaavan eksogeenisen muuttujan kautta. Aineisto kattoi vuosina 2015-2016 saadut Hyvinvointikartoituksen vastaukset, joskin aineistoa oli muokattu tietyiltä osin. Vastauksia tutkielmassa käytetyssä aineistossa oli yhteensä 19 832, ja oli siten rakenneyhtälömallinnukseen laaja. Kaikki vastaukset oli kerätty sähköisellä kyselylomakkeella. Nykypäivän yrityksissä ja muissa työnantajaorganisaatioissa aineettoman pääoman merkitys on korostunut suhteessa aineelliseen pääomaan. Aineetonta pääomaa pidetään koko kansantalouden kehityksen ja kasvun kannalta yhtenä tärkeimmistä tekijöistä. Tutkimusten mukaan työhyvinvoinnin puute aiheuttaa merkittäviä kustannuksia koko yhteiskunnan laajuisesti. Useimmat panostukset työhyvinvoinnin edistämiseen kasvattavat myös työnantajaorganisaation aineetonta pääomaa. Aineettoman pääoman kasvaminen realisoituu organisaation liiketaloudellisena tuloksellisuutena. Lopullisia talousvaikutuksia ovat mm. organisaation kannattavuuden korkea taso, kilpailukyky ja hyvä maine. Tutkielmassa käytettyjä monimuuttujamenetelmiä ovat faktorianalyysi ja rakenneyhtälömallit, joissa yhdistyvät konfirmatorinen faktorianalyysi ja polkuanalyysi. Koska rakenneyhtälömalleissa on tarkoitus testata niiden taustalla olevaa substanssiteoriaa eli tutkielman tapauksessa työhyvinvointiteoriaa, tutkielmassa käydään aluksi laajasti läpi työhyvinvointiin ja sen osa-alueisiin liittyvää tutkimusta. Rakenneyhtälömallien rakentamisessa on työhyvinvointiteorian lisäksi hyödynnetty eksploratiivista faktorianalyysiä. Tutkimusote on siten mallia generoiva. Lopullinen työhyvinvoinnin rakenneyhtälömalli saatiin yhdennentoista hypoteettiseen malliin tehdyn modifikaation jälkeen. Perinteisen suurimman uskottavuuden estimointimenetelmän sijaan tutkielman rakenneyhtälömalleissa käytettiin kyselyaineiston järjestysasteikollisille muuttujille sopivaa diagonaalisesti painotettua pienimmän neliösumman estimaattoria (DWLS). Uusimman tutkimuksen mukaan DWLS vaikuttaa olevan suositeltavin menetelmä eimultinormaalisesti jakautuneiden aineistojen tapauksessa. Rakenneyhtälömallien teoriaa kuitenkin kehitellään yhä jatkuvasti. Rakenneyhtälömallin työhyvinvointifaktori on määritelty tässä tutkielmassa siten, että siihen suoraan liittyvät faktorit ovat fyysinen terveys, liikunta, henkinen terveys, uni, työ, muutoshalukkuus liittyen henkilökohtaiseen hyvinvointiin ja muutoshalukkuus liittyen työhön. Rakenneyhtälömalli rakentuu edelleen siten, että nämä faktorit selittivät alemman tason faktoreita ja havaittuja muuttujia. Tutkielman hyvinvoinnin rakenneyhtälömalli on suhteellisen monimutkainen, sillä havaittuja muuttujia mallissa oli yhteensä 83 kappaletta. Mallin kompleksisuus huomion ottaen lopullisen mallin sopivuus aineistoon oli hyvyysindeksien mukaan hyvällä tasolla. Kun lopullinen rakenneyhtälömalli oli luotu, voitiin tarkastella mallin työhyvinvointifaktorin suhdetta eksogeenisiin muuttuj iin. Taustamuuttujista tilastollisesti merkitsevät yhteydet havaittiin sukupuolta, korkeakoulutusta, työntekijäasemaa ja sairauspoissaoloja selittävien muuttujien kohdalla. Naisilla havaittiin olevan miehiä hieman matalampi työhyvinvoinnin taso. Korkeakoulutuksella on työhyvinvointia lisäävä, mutta hyvin vähäinen vaikutus. Työntekijäasemassa olevilla oli suurempi työhyvinvoinnin taso kuin muissa asemissa olevilla. Työhyvinvoinnin tasolla oli lisäksi selkeä negatiivinen yhteys sairauspoissaoloihin. Hyvinvointiteorian mukaan sairauspoissaolojen vähenemisellä on suora positiivinen yhteys työnantajaorganisaation taloudelliseen menestykseen, joten tätä kautta voitiin todeta organisaation kokonaisvaltaisella työhyvinvoinnilla olevan sen taloudelliseen menestykseen positiivinen yhteys.
  • Nieminen, Tuomo (2017)
    All pharmaceutical products, including vaccines, can increase the risk of some undesired medical occurences (adverse events). Evaluating these risks post-licensure is essential for evaluating the safety of vaccines, since rare adverse events might go undetected in pre-licensure studies. This thesis introduces and applies a method for vaccine safety surveillance, suitable for monitoring the safety of vaccines in near real-time, utilizing electronic health care records. Adverse events are operationalized by diagnosis codes related to health care visits. Vaccine safety surveillance studies suspected, biologically plausible causal relationships between a vaccine and an adverse event. Information regarding such relationships are called safety signals. Safety surveillance can be seen as an observational study for which different study designs could be used. The popularity of vaccination, self-selection and changes in diagnosis coding practises, along with other possible sources of bias, present challenges for commonly used cohort designs. Self-controlled study designs such as the self-controlled case series (SCCS) eliminate time-invariant confounders and are therefore often more suitable for evaluating vaccine risks. This thesis introduces both a simple and a more general version of SCCS and explicitly describes the assumptions related to the method. A vaccine safety surveillance method involves a decision rule for generating safety signals. Natural goals of a safety surveillance method are to control the rates of false positive and false negative signals, as well as to generate a signal as soon as possible when an association between the vaccine and the adverse event exists. Statistical hypothesis testing can be used to derive the decision rules. This thesis describes the maximized sequential probability ratio test (maxSPRT), a hypothesis testing method designed for vaccine safety surveillance. Binomial maxSPRT (BmaxSPRT) is a variant of maxSPRT based on a self-controlled study design such as the SCCS. The BmaxSPRT method addresses hypotheses concerning the relative incidence of adverse events during specified risk and control periods. The derivation of the decision rules for BmaxSPRT, including the computation of critical values, is described in detail both mathematically and algorithmically in this work. As a proof-of-concept BmaxSPRT is retrospectively applied to Finnish register data. The relationships between the incidence of febrile seizures and three childhood vaccines, Measles-Mumps-Rubella (MMR), Pneumococcal (PCV) and the Rota virus vaccination (Rota) are studied. BmaxSPRT generated an expected safety signal related to MMR; the incidence rate of febrile seizures was higher during a period 0­­-13 days following MMR vaccination compared to a period 14-41 days following vaccination (relative rate RR = 1.59 at the time of signal). Results for PCV are inconclusive and the experiment highlights the need for more in depth analysis regarding PCV vaccinations and febrile seizures. The sensitivity of BmaxSPRT to the specifications of the risk and control periods is also studied in this thesis. The sensitivity analysis highlights the importance of careful consideration of the risk and control periods by quantifying the loss of power due to poor choices.
  • Pentala, Oona (2014)
    Väestötutkimuksilla kerätään tietoja, joita ei rekistereistä saada. Tällaista tietoa ovat esimerkiksi väestön arviot terveydentilastaan, mielipiteet ja palveluiden tarpeen tyydyttyminen. Väestötutkimuksen taustalla on aina sopivalla otantamenetelmällä poimittu otos, jonka katsotaan edustavan tutkimuksen kohteena olevaa väestöjoukkoa. Valitettavasti tällaisten väestötutkimusten ja erityisesti tiedonkeruumenetelmänä kyselyä käyttävien tutkimusten vastauskato on ollut kuitenkin nousussa koko 2000-luvun alun. Tämä tarkoittaa, ettei edellä mainittu otos enää edustakaan tutkimuksen kohteena olevaa väestöä, jolloin tutkimuksesta saadut tulokset eivät välttämättä ole suoraan yleistettävissä alkuperäiseen perusjoukkoon. Tässä pro gradu -työssä käsitellään väestötutkimusaineiston tilastollisia kadonhallintamenetelmiä, joissa tavoitteena on tuottaa mahdollisimman luotettavia väestöä edustavia tilastollisia tunnuslukuja mahdollisesta vastauskadosta huolimatta. Työssä käsitellään vastauskatoa ensin otannan ja tiedonkeruumenetelmien näkökulmasta, jolloin vastauskadon muodostumiseen voidaan vaikuttaa. Empiirisen aineiston avulla kuvaillaan, millaista vastauskatoa kyselynä toteutetussa väestötutkimusaineistossa esiintyy ja tarkastellaan, millaisia tuloksia tilastollisilla kadonhallintamenetelmillä saadaan vastauskatoa sisältävästä aineistosta. Aineistona käytetään Terveyden ja hyvinvoinnin laitoksen (THL) Alueellisen terveys- ja hyvinvointitutkimuksen (ATH) vuonna 2010 kerättyä aineistoa. Lisäksi kadonhallintamenetelmissä hyödynnetään Suomessa hyvin saatavilla olevaa rekisteriperäistä tietoa Väestörekisterikeskukselta, Tilastokeskukselta ja Kansaneläkelaitokselta, minkä avulla saadaan arvokasta tietoa myös katoon jääneistä vastaajista. Tilastollisina kadonhallintamenetelminä tässä työssä käytetään Inverse Probability Weighting (IPW)- painotusmenetelmää, painotettua Hot Deck-imputointia ja moni-imputointia. Näillä menetelmillä saatuja tuloksia verrataan sekä keskenään, että estimaatteihin, jotka on tuotettu menetelmillä, jotka eivät huomioi vastauskatoa. Saatujen tulosten vertailukohtana käytetään myös rekisteriperäisiä tietoja tutkimusalueilta. Työssä todetaan, että kadonhallintamenetelmillä saadaan erilaisia tuloksia kuin tavallisilla analyysimenetelmillä. Eri menetelmillä saadut tulokset ovat kaikki samansuuntaisia, mutta erityisesti moni-imputoinnilla saadaan merkitsevästi eriäviä tuloksia kuin muilla menetelmillä. Analysoitaessa mitä tahansa aineistoa, jonka tulokset on tarkoitus yleistää väestöön, vastauskadon tutkiminen ja sen aiheuttaman mahdollisen harhan huomioiminen tuloksissa olisi ensiarvoisen tärkeää. Vastauskadon huomioiminen ja sen hallintamenetelmät ovat tärkeä osa väestötutkimusaineistojen käyttöä, jolloin kadon huomioimisen tärkeys ja sen hallintamenetelmien käyttökelpoisuus olisi hyvä olla tiedossa kaikilla tutkismaineiston käyttäjillä. Selkeästi dokumentoidut otantamenetelmät, mahdollisen kadon vähentämiseen pyrkiminen jo tiedonkeruuvaiheessa ja hyvät koko otokselle saatavissa olevat rekisteritiedot omalta osaltaan edesauttavat tehokkaiden kadonhallintamenetelmien käyttöä, joilla voidaan luotettavia väestöön yleistettävissä olevia tuloksia.
  • Sipinen, Eero (2016)
    Tutkielmassani käsitellään väkivaltarikollisuuden esiintyvyyden syitä Suomessa vuoden 2011 tilastotietojen avulla. Tutkielman hypoteesinä pidetään väkivallan esiintyvyyden mallintamisen mahdollisuutta tekijän ominaisuuksien avulla ja oletetaan, että tulotasoa voidaan käyttää yhtenä selittävänä tekijänä. Tutkielmassa käsitellään kriminologian teorioita kevyesti, sekä aikaisemman tutkimuksen tuloksia näiden teorioiden valossa. Tutkielmassa käytetty aineisto on saatu Tilastokeskukselta ja sen osa-alueet käsittelevät rikollisuutta, väestöjakaumaa ja tulotietoja. Näiden kolmen tietueen avulla lasketaan regressiomallille kertoimia yleistettyjen lineaaristen jakaumien teorian mukaan. Tutkielmassa tarkastellaan kuinka alueiden, sukupuolien ja ikäryhmien väliset erot vaikuttavat väkivaltarikollisuuden esiintyvyyteen Suomessa. Yhteenvedossa todetaan, että mallinnuksien välillä on eroa, ja alueiden mallintamisessa on hyötyä tulotasosta. Lopputuloksena voidaan todeta, että mallin tärkeinä tekijöinä voidaan pitää sukupuolen, iän ja asuinalueen vaikutusta, sillä näillä tekijöillä on yhteys väkivaltarikollisuuteen syyllistymisen kanssa. Lopputuloksena todetaan, että iän ja sukupuolen kertoimet esittävät riskiryhmien yhteyden tapahtuneisiin väkivaltarikoksiin, joiden estämiseksi sosiaalista työtä suositellaan riskiryhmien parissa, jotta ilmiötä pystytään heikentämään havaituissa riskiryhmissä. Tulotason kerroin saa tilastollisesti merkittävän arvon mallinnuksessa, vaikkakin kyseessä on hyvin heikko kerroin kun tätä verrataan esimerkiksi sukupuolien tai ikäryhmien välisiin kertoimiin.
  • Laalo, Marianne (2020)
    Vastauskadon yleistyminen on haitallista, sillä se aiheuttaa ongelmia estimaattien tarkkuuteen sekä luottamusvälien leveyteen. Harhaiseen estimaattiin perustuvat tulokset aiheuttavat virheellisiä tulkintoja. Vastauskatoa voidaan korjata painottamalla aineistoa sekä käyttämällä imputointia puuttuvien arvojen paikkauksessa. Tässä tutkielmassa tarkastellaan vastauskadon korjausmenetelmiä lumipallo-otanta –aineistossa. Tutkielmassa tarkastellaan puuttuneisuuden rakennetta sekä vertaillaan painottamattomia ja painotettuja muuttujia. Lopuksi aineistoa paikataan vielä moni-imputoinnin avulla. Lumipallo-otannassa otos kasvaa lumipallon lailla, kun otokseen jo nimetyt henkilöt nimeävät uusia henkilöitä otokseen. Lumipallo-otannasta on vakiintunut kolme mallia: lineaarinen lumipallo-otanta, eksponentiaalinen syrjimätön lumipallo-otanta sekä eksponentiaalinen syrjivä lumipallo-otanta. Lumipallo-otannan etu on, että sen avulla on mahdollista paikantaa piilossa olevia henkilöitä tai ryhmiä. Aineiston vastaukadon korjauksessa voi käyttää painotusta tai sen lähellä olevaa jälkiositusta. Moni-imputoinnissa imputointikierroksia on vähintään kaksi. Imputoitujen aineistojen avulla tuotetaan estimaatti puuttuvalle arvolle. Tutkielman aineistona on Romanien hyvinvointitutkimus, johon osallistui 365 Suomen romania tai itsensä Suomen romaniksi kokevaa henkilöä. Aineisto kerättiin lumipallo-otannalla helmikuun 2017 ja elokuun 2018 välillä. Tutkimus koostui pitkästä tai lyhyestä haastattelulomakkeesta sekä terveystarkastuksesta. Osallistujat saivat valita vastaavatko pitkään vai lyhyeen lomakkeeseen. Pitkässä lomakkeessa oli 88 kysymystä ja lyhyessä lomakkeessa oli oleellisimmat kysymykset pitkästä lomakkeesta, jolloin kysymyksiä oli 60. Tutkielman ensimmäiset tarkastelut koskevat puuttuneisuutta. Puuttuneisuutta tarkastellaan muutaman muuttujan avulla lyhyen ja pitkän lomakkeen välillä. Toisessa vaiheessa tarkastellaan samojen muuttujien avulla miten painottamaton ja painotettu aineisto eroavat toisistaan. Viimeisessä vaiheessa muodostetaan imputointimallit, joiden pohjalta toteutetaan moni-imputointi. Suhteellisesti suurempi puuttuneisuus lyhyessä lomakkeessa johtuu todennäköisesti siitä, että pitkään lomakkeeseen vastanneet ovat jo lähtökohtaisesti motivoituneempia vastaamaan ja näin ollen antavat enemmän vastauksia. Painotus kertoo, että iäkkäämmät ihmiset ovat aliedustettuina aineistossa. Moni-imputoinnin tulokset osoittavat, että kolmen muodostetun imputointimallin välillä ei ole suurta eroa. Lumipallo-otanta on hyvä otantamenetelmä paikannettaessa piilossa olevia ryhmiä, ja on hyvä asia, että eniten väestötutkimuksissa käytetyn satunnaisotannan rinnalla on muitakin käyttökelpoisia otantamenetelmiä. Lumipallo-otannalla saatuihin tuloksiin on kuitenkin syytä suhtautua varauksella eikä niiden yleistäminen ja vertailu ole täysin ongelmatonta.
  • Koponen, Eija-Leena (2012)
    Suomessa vuoden 2011 syksyllä aloitettu lukukausimaksukokeilu EU- ja ETA-maiden ulkopuolisille maisterivaiheen opiskelijoille on herättänyt laajaa keskustelua ja huolta mm. ylioppilaskunnissa. Tämän tutkielman alkuperäinen tavoite oli selvittää kyselytutkimuksen avulla miten lukukausimaksukokeilu vaikuttaa opiskelija-ainekseen, sillä on todisteita siitä että maksujen käyttöönotto vaikuttaa negatiivisesti alemmista sosioekonomisista luokista tulevien korkeakouluun hakeutumiseen. Yllättävän pieni maksavien opiskelijoiden määrä muutti tutkimuksen otteen pilotiksi, jonka tavoitteena oli testata niin lomaketta kuin tutkimuskysymystä laajempaa jatkotutkimusta varten. Lisäksi tavoitteena oli hankkia tietoa ulkomaalaisten opiskelijoiden taustoista, asenteista ja rahankäytöstä. Tutkimuksen aineisto on kerätty Aalto-yliopiston maisteriohjelmien ulkomaalaisilta opiskelijoilta tutkimusta varten laaditulla verkkokyselylomakkeella. Verkkokyselylomakkeella on monta muista tiedonkeruutavoista poikkeavaa ominaisuutta, joita käsitellään tutkielmassa. Lisäksi vastauskadon ehkäisyyn perehdytään kyselylomakkeen rakentamisvaiheessa. Kyselyn muuttujat mittaavat opiskelijoiden sosioekonomisen taustan lisäksi motivaatiota hakeutua Suomeen opiskelemaan ja asenteita lukukausimaksuja kohtaan. Aineistoa analysoidaan esimerkinomaisesti faktorianalyysillä sekä ryhmittelyanalyysillä. Faktorianalyysin teko aloitetaan konfirmatorisella lähestymistavalla jatkaen eksploratiivisella otteella. Ryhmittelyanalyysi muodostetaan kahta faktoripistemuuttujaa käyttäen hierarkisilla ja ei hierarkisella metodilla. Ryhmiä pyritään kuvailemaan taustamuuttujien avulla. Lisäksi menetelmien teoriaa esitellään tutkielmassa laajemmin. Tutkielman tulokset monimuuttujamenetelmien osalta jäivät vaatimattomiksi ensinnäkin tutkimuskysymysten muututtua pilottimaiseksi kohderyhmän laajentamisen myötä. Lisäksi aineiston muuttujien jakaumat olivat liian vinoja hyvien analyysien tekemiseksi. Näin ollen tulokset toimivat esimerkkeinä, jos tutkimusta päätetään uusia. Pilottitutkimuksena tutkimus on onnistunut ja ja sen avulla saatiin paljon tietoa kyselyn teosta sekä opiskelijoista. Tutkimusta uusittaessa on syytä käyttää lyhyempää kyselylomaketta ja ottaa paremmin huomioon kaikki erityisryhmät ulkomaalaisten tutkinto-opiskelijoiden joukossa. Kyselytutkimuksen vastausprosentti oli hyvä (n. 46 %), mikä johtunee opiskelijoita kiinnostavan aiheen lisäksi, siitä että tutkimukseen osallistumisen porkkanana oli 100 euron lahjakortin arvonta. Kysely suunniteltiin ja toteutettiin noudattaen kirjallisuudessa esitettyjä ohjeita ja kyselylomakkeeseen vastattiin tasaisesti, joten myös itse kysely oli vähintäänkin melko onnistunut. Valitettavasti keskeyttäneistä ei ollut tilaisuutta saada informaatiota ja vastauskatoanalyysi jäi tyngäksi. Tutkimuksen tuloksia voi sinällään käyttää hyväksi opiskelijoiden edunvalvonta työssä myös muun kuin lukukausimaksukokeilun parissa. Esimerkiksi ulkomaalaisten opiskelijoiden sosioekonomista taustaa tai rahankäyttöä ei ole ennen tätä tutkittu vastaavalla laajuudella. Lisäksi tämän pilottitutkimuksen ja sen tulosten perusteella Aalto-yliopiston ylioppilaskunnalla (AYY) on mahdollisuus toteuttaa seuraavina vuosina vastaavanlainen kysely omille opiskelijoilleen, tai laajentaa tutkimusta koko Suomea koskevaksi ja saavuttaa näin parempaa tietoutta koskien lukukausimaksukokeilua.
  • Toivola, Joonas (2015)
    The focus of my Master’s thesis is to compare calibrated weights with adjusted weights generated by using the RPW (Response propensity weighting) method. The estimated response propensities are calculated by using multinomial logistic regression in which the dependent variable is ternary and indicates response in web/cati or nonresponse. Possible differences in results between these two data collection modes are examined in my research as well. Three explanatory variables were used in modeling and the same variables were also included in calibration: gender, age group and major region. Thus the weights will be comparable. In addition, I will generate another model with some auxiliary variables from the data warehouse in order to see their effect. Those variables are income class, socioeconomic status, family status and origin. However, that information is not entirely up to date due to the delay of getting data. The data sets I’m using are from the Finnish Consumer survey, November 2012. The second mixed-mode survey pilot research was carried out alongside the monthly data collection at that time. Combining modes is worth of examination because it may offer an effective way to reach a larger amount of respondents and thus raise response rates in surveys. Web surveys, for instance, are relatively easy to set up and not so expensive.
  • Saastamoinen, Taneli (2020)
    Word2vec is a method for constructing so-called word embeddings, or word vectors, from natural text. Word embeddings are a compressed representation of word contexts, based on the original text. Such representations have many uses in natural language processing, as they contain a lot of contextual information for each word in a relatively compact and easily usable format. They can be used either for directly examining and comparing the contexts of words or as more informative representations of the original words themselves for various tasks. In this thesis, I investigate the theoretical underpinnings of word2vec, how word2vec works in practice and how it can be used and its results evaluated, and how word2vec can be applied to examine changes in word contexts over time. I also list some other applications of word2vec and word embeddings and briefly touch on some related and newer algorithms that are used for similar tasks. The word2vec algorithm, while mathematically fairly straightforward, involves several optimisations and engineering tricks that involve tradeoffs between theoretical accuracy and practical performance. These are described in detail and their impacts are considered. The end result is that word2vec is a very efficient algorithm whose results are nevertheless robust enough to be widely usable. I describe the practicalities of training and evaluating word2vec models using the freely available, open source gensim library for the Python programming language. I train numerous models with different hyperparameter settings and perform various evaluations on the results to gauge the goodness of fit of the word2vec model. The source material for these models comes from two corpora of news articles in Finnish from STT (years 1992-2018) and Yle (years 2011-2018). The practicalities of processing Finnish-language text with word2vec are considered as well. Finally, I use word2vec to investigate the changes of word contexts over time. This is done by considering word2vec models that were trained from the Yle and STT corpora one year at a time, so that the context of a given word can be compared between two different years. The main word I consider is "tekoäly" (Finnish for "artificial intelligence"); some related words are examined as well. The result is a comparison of the nearest neighbours of "tekoäly" and related words in various years across the two corpora. From this it can be seen that the context of these words has changed noticeably during the time considered. If the meaning of a word is taken to be inseparable from its context, we can conclude that the word "tekoäly" has meant something different in different years. Word2vec, as a quantitative method, provides a measurable way to gauge such semantic change over time. This change can also be visualised, as I have done. Word2vec is a stochastic method and as such its convergence properties deserve attention. As I note, the convergence of word2vec is by now well established, both through theoretical examination and the very numerous successful practical applications. Although not usually done, I repeat my analysis in order to examine the stability and convergence of word2vec in this particular case, concluding that my results are robust.
  • Tervola, Jussi (2010)
    Tutkimuksen tavoite on kartoittaa Kelan sairaanhoitokorvausten alueellista vaihtelua selittäviä tekijöitä kuntatasolla tilastotieteellisin menetelmin. Erityistarkastelussa on kuntien terveydenhuoltomenojen ja Kelan sairaanhoitokorvausten yhteys. Sairaanhoitokorvauksilla tarkoitetaan tässä yhteydessä yksityisen terveydenhuollon korvauksia, joita ovat lääkärin ja hammaslääkärin palkkiosta sekä tutkimuksesta ja hoidosta maksettavat korvaukset. Lääke- ja matkakorvaukset jätetään sairaanhoitokorvauksista tutkimuksen ulkopuolelle. Tutkimuksen aineisto koostuu Kelan ja Tilastokeskuksen kuntakohtaisista tilastotiedoista vuodelta 2007. Muuttujia on pyritty keräämään niin, että kaikki olennaiset kunnan yhteiskuntarakennetta kuvaavat indikaattorit olisivat edustettuina. Tilastollinen regressiomallinnus on keskeinen osa tämän opinnäytetyön menetelmiä. Regressiomallinnuksessa käytetään sekä PNS-menetelmää että robustia MM-menetelmää. Lisäksi aineistossa olevaa puuttuvuutta käsitellään imputoimalla ja aineiston informaatiota tiivistetään pääkomponenttianalyysilla. Rekisterimuuttujien yhdistelyssä ja aineiston muodostamisessa käytetään hyväksi rekisteriaineistojen käsittelyn tilastotiedettä. Yksittäisistä muuttujista asukkaiden tulotaso ja korkeakoulutettujen osuus, jotka korreloivat vahvasti keskenään, selittävät eniten yksityisen terveydenhuollon sairaanhoitokorvausten kunnittaisesta vaihtelusta. Kun tulotaso tai korkeakoulutettujen osuus on mallissa, työttömyysaste selittää eniten jäljelle jäänyttä vaihtelua. Suurimman selitysasteen saa tulotason ja työttömyysasteen malli, joka selittää yli 50 % yksityisen terveydenhuollon sairaanhoitokorvausten vaihtelusta. Jäännösten perusteella mallin sopivuudessa on kuitenkin alueellista vaihtelua. Kun malliin lisätään alueulottuvuuden sisältäviä yhdysvaikutustermejä, sen selitysaste kasvaa lähes 70 %:iin. Kun mallit muodostetaan Kelan vakuutusalueiden tasolla, selittävimpiin malleihin valikoituu eri vakuutusalueissa eri muuttujia. Etelä-Suomen selittävillä malleilla on huomattavasti suurempi selitysaste kuin muissa vakuutusalueissa. Yksi syy tähän voi olla, että Etelä-Suomessa yksityisten terveyspalvelujen tarjonta on vahvemmin kiinnittynyt kunnan ominaisuuksiin, mikä taas on tulosta alueen palvelujen käyttökulttuurin ominaispiirteistä ja markkinoiden muodostumisesta. Yksityisen terveydenhuollon sairaanhoitokorvauksilla on melko vahva negatiivinen korrelaatio sekä kuntien terveydenhuoltomenojen että ikä- ja sukupuolivakioidun sairastavuusindeksin kanssa. Nämä yhteydet kuitenkin häviävät, kun esimerkiksi kunnan asukkaiden tulotaso vakioidaan. Koska vakuutusalueittaisessa tarkastelussa selittävimpiin malleihin valikoituneet muuttujat vaihtelivat paljon, voidaan päätellä, että tämän tutkimuksen perusteella ei ole olemassa valtakunnallista pelkkien päävaikutusten mallia, joka selittäisi yksityisen terveydenhuollon sairaanhoitokorvausten vaihtelua tyydyttävästi. Alueulottuvuus on syytä ottaa huomioon joko yhdysvaikutustermein tai muodostamalla mallit kokonaan pienemmässä aluekehyksessä. Mitä suuremmat kunnallisen terveydenhuollon kustannukset olivat vuonna 2007, sitä vähemmän kunnassa käytettiin yksityisen terveydenhuollon palveluja (ts. myönnettiin sairaanhoitokorvauksia). Samoin mitä suurempi kunnan ikä- ja sukupuolivakioitu sairastavuusindeksi oli, sitä vähemmän siellä käytettiin yksityisen terveydenhuollon palveluja. Yhteydet kuitenkin selittyvät välillisesti esimerkiksi kunnan asukkaiden tulotasolla: sairastavimmissa kunnissa on keskimäärin pienempi tulotaso. Tutkimuksen tuloksia voidaan käyttää sairausvakuutusjärjestelmän arvioinnin ja kehittämisen tukena. Tutkimus voi myös luoda pohjaa yleisemmän terveystaloustieteellisen teorian kehittämiselle.
  • Oksanen, Pihla (2020)
    Määräaikaiskatsastus on määräajoin ajoneuvolle suoritettava katsastus, jolla pyritään varmistamaan, että liikennekäytössä oleva ajoneuvo on turvallinen ja sen ympäristövaikutukset ovat määräyksien mukaisia. Aiemmin katsastustapahtumia tarkastelemalla on osoitettu, että katsastuksessa löydettyjen vikojen ja hylättyjen katsastuspäätösten osuus kasvaa voimakkaasti ajoneuvojen ikääntyessä. Tämän tutkielman tavoitteena oli tutkia, millainen yhteys iän lisäksi muilla tekijöillä, kuten ajoneuvoluokalla, matkamittarilukemalla ja merkillä, on katsastuspäätökseen ja katsastuksessa havaittujen vikojen lukumäärään. Lisäksi tavoitteena oli selvittää, miten yleistettyä lineaarista sekamallia voidaan soveltaa ajoneuvojen määräaikaiskatsastusten mallintamisessa. Tutkielman aineisto käsitti 5,53 miljoonaa Suomessa vuosina 2017 ja 2018 suoritettua määräaikaiskatsastusta, joissa katsastuspäätös oli hyväksytty tai hylätty. Aineisto poimittiin Liikenne- ja viestintävirasto Traficomin ylläpitämästä liikenneasioiden rekisteristä, ja se sisälsi katsastuksiin liittyviä tietoja sekä ajoneuvojen teknisiä tietoja. Havaintoyksikkönä oli katsastustapahtuma. Tutkielmassa aineisto rajattiin katsastuksiin, jotka oli suoritettu alle 30-vuotiaille ja alle 7 500 kg painaville henkilö- ja pakettiautoille. Aineisto sisälsi vain ajoneuvon vuoden ensimmäisen katsastuksen. Mallinnuksessa aineistona käytettiin 500 000 katsastustapahtuman satunnaisotosta, joka poimittiin rajatusta aineistosta (N= 4 712 971). Tutkielmassa mallinnus suoritettiin yleistetyllä lineaarisella sekamallilla, joka voidaan tulkita yleistetyn lineaarisen mallin ja lineaarisen sekamallin yleistyksenä. Menetelmää voidaan soveltaa tilanteissa, joissa vaste on eksponenttiperheen jakaumasta ja havainnot ovat ryhmittyneesti riippuvia. Menetelmän malliyhtälö koostuu lineaarisesta mallista tutusta kiinteästä osasta sekä satunnaisosasta. Kaksiosaisen rakenteen ansiosta menetelmällä voidaan selittävien muuttujien vaikutuksien estimoinnin lisäksi tarkastella monilähteistä vaihtelua. Yleistetty lineaarinen sekamalli valittiin tutkielman menetelmäksi mallivasteiden jakaumien ja katsastustapahtumien oletetun riippuvuuden takia. Tutkielmassa vasteiden, katsastuspäätöksen ja vikojen lukumäärän, oletettiin olevan binomijakaumasta ja negatiivisesta binomijakaumasta eli eksponenttiperheen jakaumista. Lisäksi oletettiin, että katsastaja ja edelleen katsastustoimipaikka aiheuttivat katsastustapahtumien välille ryhmittynyttä riippuvuutta. Mallinnus suoritettiin SAS-ohjelmiston GLIMMIX-proseduurilla. Tutkielmassa esitetyissä malleissa kiinteinä selittäjinä käytettiin luokiteltua ajoneuvon ikää, luokiteltua matkamittarilukemaa sekä luokiteltua ajoneuvon merkkiä. Satunnaisena vaikutuksena käytettiin katsastustoimipaikan mukaan määrittyvää vakiotermiä. Mallinnuksen yhteydessä havaittiin aiemmissa julkaisuissa todettu ajoneuvon iän voimakas positiivinen korrelaatio hylkäystodennäköisyyden ja vikojen lukumäärän kanssa. Vastaavanlainen ilmiö havaittiin matkamittarilukeman osalta: mitä enemmän ajoneuvolla oli ajettu, sitä todennäköisempää oli hylkäys ja havaittujen vikojen lukumäärän lisääntyminen. Molempien vasteiden suhteen ajoneuvomerkkien ennusteet erosivat toisistaan sitä voimakkaammin, mitä vanhempia ja mitä enemmän ajettuja ajoneuvoja tarkasteltiin. Katsastustoimipaikkakohtaisissa tarkasteluissa selvisi, että toimipaikoilla oli eroja hylkäystodennäköisyyksien ja vikojen lukumäärien ennusteissa sekä ennusteiden hajonnoissa. Tutkielmassa keskityttiin molempien vasteiden osalta kolmeen malliin. Mallien informaatiokriteerejä vertaamalla havaittiin, että vasteita parhaiten selittäneet muuttujayhdistelmät eivät olleet samat. Mallinnuksen yhteydessä huomattiin, että mallit oli hyvä pitää melko yksinkertaisina. Monimutkaiset mallirakenteet ja usean luokitellun selittäjän sisällyttäminen malliin tekivät laskennasta raskaan ja muodostivat havaintomääriltään pieniä selittävien muuttujien luokkia. Aineistosta havaittiin, että menetelmän oletus ryhmittyneestä riippuvuudesta ei puhtaasti pätenyt aineistossa, koska osa katsastajista toimi useassa katsastustoimipaikassa. Mallien hyvyyden tarkastelu todettiin haastavaksi, koska yleistetyllä lineaarisella sekamallilla ei ole vastaavalla tavalla vakiintuneita tapoja hyvyyden arviointiin kuin esimerkiksi yleistetyllä lineaarisella mallilla. Siksi jatkotutkimuksena olisi kiinnostavaa tutkia muun muassa sitä, millaisia muita välineitä tutkielmassa käytetyn lisäksi on sovellettavissa tutkielman mallien hyvyyden tarkasteluun.
  • Hamberg, Leena (2012)
    Yleistetty additiivinen sekamalli on tilastollinen menetelmä, jolla voidaan saada helposti selville käyräviivaisia vasteita. Tästä ominaisuudesta on erityistä hyötyä silloin, kun selitettävän ja selittävän tekijän välisen suhteen muodosta ei ole selvää etukäteistietoa. Additiivisissa malleissa käytetään epäparametrisiä tasoitusmenetelmiä, jotka seurailevat selitettävän ja selittävän muuttujan välistä pisteparvea ja siten löytävät vasteen käyräviivaisen muodon. Additiivisen mallin estimoinnin yhteydessä selitettävä tekijä voidaan muuntaa lineaariseksi sopivan jakauman ja linkkifunktion avulla kuten yleistetyillä lineaarisilla malleillakin. Kun additiiviseen malliin lisätään vielä havaintoyksiköiden korreloituneisuuden huomioivia satunnaistekijöitä, voidaan puhua yleistetystä additiivisesta sekamallista. Yleistetyt additiiviset sekamallit perustuvat yleistettyihin lineaarisiin sekamalleihin, johon menetelmään epäparametrinen tasoituskin matemaattisesti palautuu. Yleistettyjä additiivisia sekamalleja käytettiin sovelluksena esitettävän pihlaja-aineiston analysoimisessa. Pihlajantaimet ovat runsastuneet viime vuosina huomattavasti asutuksen läheisyydessä sijaitsevissa kaupunkimetsissä. Siksi tavoitteena oli selvittää, vaikuttavatko puuston määrä ja puulajisuhteet pihlajan runsauteen, sillä kaupunkimetsien puusto poikkeaa talousmetsien puuston rakenteesta. Tutkielman tulokset osoittavat, että puusto vaikuttaa melko vähän pihlajantaimien runsauteen. Pihlaja sietää hyvin muiden puiden – kuten kuusten – varjostusta, mutta rauduskoivujen määrän vähentäminen ja muiden lehtipuulajien (harmaaleppä, tervaleppä, raita, vaahtera, tuomi, paatsama, tammi, jalava ja isotuomipihlaja) lisääminen voivat rajoittaa liiallista pihlajien määrää kaupunkimetsissä. Myös yksittäisten pihlajien kasvattaminen puuksi voi auttaa pihlajavesakoiden hillitsemisessä, sillä runsas suurten pihlajien määrä vähensi pihlajantaimien määrää.
  • Peltonen, Petri (2013)
    Helsingin yliopiston Lääketieteellisen genetiikan osaston ja Sibelius-Akatemian yhteistyönä tekemä vuonna 2003 alkanut tutkimus tutkii musikaalisuuden perinnöllisyyttä ja biologista taustaa. Aihetta ei ole tutkittu aiemmin juurikaan koko maailmassa. Aineistona siinä on noin 870 suomalaisen, pääosin suurista suvuista tai perheistä koostuva joukko. Tutkimus koostui kolmesta erilaisesta musikaalisuustestistä, kyselylomakkeesta ja yli 12-vuotiailta otetusta DNA-näytteestä. Lisäksi ympäristötekijöiden yhteyksien ilmentämisen selventämiseksi loppukeväästä 2013 valmistui uusi tarkentava kyselylomake. Pro gradu -tutkielmani tavoitteena oli löytää ympäristötekijöitä, joilla on vahva yhteys musiikillisen koulutuksen ja ammattimuusikoksi päätymisen sekä musiikillisen luovuuden harjoittamisen kanssa. Aineiston pääasiallisina analyysimenetelminä käytin faktori- ja klusterianalyysia. Pääkiinnostuksen kohteina olleita muuttujia, musiikillinen koulutus (erityisesti ammattimuusikkous) ja luovuus, selitettiin lineaarisen ja logistisen regressioanalyysin avulla. Faktorianalyysimenetelmällä saadut tulokset puoltavat hypoteeseja musikaalisuuden monimuotoisuudesta ja piilevistä musikaalisuuden ja sen ilmenemisen ominaisuuksista. Jaottelu on tulosten perusteella selväpiirteinen. Faktoripistemäärien käyttäminen musiikillisen koulutuksen ja luovuuden alojen selittämisessä antaa viitteitä geenien ja ympäristötekijöiden vaikutuksesta ihmisen musikaalisuuden ilmenemisessä. Kiinnostuksen kohteina olevilta muuttujilta löytyi vahva yhteys erityisesti musiikillista toimintaa ja musikaalisuustestejä ilmentäviin faktoripistemuuttujiin. Klusterianalyysia käytettiin musiikillista luovuutta harjoittavien ihmisten jaotteluun eri ryhmiin luovuuden ammattimaisuuden ja luomistapojen perusteella. Tutkimuksessa käytetty aineisto ei vastannut otanta-asetelmaltaan otosta vaan oli luonteeltaan näyte. Tutkimustuloksia ei näin ollen voitu yleistää koskemaan kaikkia suomalaisia. Erilaisten painotusmenetelmien käyttö ei myöskään ollut mahdollista, sillä koko väestöä koskevia tarvittavia perustietoja ei ollut saatavilla tai määritelmät (esim. ammattimuusikkous) erosivat tutkimuksen ja virallisten määritelmien perusteella jonkin verran. Keräyksen näyteluonteesta oli kuitenkin myös hyötyä: Musiikin ammattilaisten huomattavan suuri suhteellinen osuus (n. satakertainen Suomen väestöön nähden) auttoi analysoitaessa ammattimuusikkouteen johtavia syitä. Lisäksi luovien ihmisten määrä oli tarpeeksi suuri henkilöiden jaotteluun erilaisten luomistapojen mukaan klusterianalyyseissa. Suurin perhekokonaisuuksiin keskittyvä aineisto mahdollisti myös musikaalisuuden perinnöllisyyden tarkastelun ja ympäristötekijöiden kattavamman huomioinnin. Musikaalisuustesteihin tulleista henkilöistä Musikaalisuuden perinnöllisyystutkimus -lomakkeen palautti yli 85 %. Myös tarkentavan kyselylomakkeen vastausprosentti oli hyvä (yli 60 %). Aineiston näyteluonteisuudesta huolimatta tutkimusta voi pitää hyvin onnistuneena. Se paljasti monia uusia piirteitä musikaalisuuden monimuotoisuudesta sekä biologian ja ympäristötekijöiden yhteyksistä musikaalisuuden ilmenemisessä. Tarkentava kyselylomake antaa myös mahdollisuuden monipuolisempiin musiikillisen luovuuden biologisten taustojen jatkotutkimuksiin.