Browsing by discipline "Statistik"

Now showing items 21-23 of 23

Vastauskadon korjausmenetelmien tarkastelu lumipallo-otanta -aineistossa

Laalo, Marianne (2020)

Vastauskadon yleistyminen on haitallista, sillä se aiheuttaa ongelmia estimaattien tarkkuuteen sekä luottamusvälien leveyteen. Harhaiseen estimaattiin perustuvat tulokset aiheuttavat virheellisiä tulkintoja. Vastauskatoa voidaan korjata painottamalla aineistoa sekä käyttämällä imputointia puuttuvien arvojen paikkauksessa. Tässä tutkielmassa tarkastellaan vastauskadon korjausmenetelmiä lumipallo-otanta –aineistossa. Tutkielmassa tarkastellaan puuttuneisuuden rakennetta sekä vertaillaan painottamattomia ja painotettuja muuttujia. Lopuksi aineistoa paikataan vielä moni-imputoinnin avulla. Lumipallo-otannassa otos kasvaa lumipallon lailla, kun otokseen jo nimetyt henkilöt nimeävät uusia henkilöitä otokseen. Lumipallo-otannasta on vakiintunut kolme mallia: lineaarinen lumipallo-otanta, eksponentiaalinen syrjimätön lumipallo-otanta sekä eksponentiaalinen syrjivä lumipallo-otanta. Lumipallo-otannan etu on, että sen avulla on mahdollista paikantaa piilossa olevia henkilöitä tai ryhmiä. Aineiston vastaukadon korjauksessa voi käyttää painotusta tai sen lähellä olevaa jälkiositusta. Moni-imputoinnissa imputointikierroksia on vähintään kaksi. Imputoitujen aineistojen avulla tuotetaan estimaatti puuttuvalle arvolle. Tutkielman aineistona on Romanien hyvinvointitutkimus, johon osallistui 365 Suomen romania tai itsensä Suomen romaniksi kokevaa henkilöä. Aineisto kerättiin lumipallo-otannalla helmikuun 2017 ja elokuun 2018 välillä. Tutkimus koostui pitkästä tai lyhyestä haastattelulomakkeesta sekä terveystarkastuksesta. Osallistujat saivat valita vastaavatko pitkään vai lyhyeen lomakkeeseen. Pitkässä lomakkeessa oli 88 kysymystä ja lyhyessä lomakkeessa oli oleellisimmat kysymykset pitkästä lomakkeesta, jolloin kysymyksiä oli 60. Tutkielman ensimmäiset tarkastelut koskevat puuttuneisuutta. Puuttuneisuutta tarkastellaan muutaman muuttujan avulla lyhyen ja pitkän lomakkeen välillä. Toisessa vaiheessa tarkastellaan samojen muuttujien avulla miten painottamaton ja painotettu aineisto eroavat toisistaan. Viimeisessä vaiheessa muodostetaan imputointimallit, joiden pohjalta toteutetaan moni-imputointi. Suhteellisesti suurempi puuttuneisuus lyhyessä lomakkeessa johtuu todennäköisesti siitä, että pitkään lomakkeeseen vastanneet ovat jo lähtökohtaisesti motivoituneempia vastaamaan ja näin ollen antavat enemmän vastauksia. Painotus kertoo, että iäkkäämmät ihmiset ovat aliedustettuina aineistossa. Moni-imputoinnin tulokset osoittavat, että kolmen muodostetun imputointimallin välillä ei ole suurta eroa. Lumipallo-otanta on hyvä otantamenetelmä paikannettaessa piilossa olevia ryhmiä, ja on hyvä asia, että eniten väestötutkimuksissa käytetyn satunnaisotannan rinnalla on muitakin käyttökelpoisia otantamenetelmiä. Lumipallo-otannalla saatuihin tuloksiin on kuitenkin syytä suhtautua varauksella eikä niiden yleistäminen ja vertailu ole täysin ongelmatonta.
Word2vec and its application to examining the changes in word contexts over time

Saastamoinen, Taneli (2020)

Word2vec is a method for constructing so-called word embeddings, or word vectors, from natural text. Word embeddings are a compressed representation of word contexts, based on the original text. Such representations have many uses in natural language processing, as they contain a lot of contextual information for each word in a relatively compact and easily usable format. They can be used either for directly examining and comparing the contexts of words or as more informative representations of the original words themselves for various tasks. In this thesis, I investigate the theoretical underpinnings of word2vec, how word2vec works in practice and how it can be used and its results evaluated, and how word2vec can be applied to examine changes in word contexts over time. I also list some other applications of word2vec and word embeddings and briefly touch on some related and newer algorithms that are used for similar tasks. The word2vec algorithm, while mathematically fairly straightforward, involves several optimisations and engineering tricks that involve tradeoffs between theoretical accuracy and practical performance. These are described in detail and their impacts are considered. The end result is that word2vec is a very efficient algorithm whose results are nevertheless robust enough to be widely usable. I describe the practicalities of training and evaluating word2vec models using the freely available, open source gensim library for the Python programming language. I train numerous models with different hyperparameter settings and perform various evaluations on the results to gauge the goodness of fit of the word2vec model. The source material for these models comes from two corpora of news articles in Finnish from STT (years 1992-2018) and Yle (years 2011-2018). The practicalities of processing Finnish-language text with word2vec are considered as well. Finally, I use word2vec to investigate the changes of word contexts over time. This is done by considering word2vec models that were trained from the Yle and STT corpora one year at a time, so that the context of a given word can be compared between two different years. The main word I consider is "tekoäly" (Finnish for "artificial intelligence"); some related words are examined as well. The result is a comparison of the nearest neighbours of "tekoäly" and related words in various years across the two corpora. From this it can be seen that the context of these words has changed noticeably during the time considered. If the meaning of a word is taken to be inseparable from its context, we can conclude that the word "tekoäly" has meant something different in different years. Word2vec, as a quantitative method, provides a measurable way to gauge such semantic change over time. This change can also be visualised, as I have done. Word2vec is a stochastic method and as such its convergence properties deserve attention. As I note, the convergence of word2vec is by now well established, both through theoretical examination and the very numerous successful practical applications. Although not usually done, I repeat my analysis in order to examine the stability and convergence of word2vec in this particular case, concluding that my results are robust.
Yleistetty lineaarinen sekamalli ajoneuvojen määräaikaiskatsastusten mallinnuksessa

Oksanen, Pihla (2020)

Määräaikaiskatsastus on määräajoin ajoneuvolle suoritettava katsastus, jolla pyritään varmistamaan, että liikennekäytössä oleva ajoneuvo on turvallinen ja sen ympäristövaikutukset ovat määräyksien mukaisia. Aiemmin katsastustapahtumia tarkastelemalla on osoitettu, että katsastuksessa löydettyjen vikojen ja hylättyjen katsastuspäätösten osuus kasvaa voimakkaasti ajoneuvojen ikääntyessä. Tämän tutkielman tavoitteena oli tutkia, millainen yhteys iän lisäksi muilla tekijöillä, kuten ajoneuvoluokalla, matkamittarilukemalla ja merkillä, on katsastuspäätökseen ja katsastuksessa havaittujen vikojen lukumäärään. Lisäksi tavoitteena oli selvittää, miten yleistettyä lineaarista sekamallia voidaan soveltaa ajoneuvojen määräaikaiskatsastusten mallintamisessa. Tutkielman aineisto käsitti 5,53 miljoonaa Suomessa vuosina 2017 ja 2018 suoritettua määräaikaiskatsastusta, joissa katsastuspäätös oli hyväksytty tai hylätty. Aineisto poimittiin Liikenne- ja viestintävirasto Traficomin ylläpitämästä liikenneasioiden rekisteristä, ja se sisälsi katsastuksiin liittyviä tietoja sekä ajoneuvojen teknisiä tietoja. Havaintoyksikkönä oli katsastustapahtuma. Tutkielmassa aineisto rajattiin katsastuksiin, jotka oli suoritettu alle 30-vuotiaille ja alle 7 500 kg painaville henkilö- ja pakettiautoille. Aineisto sisälsi vain ajoneuvon vuoden ensimmäisen katsastuksen. Mallinnuksessa aineistona käytettiin 500 000 katsastustapahtuman satunnaisotosta, joka poimittiin rajatusta aineistosta (N= 4 712 971). Tutkielmassa mallinnus suoritettiin yleistetyllä lineaarisella sekamallilla, joka voidaan tulkita yleistetyn lineaarisen mallin ja lineaarisen sekamallin yleistyksenä. Menetelmää voidaan soveltaa tilanteissa, joissa vaste on eksponenttiperheen jakaumasta ja havainnot ovat ryhmittyneesti riippuvia. Menetelmän malliyhtälö koostuu lineaarisesta mallista tutusta kiinteästä osasta sekä satunnaisosasta. Kaksiosaisen rakenteen ansiosta menetelmällä voidaan selittävien muuttujien vaikutuksien estimoinnin lisäksi tarkastella monilähteistä vaihtelua. Yleistetty lineaarinen sekamalli valittiin tutkielman menetelmäksi mallivasteiden jakaumien ja katsastustapahtumien oletetun riippuvuuden takia. Tutkielmassa vasteiden, katsastuspäätöksen ja vikojen lukumäärän, oletettiin olevan binomijakaumasta ja negatiivisesta binomijakaumasta eli eksponenttiperheen jakaumista. Lisäksi oletettiin, että katsastaja ja edelleen katsastustoimipaikka aiheuttivat katsastustapahtumien välille ryhmittynyttä riippuvuutta. Mallinnus suoritettiin SAS-ohjelmiston GLIMMIX-proseduurilla. Tutkielmassa esitetyissä malleissa kiinteinä selittäjinä käytettiin luokiteltua ajoneuvon ikää, luokiteltua matkamittarilukemaa sekä luokiteltua ajoneuvon merkkiä. Satunnaisena vaikutuksena käytettiin katsastustoimipaikan mukaan määrittyvää vakiotermiä. Mallinnuksen yhteydessä havaittiin aiemmissa julkaisuissa todettu ajoneuvon iän voimakas positiivinen korrelaatio hylkäystodennäköisyyden ja vikojen lukumäärän kanssa. Vastaavanlainen ilmiö havaittiin matkamittarilukeman osalta: mitä enemmän ajoneuvolla oli ajettu, sitä todennäköisempää oli hylkäys ja havaittujen vikojen lukumäärän lisääntyminen. Molempien vasteiden suhteen ajoneuvomerkkien ennusteet erosivat toisistaan sitä voimakkaammin, mitä vanhempia ja mitä enemmän ajettuja ajoneuvoja tarkasteltiin. Katsastustoimipaikkakohtaisissa tarkasteluissa selvisi, että toimipaikoilla oli eroja hylkäystodennäköisyyksien ja vikojen lukumäärien ennusteissa sekä ennusteiden hajonnoissa. Tutkielmassa keskityttiin molempien vasteiden osalta kolmeen malliin. Mallien informaatiokriteerejä vertaamalla havaittiin, että vasteita parhaiten selittäneet muuttujayhdistelmät eivät olleet samat. Mallinnuksen yhteydessä huomattiin, että mallit oli hyvä pitää melko yksinkertaisina. Monimutkaiset mallirakenteet ja usean luokitellun selittäjän sisällyttäminen malliin tekivät laskennasta raskaan ja muodostivat havaintomääriltään pieniä selittävien muuttujien luokkia. Aineistosta havaittiin, että menetelmän oletus ryhmittyneestä riippuvuudesta ei puhtaasti pätenyt aineistossa, koska osa katsastajista toimi useassa katsastustoimipaikassa. Mallien hyvyyden tarkastelu todettiin haastavaksi, koska yleistetyllä lineaarisella sekamallilla ei ole vastaavalla tavalla vakiintuneita tapoja hyvyyden arviointiin kuin esimerkiksi yleistetyllä lineaarisella mallilla. Siksi jatkotutkimuksena olisi kiinnostavaa tutkia muun muassa sitä, millaisia muita välineitä tutkielmassa käytetyn lisäksi on sovellettavissa tutkielman mallien hyvyyden tarkasteluun.

Now showing items 21-23 of 23

Browsing by discipline "Statistik"

Yhteystiedot

HELSINGIN YLIOPISTO