Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Author "Yli-luukko, Maria"

Sort by: Order: Results:

  • Yli-luukko, Maria (2020)
    Sentimenttianalyysi on yksi tutkituimpia luonnollisen kielen käsittelyn linjoja, jonka modernimpeihin työkaluihin kuuluu neuroverkot. Alan alle on syntynyt haastavampi luokittelutehtävä, jonka tavoitteena on perinteisen positiivisen, neutraalin ja negatiivisen arvion lisäksi tunnistaa tekstistä tunnetiloja, kuten surua, iloa tai vihaa ja rakkautta. Siinä missä sentimenttianalyysin polaarisuuden tutkimuksessa etsitään vain kolmea luokkaa, tunnetiloja on useimpien teorioiden mukaan olemassa yli kuutta erilaista, mikä kasvattaa eri ratkaisujen määrää eksponentiaalisesti, ja tekee moniluokittelutehtävästä haastavamman. Tutkimusongelma on kiinnostava, sillä automaattisilla algoritmeilla pystytään käsittelemään valtavia määriä tekstiä vain muutamissa sekunneissa, ja luomaan lopputuloksena tiivistelmiä, jotka kertovat, millaisista asioista tekstissä puhutaan. Tällaiset työkalut ovat hyödyllisiä esimerkiksi yrittäjille, joiden halu on ymmärtää omia ja tulevia asiakkaitaan paremmin. Ihmiset tuottavat paljon tekstiä päivittäin sosiaalisen median kautta, ja toisinaan antavat palautetta myös suoraan yrityksille; jos nämä eri lähteet pystytään tiivistämään helposti ymmärrettäviksi kuvaajiksi ja luvuiksi, saadaan tärkeää tietoa siitä, millaiset tarpeet ohjaavat ihmisten ostokäyttäytymistä. Tutkielmassa tutustutaan neuroverkkoihin ja tilastollisiin menetelmiin, joilla tunteita voidaan havaita tekstistä automaattisesti. Soveltavassa osiossa luodaan muutaman aikansa tuloksellisemman koneoppimisarkkitehtuurin avulla malli, jonka opetusaineistona käytetään vuoden 2018 SemEval-tehtävän 10 tuhatta käsinluokiteltua Twitterjulkaisua. Tavoitteena on kuvata mallinnusprosessi ja siihen liittyvät oletukset ja lopuksi näyttää, että prosessilla saatavien mallien ennustustarkkuus on hyvä, ja lisäksi osoittaa, että esikoulutettujen koneoppimismallien ennustustarkkuus on sanapohjaisia malleja parempi. Lopputuloksena saadaan uutta BERT-arkkitehtuuria käyttävä malli, joka saavuttaa vuoden 2018 SemEval -tehtävän muiden kilpailevien mallien suoritustason.