Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Subject "hyperparametrien optimointi"

Sort by: Order: Results:

  • Melasuo, Elina (2020)
    Pro gradu -tutkielma käsittelee sähköpostin luokittelua. Lähtökohtana on tarve luokitella sähköposteja ohjatun koneoppimisen keinoin niin, että organisaation kirjaamoon tulevat sähköpostit voitaisiin välittää hoidettavaksi oikealle henkilölle organisaatiossa. Tutkielmassa esitellään tekstin luokittelun keinoja, haasteita ja käytäntöjä. Erilaisia tekstin esikäsittelytapoja ja sähköpostin erityispiirteitä kuvaillaan. Tutkielman testiaineisto koostuu tutkijan omista työsähköposteista. Sähköpostien pääkieli on suomi, vaikka englanninkielisiä osia löytyy työn luonteesta johtuen. Aineiston määrä on suhteellisen pieni (1518 sähköpostia) ja epätasapainossa eri henkilöiden, luokkien, kesken. Tutkimuksessa selvitetään, kuinka hyviä luokittelutuloksia saa tämän tyyppisellä aineistolla. Sähköpostiaineiston ollessa kyseessä tutkielmassa selvitetään myös tietosuojaa, luottamuksellisen tiedon käsittelyä ja esitellään aineistoon suoritettuja anonymisointikeinoja. Suomi on voimakkaasti taipuva kieli, ja lemmatisointia käytetään sanamuotojen normalisointimenetelmänä. Luokittelussa sovelletaan Multinomial Naïve Bayes -mallia, joka on generatiivinen todennäköisyysmalli. Piirreirrotusmenetelminä käytetään sanamäärävektoreita ja sanojen frekvenssien painokerroinvektoreita. Suorituskykymittareina käytetään tarkkuutta ja F1-arvoa. Luokittelutulosten parantamiskeinona käytetään hyperparametrien optimointia. Opetus- ja kehitysaineistoon verrattuna tutkimuksen tulokset testiaineiston kanssa ovat tilastollisesti katsottuna heikot. Johtopäätöksenä todetaan, että tutkielmassa käytetty sähköpostien määrä oli liian vähäinen, jotta luokittelija olisi osannut oppia harvinaisemmista luokista. Tutkielman perusteella korostetaan tarpeellisten järjestelmien asentamista, aineiston käsittelyprosessien toteuttamista ja tietosuoja-asioihin perehtymistä jo suunnittelussa ja aineiston keräysvaiheessa. Sähköpostiaineiston suurempaa määrää sekä luokitteluprosessissa käytettävien opetus-, kehitys- ja testiaineistojoukkojen sisältämien sähköpostien samankaltaisuutta suositellaan. Tutkielma voi toimia pohjana ja suunnannäyttäjänä suomenkielisten sähköpostien luokittelun jatkokehityksessä.