Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Author "Jauhiainen, Tommi"

Sort by: Order: Results:

  • Jauhiainen, Tommi (2010)
    Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkokäsittelyssä osataan toimia käyttäen oikeita menetelmiä. Tekstin kielen automaattinen tunnistaminen on internetissä olevan tekstimäärän ja kielivalikoiman kasvaessa tullut tärkeäksi näiden dokumenttien automaattisen käsittelyn esivaiheeksi. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai hyvin läheisiä menetelmiä voidaan käyttää myös tekstin lajitteluun esimerkiksi aihealueiden suhteen. Tässä tutkielmassa esitellään tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sekä sen suorituskyvyn evaluointia. Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelmään, sekä esitellään myös eräiden toteutettujen kielentunnistinten rakennetta niistä kirjoitettujen artikkelien perusteella. Tämän jälkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteensä 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekin kielelle. Kielimallit ovat kielten sanojen n-grammien (yhdestä kuuteen) listoja sekä listoja kielten koko-naisista sananmuodoista. Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmiä yhdistelemällä rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin keskenään laajojen testitunnistusten avulla. Testien suorittamista varten muodostettiin Europarl-korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. Näiden testien tulosten perusteella päädyttiin kielentunnistimeen, joka käyttää hyväkseen kaikkia kielimalleja sekä kahta eri menetelmää. Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin vielä joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitellään mahdollisuuksia tunnistimen jatkokehittämiseen.