Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Subject "merkkikoodaukset"

Sort by: Order: Results:

  • Tupakka, Juho (2009)
    Tutkielma käsittelee kiinan kielen automaattista käsittelyä ja kieliteknologiaa. Kieliteknologian osa-alueista keskitytään kiinan kielelle tyypilliseen sanarajatunnistus- eli segmentointiongelmaan, joka kumpuaa kiinan kielen kirjoitusjärjestelmän erityispiirteistä. Tutkielma on aihepiiriä esittelevä pilottitutkimus, jonka tarkoitettu lukijaryhmä on kiinan kieliteknologisesta tutkimuksesta kiinnostuneet opiskelijat ja tutkijat. Lähdemateriaali koostuu englannin- ja kiinankielisestä kirjallisuudesta, lähinnä konferenssiartikkeleista. Tutkielma esittelee kiinan kirjoitusjärjestelmää automaattisen käsittelyn näkökulmasta, käsittelee perinteisten ja yksinkertaistettujen merkkien eroja, merkkikoodauksia sekä erilaisia lähestymistapoja käyttäviä syöttöjärjestelmiä. Kirjoitusjärjestelmän esittely tarjoaa esitietoja kielen rakenteen ymmärtämiseksi sekä rakentaa pohjaa sanarajatunnistusta käsitteleviä osuuksia varten. Sanarajatunnistus- eli segmentointiongelma johtuu kiinan kirjoitusjärjestelmästä, jossa sanojen välejä ei merkitä välilyönneillä. Kielen kieliteknologista käsittelyä varten sanojen rajat tulee kuitenkin selvittää. Sanarajatunnistusjärjestelmät ovat tietokoneohjelmia, jotka etsivät ja merkitsevät nämä rajat automaattisesti. Tehtävä ei kuitenkaan ole yksinkertainen kielen monitulkintaisuuksien ja ns. tuntemattomien sanojen vuoksi. Joissain tilanteissa ei ole olemassa yksiselitteisen oikeaa segmentointia. Tutkielmassa esitellään kaksi segmentointijärjestelmää, keskittyen erityisesti niiden toiminnan kuvaukseen lukijalle ymmärrettävässä muodossa. Tärkeää on menetelmien ymmärtäminen, ei tekniset yksityiskohdat. Lopuksi paneudutaan segmentointijärjestelmien evaluaation ongelmiin. Sanarajatunnistusta suorittavien ohjelmien vertailu on usein hankalaa, koska monissa tapauksissa järjestelmät eivät tuota yhteismitallisia tuloksia. Tutkielmassa esitellään yritys saada aikaan yhteismitallisia evaluaatiomenetelmiä segmentointiohjelmien Chinese Word Segmentation Bakeoff -kilpailujen muodossa. Tutkielmassa todetaan sanarajatunnistusongelman olevan tärkeä tutkimuskohde. Ratkaisemattomia ongelmia on kuitenkin edelleen, tärkeimpänä evaluaatio.