Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by study line "Translation Technology"

Sort by: Order: Results:

  • Mäkinen, Maria (2019)
    The topic of this thesis is domain adaptation of an NMT system by retraining it with translation memories. The translation memory used in the experiments is the EMEA corpus that consists of medical texts – mostly package leaflets. The NMT system used in the experiments is OpenNMT because it is completely free and easy to use. The goal of this thesis is to find out how an NMT system can be adapted to a special domain, and if the translation quality improves after domain adaptation. The original plan was to continue training the pretrained model of OpenNMT with EMEA data, but this is not possible. Therefore, it is necessary to train a new baseline model with the same data as the pretrained model was trained with. After this two domain adaptation methods are tested: continuation training with EMEA data and continuation training with unknown terms. In the manual evaluation, it turned out that domain adaptation with unknown terms worsens the translation quality drastically because all sentences are translated as single words. This method is only suitable for translating wordlists because it improved the translation of unknown terms. Domain adaptation with EMEA data, for the other hand, improves the translation quality significantly. The EMEA-retrained system translates long sentences and medical terms much better than the pretrained and the baseline models. Long and complicated terms are still difficult to translate but the EMEA-retrained model makes fewer errors than the other models. The evaluation metrics used for automatic evaluation are BLEU and LeBLEU. BLEU is stricter than LeBLEU. The results are similar as in the manual evaluation: The EMEA-retrained model translates medical texts much better than the other models, and the translation quality of the UNK-retrained model is the worst of all. It can be presumed that an NMT system needs contextual information so that it learns to translate terms and long sentences without transforming the text into a wordlist without sentences. In addition, it seems that long terms are translated in smaller pieces so that the NMT system possibly translates some pieces wrong, which results in that the whole term is wrong.
  • Suuronen, Timo (2022)
    Tämän tutkielman tavoitteena oli laatia kognitiivisesti saavutettava selkokielinen sanasto eli selkosanasto ja määritellä ne selkosanaston piirteet ja laatimiskäytänteet, joiden avulla selkosanastoista saadaan kognitiivisesti mahdollisimman saavutettava. Toisena tavoitteena oli verrata selkosanastoja ja niiden laadintaprosessia terminologisiin sanastoihin ja määritellä, miten terminologisen sanastotyön ohjeita tulee soveltaa selkosanastotyössä. Tutkielmassa määriteltiin selkosanaston kognitiivisen saavutettavuuden koostuvan hyväksyttävyydestä, luettavuudesta ja ymmärrettävyydestä. Kun kohderyhmätestaukseen osallistuvat informantit hyväksyvät selkosanastossa olevat luettavuuteen ja ymmärrettävyyteen liitetyt piirteet, toteutuu sen kognitiivinen saavutettavuus. Tutkielman selkosanasto on laadittu yhteistyössä Selkeästi meille -hankkeen kanssa, jonka parissa toimivat kehitysvammaiset ihmiset saivat valita selkosanastoon tulleet sanat ja testata selkosanaston ensimmäisen version. Tutkielman keskiössä on selkosanaston kohderyhmä ja heidän mielipiteensä selkosanastosta, joten kutsunkin tutkielmassani esiteltävää sanastotyötä kohderyhmätietoiseksi selkosanastotyöksi. Tutkimusmenetelmäni oli sanastotyömenetelmän soveltaminen ja muokkaaminen selkosanastotyöhön soveltuvaksi kohderyhmätestaukseen osallistuvien informanttien antaman palautteen avulla. Selkosanaston sananselitysten kielellisiä ja visuaalisia piirteitä varten hain tietoa ja hyviä käytänteitä aiemmin laadituista selkokielisistä sanastoista. Tutkielmassa käytettiin apuna myös terminologisia koettimia, joiden avulla etsin niitä kielellisiä ilmauksia, joilla selkokielisissä materiaaleissa on selitetty termejä auki. Kohderyhmätestauksessa selkosanaston luettavuuteen ja ymmärrettävyyteen liittyvät ominaisuudet hyväksyttiin, jolloin selkosanaston kognitiivisen saavutettavuuden voidaan sanoa toteutuvan. Tärkeimpiä luettavuuteen vaikuttavia tekijöitä olivat värikuvat valkoista taustaa vasten sekä termiä ja sen määritelmää merkitsemässä olleet kysymysmerkki ja huutomerkki. Ymmärrettävyyteen vaikuttavista tekijöistä yksi tärkeimmistä oli kohderyhmätietoisen selkosanastotyön sananselitysstrategia, jossa sananselitys alkaa selitettävällä sanalla ja joka jatkuu verbillä olla tai tarkoittaa ja selitettävän sanan yläkäsitteellä, jos sellainen löytyy. Terminologisesta sanastotyöstä säilytettäviä asioita ovat esimerkiksi yläkäsitteen avulla selittäminen, termin esittäminen sanatietueessa perusmuodossaan sekä esimerkkien käyttö. Suurimpiin muutoksiin kuuluvat muun muassa sananselitysten aloittaminen isolla alkukirjaimella, niiden lopettaminen pisteeseen ja niiden aloittaminen selitettävällä sanalla. Käsitteen nimitystä ja määritelmää kutsutaan terminologisesta sanastotyöstä poiketen sanaksi ja sanan selitykseksi. Terminologisen sanastotyön ja selkosanastotyön työvaiheet ovat pitkälti samanlaiset, mutta selkosanastotyöhön lisänä ovat tulleet selkosanaston tason eli sen kognitiivisen saavutettavuuden määrittely ja kahden kohderyhmätestauksen toteutus.
  • Salminen, Saara (2020)
    Tekstiili- ja muotiala elää monen muun alan tavoin murrosvaiheessa. Suomessa kehitetään entistä ympäristöystävällisempiä ja teknisempiä tekstiilimateriaaleja, joiden saaminen kansainvälisille markkinoille on monelle yritykselle elintärkeää. Kansainvälistyminen tarkoittaa kuitenkin aina sitä, että tuotetietoa tarvitaan suomen lisäksi myös muilla kielillä. Kuluttaja haluaa lukea tuotetiedot omalla äidinkielellään, jotta hän ymmärtää tuotteen ominaisuudet ja pystyy vertailemaan tuotteita keskenään. Tuotekuvausten ja verkkosivujen kääntäminen useille kielille aiheuttaa verkkokauppiaille usein päänvaivaa, sillä monikieliselle tiedonhallinnalle ei välttämättä ole valmista prosessia. Monikielisen tiedonhallinnan prosessit vaihtelevat yrityksittäin, ja tuotetietojen kääntäminen on usein kallis ja monivaiheinen projekti, jonka lopputuloksena syntyvien käännösten laatu riippuu monesta tekijästä. Tämän tutkielman tavoitteena on tutkia tekstiilialan tuotekuvauksia ja niiden sopivuutta neuroverkkokonekääntämiseen, sillä neuroverkkokonekääntämisestä voisi olla tulevaisuudessa hyötyä myös suomalaisten yritysten käännösprosesseissa. Tutkielmassa esikoulutettu geneerinen neuroverkkokonekäännin Marian uudelleenkoulutettiin, jotta saataisiin selville, parantaako uudelleenkoulutus konekäännösten laatua. Aineistona käytettiin pientä rinnakkaiskorpusta, joka koostuu tunnettujen ulkoiluvaateyritysten tuotekuvausteksteistä ja joka on koottu tätä tutkielmaa varten yritysten verkkosivuilta. Tutkielman teoriaosuudessa esitellään tuotekuvauksia, niiden rakennetta sekä kielellisiä piirteitä ja tarkastellaan erilaisia tuotekuvauksia koskevia rajoituksia. Tuotekuvauksia tarkastellaan tutkielmassa erikoiskielenä ja vielä rajoitetummin minilektinä, jotta tarkastelu kattaisi useamman näkökulman. Lisäksi teoriaosuudessa esitellään neuroverkkokonekääntämistä ja sen tärkeimpiä teknologioita. Tutkielman tuloksena voidaan todeta, että esikoulutetun geneerisen neuroverkkokääntimen voi adaptoida erikoisalalle myös hyvin pienellä määrällä koulutusmateriaalia niin, että BLEU-pisteet nousevat jo heti ensimmäisen koulutusajon jälkeen. Suurin parannus tapahtui erikoisalan termeissä, jotka neuroverkkokonekäännin oppi tehokkaasti pienestä koulutusaineistosta huolimatta. Koulutusaineisto aiheutti kuitenkin myös ongelmia: tuotekuvausten hyvin rajoittunut kieli ja lyhyet virkkeet heikensivät konekääntimen laatua ja aiheuttivat käännössegmenttien lyhentymistä ja poistoja. Ongelmaa ei saatu kokonaan korjattua, mutta laatua pystyttiin parantamaan toistamalla uudelleenkoulutus niin, että esikoulutusmateriaalissakin mukana olleita segmenttejä lisättiin uudelleenkoulutusaineistoon. Tuotekuvaukset ja niiden neuroverkkokonekääntäminen tarjoavat runsaasti jatkotutkimusmahdollisuuksia, ja erikoisalakoulutetulle neuroverkkokonekääntimelle on varmasti kysyntää alati kasvavilla markkinoilla, kun käännöksiä toivotaan aikaisempaa nopeammilla aikatauluilla ja yhä edullisimmin kustannuksin.