Browsing by study line "Translation Technology"
Now showing items 1-5 of 5
-
(2019)The topic of this thesis is domain adaptation of an NMT system by retraining it with translation memories. The translation memory used in the experiments is the EMEA corpus that consists of medical texts – mostly package leaflets. The NMT system used in the experiments is OpenNMT because it is completely free and easy to use. The goal of this thesis is to find out how an NMT system can be adapted to a special domain, and if the translation quality improves after domain adaptation. The original plan was to continue training the pretrained model of OpenNMT with EMEA data, but this is not possible. Therefore, it is necessary to train a new baseline model with the same data as the pretrained model was trained with. After this two domain adaptation methods are tested: continuation training with EMEA data and continuation training with unknown terms. In the manual evaluation, it turned out that domain adaptation with unknown terms worsens the translation quality drastically because all sentences are translated as single words. This method is only suitable for translating wordlists because it improved the translation of unknown terms. Domain adaptation with EMEA data, for the other hand, improves the translation quality significantly. The EMEA-retrained system translates long sentences and medical terms much better than the pretrained and the baseline models. Long and complicated terms are still difficult to translate but the EMEA-retrained model makes fewer errors than the other models. The evaluation metrics used for automatic evaluation are BLEU and LeBLEU. BLEU is stricter than LeBLEU. The results are similar as in the manual evaluation: The EMEA-retrained model translates medical texts much better than the other models, and the translation quality of the UNK-retrained model is the worst of all. It can be presumed that an NMT system needs contextual information so that it learns to translate terms and long sentences without transforming the text into a wordlist without sentences. In addition, it seems that long terms are translated in smaller pieces so that the NMT system possibly translates some pieces wrong, which results in that the whole term is wrong.
-
(2023)In this study, I use the elements of two machine translation quality evaluation approaches: test suites and error analysis. I conduct a surname-focused error analysis of machine-translated news text segments. Surname rendering is not a widely studied topic in machine translation studies but deserves attention. Machine translation of infrequent words, such as surnames, has a higher chance of resulting in translation errors. Furthermore, morphologically rich languages, like Finnish, have a higher chance for inaccurate translation due to the way they form words. This makes surnames in Finnish texts an interesting subject of study. The nature of my study is descriptive, and the goal is to gain a better understanding of surname rendering challenges in Finnish-to-English machine translation. My dataset is based on a news texts corpus that consists of news items in Finnish, sent to other media channels by the Finnish News Agency (Suomen Tietotoimisto) between 2019 and 2021. I compiled a dataset of 4,000 surname-containing segments and translated them from Finnish to English using two free web-based neural machine translation engines, DeepL and Google Translate. Afterwards, I identified the errors and categorised them. I analysed the surname rendition errors from different perspectives. Most of the surnames in news segments were rendered correctly, however, error analysis still offers interesting insights. Most of the errors came from only two error categories, both of which are characterised by incorrect lemmatisation of the surname. Although surnames in nominative made up more than a half of all the surnames in the dataset, most were rendered correctly. The highest number of errors came from the second biggest grammatical case group, genitive. None of the surnames in the sentence-initial position were translated as common nouns, even though quite a few of them were based on root words. Both translation engines had a similar number of incorrect surname renditions, with a total number of 191 for DeepL and 186 for Google Translate. Additionally, they displayed similar patterns of error distribution when comparing different grammatical case groups, and surname origin. However, there were some differences as well. Google Translate showed more case ending errors in its output compared to DeepL. On the other hand, DeepL had more than double the number of errors in the nonsensical output category compared to Google Translate. The overrepresentation of the Finnish surnames in the error list, as well as the two biggest error categories that are closely linked to Finnish morphology, demonstrate that Finnish surnames are, indeed, problematic when it comes to surname rendition.
-
(2024)Maisterintutkielmassa käsitellään urheilusääntöjen kääntämistä konekääntimen ja generatiivisen tekoälyn avulla. Kyseessä on tapaustutkimus, jossa tutkitaan yhden urheilulajin, ultimaten sääntöjen kääntämistä. Tutkimuksessa pyritään selvittämään, kuinka hyvään käännökseen konekäännin ja generatiivinen tekoäly pystyvät tässä tekstilajissa, vaativatko niiden raakakäännökset paljon jälkieditointia, ja mitkä ovat generatiivisen tekoälyn ja konekääntimen keskeisimmät, laatuun vaikuttavat erot. Tutkimuksen aineisto koostuu näiden käännösten laadunarvioinneista, eli kymmenen vastaajan jälkieditoimista käännöksistä. Vastaajia tähän tutkimukseen on kerätty sosiaalisen median kanavien kautta lajin harrastajista ja kielen ja kääntämisen opiskelijoista. Aineistoa analysoidaan virheanalyysimenetelmän avulla ja tutkimuskysymyksiin vastataan tämän virheanalyysin pohjalta. Virheanalyysin ja kielenulkoisten tekijöiden perusteella voidaan todeta, että tämän tutkimuksen tekstilajin kääntämisessä generatiivinen tekoäly onnistuu paremmin kuin konekäännin, vaikka molemmat raakakäännökset ovat toistaiseksi vielä kaukana luettavasta ja konkreettisesti hyödynnettävästä sääntöversiosta ja vaativat paljon jälkieditointia. Näiden kahden merkittävimpiä eroja, jotka eivät vaikuta käännösten laatuun, ovat generatiivisen tekoälyn käytettävyys ja saavutettavuus. Tässä tutkimuksessa hyödynnettävä ChatGPT3.5 on täysin ilmainen kaikille käyttäjille ja on siksi saavutettavampi pienille lajiorganisaatioille, kuin lisenssin ja maksumuurin takana oleva Phrasen konekäännin. Generatiivinen tekoäly on myös käytettävämpi, sillä se pystyy yhdellä promptilla hyödyntämään sille syötettyä termistöä käännöksessä, ilman jälkieditointia. Generatiivisen tekoälyn treenidata on paljon laajempi kuin yksittäisen konekääntimen ja tekoälyä kehitetään jatkuvasti, joten sujuvia käännöksiä urheilusäännöille voidaan odottaa tulevaisuudessa.
-
(2022)Tämän tutkielman tavoitteena oli laatia kognitiivisesti saavutettava selkokielinen sanasto eli selkosanasto ja määritellä ne selkosanaston piirteet ja laatimiskäytänteet, joiden avulla selkosanastoista saadaan kognitiivisesti mahdollisimman saavutettava. Toisena tavoitteena oli verrata selkosanastoja ja niiden laadintaprosessia terminologisiin sanastoihin ja määritellä, miten terminologisen sanastotyön ohjeita tulee soveltaa selkosanastotyössä. Tutkielmassa määriteltiin selkosanaston kognitiivisen saavutettavuuden koostuvan hyväksyttävyydestä, luettavuudesta ja ymmärrettävyydestä. Kun kohderyhmätestaukseen osallistuvat informantit hyväksyvät selkosanastossa olevat luettavuuteen ja ymmärrettävyyteen liitetyt piirteet, toteutuu sen kognitiivinen saavutettavuus. Tutkielman selkosanasto on laadittu yhteistyössä Selkeästi meille -hankkeen kanssa, jonka parissa toimivat kehitysvammaiset ihmiset saivat valita selkosanastoon tulleet sanat ja testata selkosanaston ensimmäisen version. Tutkielman keskiössä on selkosanaston kohderyhmä ja heidän mielipiteensä selkosanastosta, joten kutsunkin tutkielmassani esiteltävää sanastotyötä kohderyhmätietoiseksi selkosanastotyöksi. Tutkimusmenetelmäni oli sanastotyömenetelmän soveltaminen ja muokkaaminen selkosanastotyöhön soveltuvaksi kohderyhmätestaukseen osallistuvien informanttien antaman palautteen avulla. Selkosanaston sananselitysten kielellisiä ja visuaalisia piirteitä varten hain tietoa ja hyviä käytänteitä aiemmin laadituista selkokielisistä sanastoista. Tutkielmassa käytettiin apuna myös terminologisia koettimia, joiden avulla etsin niitä kielellisiä ilmauksia, joilla selkokielisissä materiaaleissa on selitetty termejä auki. Kohderyhmätestauksessa selkosanaston luettavuuteen ja ymmärrettävyyteen liittyvät ominaisuudet hyväksyttiin, jolloin selkosanaston kognitiivisen saavutettavuuden voidaan sanoa toteutuvan. Tärkeimpiä luettavuuteen vaikuttavia tekijöitä olivat värikuvat valkoista taustaa vasten sekä termiä ja sen määritelmää merkitsemässä olleet kysymysmerkki ja huutomerkki. Ymmärrettävyyteen vaikuttavista tekijöistä yksi tärkeimmistä oli kohderyhmätietoisen selkosanastotyön sananselitysstrategia, jossa sananselitys alkaa selitettävällä sanalla ja joka jatkuu verbillä olla tai tarkoittaa ja selitettävän sanan yläkäsitteellä, jos sellainen löytyy. Terminologisesta sanastotyöstä säilytettäviä asioita ovat esimerkiksi yläkäsitteen avulla selittäminen, termin esittäminen sanatietueessa perusmuodossaan sekä esimerkkien käyttö. Suurimpiin muutoksiin kuuluvat muun muassa sananselitysten aloittaminen isolla alkukirjaimella, niiden lopettaminen pisteeseen ja niiden aloittaminen selitettävällä sanalla. Käsitteen nimitystä ja määritelmää kutsutaan terminologisesta sanastotyöstä poiketen sanaksi ja sanan selitykseksi. Terminologisen sanastotyön ja selkosanastotyön työvaiheet ovat pitkälti samanlaiset, mutta selkosanastotyöhön lisänä ovat tulleet selkosanaston tason eli sen kognitiivisen saavutettavuuden määrittely ja kahden kohderyhmätestauksen toteutus.
-
(2020)Tekstiili- ja muotiala elää monen muun alan tavoin murrosvaiheessa. Suomessa kehitetään entistä ympäristöystävällisempiä ja teknisempiä tekstiilimateriaaleja, joiden saaminen kansainvälisille markkinoille on monelle yritykselle elintärkeää. Kansainvälistyminen tarkoittaa kuitenkin aina sitä, että tuotetietoa tarvitaan suomen lisäksi myös muilla kielillä. Kuluttaja haluaa lukea tuotetiedot omalla äidinkielellään, jotta hän ymmärtää tuotteen ominaisuudet ja pystyy vertailemaan tuotteita keskenään. Tuotekuvausten ja verkkosivujen kääntäminen useille kielille aiheuttaa verkkokauppiaille usein päänvaivaa, sillä monikieliselle tiedonhallinnalle ei välttämättä ole valmista prosessia. Monikielisen tiedonhallinnan prosessit vaihtelevat yrityksittäin, ja tuotetietojen kääntäminen on usein kallis ja monivaiheinen projekti, jonka lopputuloksena syntyvien käännösten laatu riippuu monesta tekijästä. Tämän tutkielman tavoitteena on tutkia tekstiilialan tuotekuvauksia ja niiden sopivuutta neuroverkkokonekääntämiseen, sillä neuroverkkokonekääntämisestä voisi olla tulevaisuudessa hyötyä myös suomalaisten yritysten käännösprosesseissa. Tutkielmassa esikoulutettu geneerinen neuroverkkokonekäännin Marian uudelleenkoulutettiin, jotta saataisiin selville, parantaako uudelleenkoulutus konekäännösten laatua. Aineistona käytettiin pientä rinnakkaiskorpusta, joka koostuu tunnettujen ulkoiluvaateyritysten tuotekuvausteksteistä ja joka on koottu tätä tutkielmaa varten yritysten verkkosivuilta. Tutkielman teoriaosuudessa esitellään tuotekuvauksia, niiden rakennetta sekä kielellisiä piirteitä ja tarkastellaan erilaisia tuotekuvauksia koskevia rajoituksia. Tuotekuvauksia tarkastellaan tutkielmassa erikoiskielenä ja vielä rajoitetummin minilektinä, jotta tarkastelu kattaisi useamman näkökulman. Lisäksi teoriaosuudessa esitellään neuroverkkokonekääntämistä ja sen tärkeimpiä teknologioita. Tutkielman tuloksena voidaan todeta, että esikoulutetun geneerisen neuroverkkokääntimen voi adaptoida erikoisalalle myös hyvin pienellä määrällä koulutusmateriaalia niin, että BLEU-pisteet nousevat jo heti ensimmäisen koulutusajon jälkeen. Suurin parannus tapahtui erikoisalan termeissä, jotka neuroverkkokonekäännin oppi tehokkaasti pienestä koulutusaineistosta huolimatta. Koulutusaineisto aiheutti kuitenkin myös ongelmia: tuotekuvausten hyvin rajoittunut kieli ja lyhyet virkkeet heikensivät konekääntimen laatua ja aiheuttivat käännössegmenttien lyhentymistä ja poistoja. Ongelmaa ei saatu kokonaan korjattua, mutta laatua pystyttiin parantamaan toistamalla uudelleenkoulutus niin, että esikoulutusmateriaalissakin mukana olleita segmenttejä lisättiin uudelleenkoulutusaineistoon. Tuotekuvaukset ja niiden neuroverkkokonekääntäminen tarjoavat runsaasti jatkotutkimusmahdollisuuksia, ja erikoisalakoulutetulle neuroverkkokonekääntimelle on varmasti kysyntää alati kasvavilla markkinoilla, kun käännöksiä toivotaan aikaisempaa nopeammilla aikatauluilla ja yhä edullisimmin kustannuksin.
Now showing items 1-5 of 5