Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by master's degree program "Kielellisen diversiteetin ja digitaalisten ihmistieteiden maisteriohjelma"

Sort by: Order: Results:

  • Törö, Tuukka (2022)
    In recent years, advances in deep learning have made it possible to develop neural speech synthesizers that not only generate near natural speech but also enable us to control its acoustic features. This means it is possible to synthesize expressive speech with different speaking styles that fit a given context. One way to achieve this control is by adding a reference encoder on the synthesizer that works as a bottleneck modeling a prosody related latent space. The aim of this study was to analyze how the latent space of a reference encoder models diverse and realistic speaking styles, and what correlation there is between the phonetic features of encoded utterances and their latent space representations. Another aim was to analyze how the synthesizer output could be controlled in terms of speaking styles. The model used in the study was a Tacotron 2 speech synthesizer with a reference encoder that was trained with read speech uttered in various styles by one female speaker. The latent space was analyzed with principal component analysis on the reference encoder outputs for all of the utterances in order to extract salient features that differentiate the styles. Basing on the assumption that there are acoustic correlates to speaking styles, a possible connection between the principal components and measured acoustic features of the encoded utterances was investigated. For the synthesizer output, two evaluations were conducted: an objective evaluation assessing acoustic features and a subjective evaluation assessing appropriateness of synthesized speech in regard to the uttered sentence. The results showed that the reference encoder modeled stylistic differences well, but the styles were complex with major internal variation within the styles. The principal component analysis disentangled the acoustic features somewhat and a statistical analysis showed a correlation between the latent space and prosodic features. The objective evaluation suggested that the synthesizer did not produce all of the acoustic features of the styles, but the subjective evaluation showed that it did enough to affect judgments of appropriateness, i.e., speech synthesized in an informal style was deemed more appropriate than formal style for informal style sentences and vice versa.
  • Wikström, Alexandra (2022)
    Ihmiset muuttavat äänentuotantoaan kuuluvammaksi meluisassa ympäristössä refleksinomaisesti. Tätä ilmiötä kutsutaan Lombard-efektiksi. Efekti saa puhujan tuottamaan Lombard-puhetta, jota on tutkittu jo yli vuosisadan ajan eri näkökulmista. Lombard-puheen akustiikalle ominaista ovat korotettu äänenpainetaso, korotettu puheäänen perustaajuus, muutokset äänen osataajuuksissa sekä muissa äänen spektrin rakenteissa. Lisäksi Lombard-puheessa vokaalien pituuksilla on tapana kasvaa, ja äärimmäisissä meluolosuhteissa hyperartikulaatiota voi esiintyä. Puhetilanteeseen sisältyvä kommunikatiivinen aspekti on keskeistä ilmiön synnylle. Tämän tutkielman tavoitteena oli tutkia puheentuottoa keskustelutilanteessa, jossa samanaikaisesti toinen keskustelijoista on altistettuna melulle ja tuottaa täten Lombard-puhetta, ja toinen keskustelija kommunikoi hiljaisuudessa ilman taustamelun suoria vaikutuksia, ja selvittää, onko puheen akustiikassa tai ymmärrettävyydessä eroavaisuuksia tällaisessa epäsymmetrisessä tilanteessa verrattuna symmetriseen puhetilanteeseen, jossa molempien puhujien ääniympäristö on sama. Tutkimusta varten kaksi paria suomenkielisiä keskustelijoita (yhteensä neljä osallistujaa, kaikki naisia) ratkoivat pareittain sudokupohjaisia tehtäviä kolmessa eri taustamelutilanteessa: (1) hiljaisuudessa, (2) molempien ollessa taustamelussa (symmetrinen), ja (3) vain toisen keskustelijan ollessa taustamelussa (asymmetrinen). Taustamelu, jota soitettiin koehenkilöille 75 dB äänenpainetasolla, oli laadultaan cocktail-melua, joka sisältää niin kutsuttua puheensorinaa jossa useampi puhuja puhuu päällekkäin. Keskustelut äänitettiin ja niistä kerättiin yhteensä 453 maalitavua, joista kaikista analysoitiin keskimääräinen äänenpainetaso, ja 417 maalitavusta analysoitiin keskimääräinen perustaajuus. Äänenpainetason ja perustaajuuden arvot normalisoitiin ja arvoille suoritettiin keskiarvoja ja variansseja vertailevat tilastolliset testit. Odotetusti kaikki puhujat korottivat äänenpainetasoaan ja perustaajuuttaan siirryttäessä hiljaisesta keskustelutilanteesta symmetriseen taustamelutilanteeseen, jossa molemmat keskustelukumppanit tuottivat Lombard-puhetta. Henkilöt, jotka asymmetrisessä keskustelutilanteessa olivat itse hiljaisuudessa ja kommunikoivat keskustelukumppanille, joka oli melussa, korottivat sekä äänenpainetasoaan että perustaajuuttaan asymmetrisessä keskustelutilanteessa verrattuna hiljaiseen keskustelutilanteeseen. Lisäksi toinen näistä puhujista korotti sekä äänenpainetasoaan että perustaajuuttaan lähes oman Lombard-puheensa tasolle, jota mitattiin symmetrisessä tilanteessa. Puhujat, jotka olivat altistettuna melulle asymmetrisessä tilanteessa, käyttivät keskimäärin matalampaa äänenpainetasoa asymmetrisessä kuin symmetrisessä tilanteessa, vaikka tuottivatkin Lombard-puhetta molemmissa tilanteissa. Väärin kuultuja maalitavuja ei havaittu asymmetrisessä tilanteessa, vaan henkilöt, jotka olivat kyseisessä tilanteessa hiljaisuudessa, onnistuivat korottamaan ääntään tarvittavalle tasolle, jotta ratkaiseva tieto saatiin kommunikoitua melussa olevalle henkilölle. Tämä tutkimus osoitti, että kahden keskustelukumppanin ääniympäristöjen ollessa eriävät, kumpikaan keskustelijoista ei tuota täysin sentyyppistä puhetta, joka olisi sopivaa heidän senhetkiseen ääniympäristöönsä, vaan puheentuottoon vaikuttaa myös välillisesti keskustelukumppanin ääniympäristö. Lisäksi tutkimus osoitti, että siinä missä puhetilanteen kommunikatiivisuus voi lisätä Lombard-efektin vaikutuksia, se voi myös häivyttää niitä. Jatkotutkimuksissa tulisi kerätä enemmän dataa ja suorittaa datalle laajempaa analyysiä.
  • Vehomäki, Varpu (2022)
    Social media provides huge amounts of potential data for natural language processing but using this data may be challenging. Finnish social media text differs greatly from standard Finnish and models trained on standard data may not be able to adequately handle the differences. Text normalization is the process of processing non-standard language into its standardized form. It provides a way to both process non-standard data with standard natural language processing tools and to get more data for training new tools for different tasks. In this thesis I experiment with bidirectional recurrent neural network models and models based on the ByT5 foundation model, as well as the Murre normalizer to see if existing tools are suitable for normalizing Finnish social media text. I manually normalize a small set of data from the Ylilauta and Suomi24 corpora to use as a test set. For training the models I use the Samples of Spoken Finnish corpus and Wikipedia data with added synthetic noise. The results of this thesis show that there are no existing tools suitable for normalizing Finnish written on social media. There is a lack of suitable data for training models for this task. The ByT5-based models perform better than the BRNN models.
  • Raatikainen, Oona (2021)
    Tämä tutkielma tarkastelee aistiverbien koleksifikaatiotyyppejä Itämeren kielialueen kielissä, eli miten tämän kielialueen kielet erottelevat aistiverbien perusmerkityksiä leksikaalisesti, ja toisaalta mitä perusmerkityksiä kielet ilmaisevat samalla lekseemillä, eli koleksifikoivat. Tutkielma edustaa sekä leksikaalista typologiaa että areaalista kielitiedettä. Aikaisemmassa tutkimuksessa on havaittu areaalisia koleksifikaatiotyyppejä, niin aistiverbien kuin muidenkin semanttisten kenttien kohdalla. Itämeren kielialueen kielet ovat olleet kontaktissa tuhansia vuosia ja niistä löytyy monia areaalisia piirteitä, ulottuen fonologiasta leksikkoon. On myös esitetty, että alueen uralilaiset kielet ovat indoeurooppalaistuneet kontaktin myötä, ja toisaalta alueen indoeurooppalaisista kielistä on löydetty uralilaisia piirteitä. Tämän tutkielman tarkoituksena on tarkastella, onko Itämeren kielialueen kielissä havaittavissa jaettuja aistiverbien koleksifikaatiotyyppejä, ja onko koleksifikaatioissa havaittavissa ns. indoeurooppalaistumista tai uralilaistumista. Tutkielmassa verrataan Itämeren kielialueen kieliä sekä keskenään että verrattuna sukukieliin, joita puhutaan alueen ulkopuolella. Tutkielman aineisto kerättiin kyselylomakkeella, jossa äidinkielisiä puhujia pyydettiin kääntämään omalle äidinkielelleen englanninkielisiä lyhyitä lauseita, joissa esiintyi aistiverbejä. Lopullinen aineisto sisältää 199 vastausta 40 kielellä, joista kahdeksan on uralilaisia kieliä ja 32 Euroopassa puhuttavia indoeurooppalaisia kieliä. Itämeren kielialueen kielistä tutkimuksessa on edustettuna 14 kieltä, jotka kuuluvat viiteen eri kielihaaraan. Itämeren kielialueen ulkopuoliset kielet aineistossa muodostavat kontrolliryhmän, jota vasten kielikontaktien mahdollisia vaikutuksia voidaan verrata. Analyysissä jokaisesta kielestä tunnistettiin mahdolliset koleksifikaatiot, ja kieltenvälinen vertailu tapahtui sekä kielihaaran että -kunnan tasolla. Itämeren kielialueen kieliä verrattiin sekä suhteessa toisiinsa että suhteessa alueen ulkopuolella puhuttuihin sukukieliin. Tutkimuksesta selviää, että Itämeren kielialueen kielet eivät jaa yhtä yhteistä aistiverbien koleksifikaatiotyyppiä, vaan kielistä löytyy useita erilaisia tyyppejä. Tulokset osoittavat myös, että koleksifikaatiotyypit ovat hyvin samanlaisia samaan kielihaaraan kuuluvien lähisukukielten kesken. Osa Itämeren kielialueen kielistä kuitenkin poikkeaa huomattavasti lähisukukielistään, ja koleksifikaatiotyypeistä löytyy yhtäläisyyksiä myös kielisukulaisuusrajojen yli. Sama koleksifikaatiotyyppi löytyy mm. ruotsista, virosta ja meänkielestä, jotka samalla poikkeavat lähisukukielistään. Myöskin latvia ja liettua poikkeavat toisistaan, ja liettuan koleksifikaatiotyyppi muistuttaa slaavilaisista kielistä löytyvää mallia. Osa tuloksista näyttää heijastelevan kielikontaktien vaikutusta. Tutkimuksesta selviää myös, että osa koleksifikaatiotyypeistä on hyvin yleisiä kielikunnasta ja -haarasta riippumatta, joten kielikontakti ei välttämättä ole ainoa yhtäläisyyksiä ja eroavaisuuksia selittävä tekijä.
  • McGannon, Steven Nathan (2022)
    This thesis examines the notion of representational content in philosopher Frances Egan’s deflationary account of mental representation (DAMR) for cognitive neuroscience. In particular, this thesis explores to what extent DAMR’s pragmatic account of representational content answers to the content determinacy constraint. The content determinacy constraint is a constraint on an account of mental representation which holds that an account must provide the basis for attributing determinate content to the posited computational states. For example, the constraint requires that an account must specify the conditions under which a given representational content — such a fly — is attributed to a given representational vehicle — such as some particular structures in a frog’s brain. A variety of naturalistic “tracking theories” — broadly, theories which attempt to answer to such a constraint in terms of a privileged naturalistic relation holding between some object and the inner mental state in question — are often held to have thus far failed to satisfactorily meet this constraint. Egan’s deflationary account promises to address this constraint in a way which departs from naturalistic tracking theories (and from several other theories as well). It promises to do this by proffering a notion of representational content which says that such content is fundamentally pragmatic, and that this ultimately allows the account to avoid the problems typically associated with tracking theories. I will examine how DAMR purports to meet the content determinacy constraint via its pragmatic account of content. To this end, I will raise a content indeterminacy concern for one of the pragmatic functions of content DAMR maintains. I will examine several potential lines of response to this indeterminacy concern, some of which I will evaluate as more or less successful. The first chapter introduces the central research aims, methods, and an ethical research statement. The second chapter consists in the theoretical backdrop against which DAMR is situated, in particular, with regard to how the notions of “representation” and “computation” have been employed in cognitive science historically. The third chapter consists in a detailed explication of the components of DAMR, including a careful differentiation between its realist and computational elements and its pragmatic elements. This is followed by an explication of how DAMR purports to meet the content determinacy constraint. The fourth chapter consists in a theoretical concern which suggests some pragmatic elements of DAMR might be vulnerable to a content indeterminacy concern; and, a variety of potential responses to the indeterminacy concern raised. The fifth chapter consists in setting out the central conclusion of the thesis and suggesting four potential areas for future investigation. The central conclusion of this thesis is that DAMR faces a “limited” content indeterminacy concern for at least one of its pragmatic elements. However, I highlight that there are several ambiguities which require resolution prior to consideration if the concern raised extends to other elements of the account. I propose that the results of this thesis demonstrate the need for further clarification with regard to the way in which DAMR is committed to the content determinacy constraint. Ultimately, the concerns raised along with the ambiguities noted should serve to facilitate further philosophical evaluation of DAMR.
  • Kylliäinen, Ilmari (2022)
    Automatic question answering and question generation are two closely related natural language processing tasks. They both have been studied for decades, and both have a wide range of uses. While systems that can answer questions formed in natural language can help with all kinds of information needs, automatic question generation can be used, for example, to automatically create reading comprehension tasks and improve the interactivity of virtual assistants. These days, the best results in both question answering and question generation are obtained by utilizing pre-trained neural language models based on the transformer architecture. Such models are typically first pre-trained with raw language data and then fine-tuned for various tasks using task-specific annotated datasets. So far, no models that can answer or generate questions purely in Finnish have been reported. In order to create them using modern transformer-based methods, both a pre-trained language model and a sufficiently big dataset suitable for question answering or question generation fine-tuning are required. Although some suitable models that have been pre-trained with Finnish or multilingual data are already available, a big bottleneck is the lack of annotated data needed for fine-tuning the models. In this thesis, I create the first transformer-based neural network models for Finnish question answering and question generation. I present a method for creating a dataset for fine-tuning pre-trained models for the two tasks. The dataset creation is based on automatic translation of an existing dataset (SQuAD) and automatic normalization of the translated data. Using the created dataset, I fine-tune several pre-trained models to answer and generate questions in Finnish and evaluate their performance. I use monolingual BERT and GPT-2 models as well as a multilingual BERT model. The results show that the transformer architecture is well suited also for Finnish question answering and question generation. They also indicate that the synthetically generated dataset can be a useful fine-tuning resource for these tasks. The best results in both tasks are obtained by fine-tuned BERT models which have been pre-trained with only Finnish data. The fine-tuned multilingual BERT models come in close, whereas fine-tuned GPT-2 models are generally found to underperform. The data developed for this thesis will be released to the research community to support future research on question answering and generation, and the models will be released as benchmarks.
  • Raatikainen, Riikka (2022)
    Tutkielma käsittelee optimismivinouman esiintymistä tulevaisuusskenaarioissa, joiden aiheena on ilmastonmuutos. Siinä missä skenaariomenetelmän käyttö voi vähentää tiettyjen kognitiivisten vinoumien vaikutusta tulevaisuutta koskevissa arvioissa, toiset vinoumat voivat puolestaan haitata skenaarioiden laatimista ja arviointia. On arveltu, että useissa eri konteksteissa esiintyvä optimismivinouma näyttäytyisi myös skenaariomenetelmän yhteydessä. Tutkimus selvittää kokeellisesti, esiintyykö ilmastonmuutosaiheisten skenaarioiden arvioinneissa optimismivinoumaa, eli pitävätkö koehenkilöt positiivisia skenaarioita muita todennäköisempinä. Lisäksi tarkastellaan, onko skenaario-optimismi yhteydessä optimismivinoumaan toisessa kontekstissa mitattuna sekä muihin muuttujiin. Tutkimuskysymysten selvittämiseksi koostettiin kyselylomake, joka lähetettiin Helsingin yliopiston ainejärjestöjen sähköpostilistoille. Kyselyyn tuli 182 vastausta. Tutkittaville esitettiin neljä skenaariota, jotka vaihtelivat positiivisesta negatiiviseen, ja ne käsittelivät saimaannorpan selviytymistä ja kannan kokoa 50 vuoden päästä. Koehenkilöiden tuli asettaa skenaariot todennäköisyysjärjestykseen, jonka pohjalta kullekin vastaajalle laskettiin tietty optimistisuuden taso. Keskimäärin vastaajat olivat pessimistisiä arvioissaan, ja tämä optimistisuuslukema jäi alle neutraalina pidetyn arvon. Skenaarioarvioissa ei siis esiintynyt optimismivinoumaa. Optimismivinoumaa mitattiin myös laittamalla koehenkilöt arvioimaan eri elämäntapahtumien todennäköisyyksiä omalla kohdallaan verrattuna muihin. Näissä kysymyksissä optimismivinoumaa esiintyi, sillä vastaajat arvelivat keskimäärin kokevansa positiivisia tapahtumia muita todennäköisemmin ja negatiivisia muita epätodennäköisemmin. Elämäntapahtumaoptimismin määrä myös korreloi positiivisesti skenaario-optimismin kanssa. Lomakkeella selvitettiin myös muiden muuttujien yhteyttä skenaarioarviointien mahdolliseen optimismivinoumaan. Yleisen optimismin tasoa selvitettiin valmiilla kyselyllä, mutta tämä ei korreloinut skenaario-optimismin kanssa. Ilmastonmuutosasenne puolestaan korreloi negatiivisesti skenaario-optimismin kanssa, eli ilmastonmuutokseen vakavasti suhtautuvat arvioivat skenaarioita pessimistisemmin. Vastaajien ikä, sukupuoli tai saimaannorppatiedon määrä ei vaikuttanut skenaarioarviointeihin. Optimismivinouman puute skenaarioarvioissa oli yllättävä tulos, jonka tarkkaa syytä ei voida sanoa täsmällisesti. Tämä voi johtua joko skenaariomenetelmän kognitiivisia vinoumia vähentävästä vaikutuksesta tai skenaarioiden aiheena olleen ilmastonmuutoksen herättämistä negatiivisista mielikuvista. Olisikin tarvetta tutkia aihetta lisää edustavammalla otoksella sekä tutkimusasetelmalla, joka erottelisi skenaariomenetelmän ja ilmastonmuutosaiheen vaikutukset toisistaan. Skenaarioiden käytön kannalta optimismivinouman puute voidaan kuitenkin nähdä hyvänä asiana.
  • Koivusalo, Liisa (2022)
    Speaking fluently is an important goal for second language (L2) learners. In L2 research, fluency is often studied by measuring temporal features in speech. These features include speed (rate of speech), breakdown (use of silent and filled pauses), and repair (self-corrections and repetitions) phenomena. Fluent speakers generally have a higher rate of speech and fewer hesitations and interruptions than beginner language learners. In this thesis, phonetic fluency of high school students’ L2 Finnish speech is studied in relation to human ratings of fluency and overall proficiency. The topic is essential for the development of automated assessment of L2 speech, as phonetic fluency measures can be used for predicting a speaker’s fluency and proficiency level automatically. Although the effect of different fluency measures on perceived fluency level has been widely studied during the last decades, research on phonetic fluency in Finnish as L2 is still limited. Phonetic fluency in high school students’ speech in L2 Finnish has not been studied before. The speech samples and ratings used in this thesis are a part of a larger dataset collected in the DigiTala research project. The analyzed data contained spontaneous speech samples in L2 Finnish from 53 high school students of different language backgrounds. All samples were assessed by expert raters for fluency and overall proficiency. The speech samples were annotated by marking intervals containing silent pauses, filled pauses, corrections and repetitions, and individual words. Several phonetic fluency measures were calculated for each sample from the durations of the annotated intervals. The contribution of phonetic fluency measures to human ratings of fluency and proficiency was studied using simple and multiple linear regression models. Speech rate was found to be the strongest predictor for both fluency and proficiency ratings in simple linear regression. Articulation rate, portion of long silent pauses, mean duration of long silent pauses, mean duration of breaks between utterances, and rate of short silent pauses per minute were also statistically significant predictors of both fluency and proficiency ratings. Multiple linear regression models improved the simple models for both fluency and proficiency: for fluency, a model with a combination of articulation rate and the portion of long silent pauses performed the best, and for proficiency, a model with a combination of speech rate and mean duration of short silent pauses. Perceived fluency level is often affected by a combination of different phonetic fluency measures, and it seems that human raters ground their assessments on this combination, although some phonetic fluency measures might be more important on their own than others. The findings of this thesis expand previous knowledge on phonetic fluency in L2 Finnish and can benefit both language learners and teachers, as well as developers of automatic assessment of L2 speech.
  • Keturi, Joonas (2022)
    The subject of the thesis is the comparison of lexical semantics and phonetics. The thesis investigates with computational methods if there is significantly more phonetic variance in words that belong to the same semantic domains than with phonetically similar words from other semantic domains. In other words, phonetically very similar words and especially phonological minimal pairs would be in separate semantic domains. The method clusters word embedding vectors and distinctive phonological feature vectors from multiple languages, and the phonetic and semantic standard deviations are calculated for each cluster, and the mean standard deviations of cluster sets are compared. In addition to semantic and phonetic clusters, two test clusters are constructed which have the same number and the same size of clusters as the semantic clusters. The first test clusters use the words from phonetic clusters in order and the second test clusters are randomly permuted. These different cluster sets are compared by their mean standard deviations and cluster set similarity index. The results imply that words on the same semantic domains contain rarely phonetically very similar words, and those words are usually in separate semantic domains.
  • Knapen, Martijn Gerardus Theodorus Maria (2021)
    Research on the interaction of the Amuric languages (referred to as “Nivkh” or “Ghilyak” when regarded as a single language) with the Tungusic languages was initiated by Grube (1892). His focus on loanwords has been the object of study until the present day. Recently, Janhunen (2010: 292, 296; 2016: 23) has suggested that contact between the two families already started between their ultimate ancestors: Pre-Proto-Amuric and Proto-Tungusic. This thesis investigates whether some of the lexical parallels proposed by earlier research belong to this period. As the thesis is written from the perspective of language contact, the parallels are regarded as the result of borrowing instead of inheritance. The distinction between these two modes of transmission formed the theoretical basis for the methodology that was employed. To prove ancient contact, it had to be shown that the Amuric and Tungusic languages inherited their shared lexemes from their respective ancestors and that these ancestors may have borrowed from each other. As the methodology relied on the literature on Amuric and Tungusic historical phonology, an overview of this topic is also included. First, fifty parallels were drawn from those listed in previous research. These could be reconstructed to Proto-Amuric and Proto-Tungusic using the Comparative Method and thus could have been inherited from them or an earlier ancestor in the case of Proto-Amuric. Additionally, they exhibited phonological similarities that could reasonably be expected from borrowing between Pre-Proto-Amuric and Proto-Tungusic. Afterwards, a direction of borrowing had to be established, the principal evidence of borrowing. For that purpose, nine criteria were developed. These criteria considered morphology, diachronic and synchronic phonology, extent of attestation, semantics and extra-linguistic factors. Finally, the data was separated into older and younger strata, since in the selection phase only the Proto-Amuric stage was considered, while the target was Pre-Proto-Amuric. These layers were classified on the basis of phonological developments. For most of the fifty parallels the direction of borrowing could be determined. In this stage of analysis, fifteen of them were ultimately dismissed as recent or doubtful. The remaining thirty-five were examined for properties that could have resulted from the sound changes that followed Pre-Proto-Amuric that were proposed in earlier research. Ultimately, it could only be proven that the absence of vowels in non-initial syllables was a property characteristic of ancient lexemes in the Amuric lineage. Consequently, although a substantially old stratum of Amuric-Tungusic parallels was found, further research is needed to show that any of them date to Pre-Proto-Amuric and Proto-Tungusic times.