Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by department "Yleisen kielitieteen laitos"

Sort by: Order: Results:

  • Luojola, Teemu (2006)
    Tutkielmassa tarkastelen sitä, miten monimerkityksinen kielellinen ilmaus voidaan ymmärtää, eli miten vastaanottaja tavoittaa kielellisen viestin merkityksen. Tutkielmassa keskeisessä asemassa on kielellisen merkin tulkinnan riippuvuus siitä kontekstista, jossa merkki esiintyy, ja polysemian käsittäminen kielellisen merkin abstrahoinniksi irti konteksteista. Tarkastelen myös sitä, kuinka paljon kontekstia kielellisen merkin tulkintaan tarvitaan. Esittelen prototyyppien ympärille rakentuvia sumearajaisia kategorioita ennen kaikkea Eleanor Roschin tutkimusten kautta. Tältä pohjalta tarkastelen käsitystä, jonka mukaan ihminen kielellistä ilmausta muodostaessaan valitsee hallitsemiensa kielellisten merkkien joukosta ne, jotka parhaiten täyttävät tarkoituksensa kokonaisilmauksessa eli toimivat tietyssä kokonaisprosessin osafunktiossa. Tutkielmassa tarkastellaan tähän liittyen emergenssiä, yleistä tieteenfilosofista käsitettä, jolla viitataan tavallisesti sellaisten ilmiöiden syntyyn, jotka ovat laadullisesti uudenlaisia ja joita ei voi ennustaa alkuehtojen pohjalta. Tutkimusongelmaa lähestyn käyttämällä esimerkkinä suomen adessiivia. Adessiivin merkitystehtävien esittelyssä käytän käsitteellisenä apuvälineenä Ronald W. Langackerin kognitiivista kielioppia. Tutkimusaineistona on sanomalehti Karjalaisen vuosikerran 1999 ne adessiivimuotoiset substantiivit, jotka esiintyvät vähintään kymmenen kertaa, lausekonteksteineen. Aineiston laajuus on noin 18 000 lausetta. Johtopäätöksenä tutkimusaineistosta todetaan, että suurimmalle osalle adessiivitapauksista on löydettävissä merkitystehtävä kantasanan semanttisen luonteen avulla; tämä tarkoittaa, että lausekontekstistaan irrotettu adessiivimuotoinen sana saa suurimmaksi osaksi saman tulkinnan kuin lausekontekstissaan. Toisena johtopäätöksenä todetaan, että merkityksen määräytyminen lausekontekstin kautta ei ole systemaattista tai lineaarista, ts. sama lausekonteksti johtaa eri sananmuodoilla eri merkitystulkintaan. Tämän katson olevan osoitus merkityksen emergenssistä.
  • Tupakka, Juho (2009)
    Tutkielma käsittelee kiinan kielen automaattista käsittelyä ja kieliteknologiaa. Kieliteknologian osa-alueista keskitytään kiinan kielelle tyypilliseen sanarajatunnistus- eli segmentointiongelmaan, joka kumpuaa kiinan kielen kirjoitusjärjestelmän erityispiirteistä. Tutkielma on aihepiiriä esittelevä pilottitutkimus, jonka tarkoitettu lukijaryhmä on kiinan kieliteknologisesta tutkimuksesta kiinnostuneet opiskelijat ja tutkijat. Lähdemateriaali koostuu englannin- ja kiinankielisestä kirjallisuudesta, lähinnä konferenssiartikkeleista. Tutkielma esittelee kiinan kirjoitusjärjestelmää automaattisen käsittelyn näkökulmasta, käsittelee perinteisten ja yksinkertaistettujen merkkien eroja, merkkikoodauksia sekä erilaisia lähestymistapoja käyttäviä syöttöjärjestelmiä. Kirjoitusjärjestelmän esittely tarjoaa esitietoja kielen rakenteen ymmärtämiseksi sekä rakentaa pohjaa sanarajatunnistusta käsitteleviä osuuksia varten. Sanarajatunnistus- eli segmentointiongelma johtuu kiinan kirjoitusjärjestelmästä, jossa sanojen välejä ei merkitä välilyönneillä. Kielen kieliteknologista käsittelyä varten sanojen rajat tulee kuitenkin selvittää. Sanarajatunnistusjärjestelmät ovat tietokoneohjelmia, jotka etsivät ja merkitsevät nämä rajat automaattisesti. Tehtävä ei kuitenkaan ole yksinkertainen kielen monitulkintaisuuksien ja ns. tuntemattomien sanojen vuoksi. Joissain tilanteissa ei ole olemassa yksiselitteisen oikeaa segmentointia. Tutkielmassa esitellään kaksi segmentointijärjestelmää, keskittyen erityisesti niiden toiminnan kuvaukseen lukijalle ymmärrettävässä muodossa. Tärkeää on menetelmien ymmärtäminen, ei tekniset yksityiskohdat. Lopuksi paneudutaan segmentointijärjestelmien evaluaation ongelmiin. Sanarajatunnistusta suorittavien ohjelmien vertailu on usein hankalaa, koska monissa tapauksissa järjestelmät eivät tuota yhteismitallisia tuloksia. Tutkielmassa esitellään yritys saada aikaan yhteismitallisia evaluaatiomenetelmiä segmentointiohjelmien Chinese Word Segmentation Bakeoff -kilpailujen muodossa. Tutkielmassa todetaan sanarajatunnistusongelman olevan tärkeä tutkimuskohde. Ratkaisemattomia ongelmia on kuitenkin edelleen, tärkeimpänä evaluaatio.
  • Lehtinen, Jyri (2009)
    In the thesis it is discussed in what ways concepts and methodology developed in evolutionary biology can be applied to the explanation and research of language change. The parallel nature of the mechanisms of biological evolution and language change is explored along with the history of the exchange of ideas between these two disciplines. Against this background computational methods developed in evolutionary biology are taken into consideration in terms of their applicability to the study of historical relationships between languages. Different phylogenetic methods are explained in common terminology, avoiding the technical language of statistics. The thesis is on one hand a synthesis of earlier scientific discussion, and on the other an attempt to map out the problems of earlier approaches in addition to finding new guidelines in the study of language change on their basis. Primarily literature about the connections between evolutionary biology and language change, along with research articles describing applications of phylogenetic methods into language change have been used as source material. The thesis starts out by describing the initial development of the disciplines of evolutionary biology and historical linguistics, a process which right from the beginning can be seen to have involved an exchange of ideas concerning the mechanisms of language change and biological evolution. The historical discussion lays the foundation for the handling of the generalised account of selection developed during the recent few decades. This account is aimed for creating a theoretical framework capable of explaining both biological evolution and cultural change as selection processes acting on self-replicating entities. This thesis focusses on the capacity of the generalised account of selection to describe language change as a process of this kind. In biology, the mechanisms of evolution are seen to form populations of genetically related organisms through time. One of the central questions explored in this thesis is whether selection theory makes it possible to picture languages are forming populations of a similar kind, and what a perspective like this can offer to the understanding of language in general. In historical linguistics, the comparative method and other, complementing methods have been traditionally used to study the development of languages from a common ancestral language. Computational, quantitative methods have not become widely used as part of the central methodology of historical linguistics. After the fading of a limited popularity enjoyed by the lexicostatistical method since the 1950s, only in the recent years have also the computational methods of phylogenetic inference used in evolutionary biology been applied to the study of early language history. In this thesis the possibilities offered by the traditional methodology of historical linguistics and the new phylogenetic methods are compared. The methods are approached through the ways in which they have been applied to the Indo-European languages, which is the most thoroughly investigated language family using both the traditional and the phylogenetic methods. The problems of these applications along with the optimal form of the linguistic data used in these methods are explored in the thesis. The mechanisms of biological evolution are seen in the thesis as parallel in a limited sense to the mechanisms of language change, however sufficiently so that the development of a generalised account of selection is deemed as possibly fruiful for understanding language change. These similarities are also seen to support the validity of using phylogenetic methods in the study of language history, although the use of linguistic data and the models of language change employed by these models are seen to await further development.
  • Yliniemi, Juha-Sakari (2005)
    This thesis is a preliminary phonological description of the Tibetan-related Denjongka language of Sikkim, India. Because the language has not been much researched and the previous studies have focused on other issues than phonology, the present paper is the first of its kind. The data for this thesis was gathered in Gangtok, the capital of Sikkim, from March to May 2004. I had four language informants from four different locations in Sikkim who spoke different dialects of Denjongka. One of the informants, from whom I recorded c. 900 words and 530 sentences, was used as the main data source for the analysis. First, I will give some ethnographic background information on the people who speak Denjongka. Next, I will discuss first the segmental and then the suprasegmental phonology of the language, which were analysed much in line with American structuralism. I also used acoustic analysis enabled by the Praat-program. Eight vowel phonemes were found. The phonemic status of /E/, however, is still suspect. I present some preliminary evidence for roundedness, frontness and height assimilation among the vowels. In the interpretation adopted in this analysis, there are no diphthongs in Denjongka. Forty consonant phonemes were found: 17 plosives, 7 affricates, 5 fricatives, 5 nasals, 4 liquids and 2 approximants. Denjongka plosives and affricates have four-way aspiration/voicing distinction: voiceless aspirated, voiceless unaspirated, voiceless slightly aspirated (devoiced), and voiced unaspirated. Two voiceless nasals and two voiceless liquids were found. Two phonation types were found to be contrastive, lax/breathy and tense/creaky. Nasalisation and length in vowels are phonemic. Denjongka is an incipient tone language. Tonal phenomena, which involve mainly pitch and phonation type, are complex. Pitch is most of the time predictable from the initial consonant and the phonation type. In some cases, however, pitch is the only contrastive feature between words. The description of Denjongka in this paper differs from the traditional four-tone system, which has been used in many descriptions of Tibetan-related languages. In the four-tone system, pitch is contrastive both in the high and low register, whereas in the present analysis pitch has been established to contrast only in the high register. Lastly, the appendices include a comparative word list of the four Denjongka dialects studied in this thesis.
  • Wilde, Christopher P. (2001)
    The purpose of this research was to analyse the phonological system of the Limi dialect of Humla Bhotia. Humla Bhotia is a Tibeto-Burman language that is spoken by approximately 4000 5000 people in the far northwestern Humla province of the Kingdom of Nepal. The language has not previously been the subject of analysis. The data base for this thesis was collected on two different dialects of Humla Bhotia in Kathmandu, the capital of Nepal, from February to May 2000. I had three language informants who speak Humla Bhotia as their mother tongue. One of the informants speaks the Upper Humla dialect and the other two informants speak the Limi dialect. In this thesis I have concentrated on the phonology of the dialect of Limi but occasionally I also make reference to the Upper Humla dialect. The Limi data base consists of 600 words elicited in isolation, sentences where words have been checked for consonantal and pitch variation, and five texts comprising 117 sentences. Firstly, I have studied the geographical location, population and dialects of Humla Bhotia. Five dialects were identified: Limi, Upper Humla, La Yakba, Nyinba and Humli Khyampa. Information on the dialect areas is based on the accounts of seven mother tongue speakers of the language and on Nancy Levine s (1988) anthropological research of the ethnic group Nyinba. Secondly, I have analysed the phonological system of Limi from the viewpoint of American stucturalism much along the lines followed by Pike 1966 [1947] ja 1967 [1948]. In defining the prosodic elements I have also used acoustic analysis. In the Limi dialect there are 7 vowel phonemes. No vowel clusters occur within the same syllable. In this preliminary analysis 29 contrastive plosives, 8 affricates and 5 6 fricatives were found. The data also revealed 4 nasal phonemes, two rhotic phonemes, one lateral phoneme and two central approximants. Further research is however called for to check the phonemic status of these segments. Four contrastive prosodic elements were encountered: nasalisation, length, phonation type and pitch movement. There are two contrastive types of phonation: tense and lax. Many words were found with a third type of phonation, modal phonation. How modal phonation relates to the prosodic system is unclear at this stage and is therefore left for further research to determine. There are two contrastive pitch movement tonemes: a rising toneme and falling toneme. The falling toneme occurs in free variation with a level pitch contour. Rising appears to be linked with lax phonation and falling with tense phonation.
  • Dannenberg, Anna (2004)
    Puhutun kielen segmentointiin ei ole olemassa kaikkiin tarkoituksiin sopivaa, yleisesti hyväksyttyä ja toimivaa menetelmää - kirjoitettu kieli segmentoituu lauseiksi ja virkkeiksi, mutta puhetta segmentoidaan monin eri tavoin tilanteesta ja tarkoituksesta riippuen. Tähän on vaikuttanut kirjoitetun kielen keskeinen asema kielitieteellisessä tutkimuksessa: kirjoitusta on tutkittu enemmän ja kauemmin kuin puhetta, ja lisäksi kirjoitettu kieli vaikuttaa ihmisten kielikäsityksiin myös tiedostamattomalla tasolla, joten puhetta on vasta viime aikoina alettu tarkastella sen omista lähtökohdista käsin. Pro gradu -tutkielmassani vertaan keskenään kolmea puhutun kielen segmentointitapaa, jotka perustuvat erilaisiin teorioihin puheen luonteesta. Ensimmäinen on pohjoismaiseen Talsyntax-projektiin perustuva puhtaasti syntaktinen analyysimalli, jonka mukaiset segmentit ovat syntaktisesti itsenäisiä makrosyntagmoja. Toinen on Wallace Chafen ajattelua mukaileva kognitiivisperustainen segmentointitapa, jossa puheen katsotaan koostuvan ihmisen kognition toimintaa heijastavista ajatusyksiköistä. Kolmas malli perustuu David Brazilin teoriaan, jossa intonaatio ja kommunikaatio liittyvät olennaisesti toisiinsa, ja tämän mallin mukaan puhe segmentoituu kommunikaation kannalta merkityksellisiksi intonaatiojaksoiksi. Mallien vertailupohjana toimii erilaisista puhetilanteista koostuva 15 minuutin puhekorpus, jonka olen segmentoinut kaikkien kolmen mallin mukaisesti ja verrannut segmentointituloksia toisiinsa. Tutkimukseni osoittaa, että intonaatioon, kognitioon ja syntaksiin pohjautuvat segmentointitavat tuottavat hyvin samantapaisia tuloksia: segmenttien rajakohdista suurin osa on kaikkien kolmen segmentointitavan mukaisia. Erityisesti intonaatioon ja syntaksiin perustuvien analyysien tulokset ovat hyvin samankaltaisia, kun taas kognitiivispohjaisen segmentointitavan mukaiset tulokset eroavat muista enemmän ja se on myös tulkinnanvaraisempi. Kun puhuttu teksti segmentoidaan sekä intonaatiojaksoiksi että makrosyntagmoiksi, syntyvistä segmenteistä on molempien segmentointitapojen suhteen yhteneviä noin 85 % ja niihin kuuluu kaikista tekstin sanoista lähes 60 %. Eri segmentointitapojen suhteen yhteneviä segmenttejä ovat tyypillisesti minimipalautteet ja muut lyhyet puheenvuorot, ja lisäksi yhtenevyys on tyypillistä kysymyksille sekä puhujan ja puheenaiheen vaihtumiskohdille. Epäyhtenevyyttä puolestaan esiintyy lähinnä tilanteissa, joissa sama henkilö on pitkään yhtäjaksoisesti äänessä: mitä pidempi yhtenäinen puhejakso, sitä vaikeampi puhujan on hahmottaa sitä kokonaisuutena, joten sellaisiin muodostuu helpommin intonationaalisia tai syntaktisia epäjohdonmukaisuuksia. Tuloksista voidaan päätellä, että intonaatio ja syntaksi sekä jossain määrin myös kognitio liittyvät olennaisesti toisiinsa puhutussa kielessä. Jos tarkoituksena on löytää yleisesti hyväksyttävä ja toimiva puhutun kielen segmentointitapa, intonationaalis-syntaktinen segmentointi vaikuttaisi olevan hyvä lähtökohta.
  • Malm, Karri (2010)
    Tämä tutkielma käsittelee World Wide Webin sisältämien verkkosivujen sisältöjen käyttöä korpusmaisesti kielitieteellisenä tutkimusaineistona. World Wide Web sisältää moninkertaisesti enemmän tekstiä kuin suurimmat olemassa olevat perinteiset tekstikorpukset, joten verkkosivuilta voi todennäköisesti löytää paljon esiintymiä sellaisista sanoista ja rakenteista, jotka ovat perinteisissä korpuksissa harvinaisia. Verkkosivuja voidaan käyttää aineistona kahdella eri tavalla: voidaan kerätä satunnainen otos verkkosivuista ja luoda itsenäinen korpus niiden sisällöistä, tai käyttää koko World Wide Webiä korpuksena verkkohakukoneiden kautta. Verkkosivuja on käytetty tutkimusaineistona monilla eri kielitieteen aloilla, kuten leksikograafisessa tutkimuksessa, syntaktisten rakenteiden tutkimuksessa, pedagogisena materiaalina ja vähemmistökielten tutkimuksessa. Verkkosivuilla on perinteisiin korpuksiin verrattuna useita haitallisia ominaisuuksia, jotka pitää ottaa huomioon, kun niitä käytetään aineistona. Kaikki sivut eivät sisällä kelvollista tekstiä, ja sivut ovat usein esimerkiksi HTML-muotoisia, jolloin ne pitää muuttaa helpommin käsiteltävissä olevaan muotoon. Verkkosivut sisältävät enemmän kielellisiä virheitä kuin perinteiset korpukset, ja niiden tekstityypit ja aihepiirit ovat runsaslukuisempia kuin perinteisten korpusten. Aineiston keräämiseen verkkosivuilta tarvitaan tehokkaita ohjelmatyökaluja. Näistä yleisimpiä ovat kaupalliset verkkohakukoneet, joiden kautta on mahdollista päästä nopeasti käsiksi suureen määrään erilaisia sivuja. Näiden lisäksi voidaan käyttää erityisesti kielitieteellisiin tarpeisiin kehitettyjä työkaluja. Tässä tutkielmassa esitellään ohjelmatyökalut WebCorp, WebAsCorpus.org, BootCaT ja Web as Corpus Toolkit, joiden avulla voi hakea aineistoa verkkosivuilta nimenomaan kielitieteellisiin tarkoituksiin.