Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by discipline "Språkteknologi"

Sort by: Order: Results:

  • Itkonen, Sami (2020)
    Sanayhdistelmät ovat useamman sanan kombinaatioita, jotka ovat jollakin tavalla jähmeitä ja/tai idiomaattisia. Tutkimuksessa tarkastellaan suomen kielen verbaalisia idiomeja sanaupotusmenetelmän (word2vec) avulla. Työn aineistona käytetään Gutenberg-projektista haettuja suomenkielisiä kirjoja. Työssä tutkitaan pääosin erityisesti idiomeja, joissa esiintyy suomen kielen sana ‘silmä’. Niiden idiomaattisuutta mitataan komposiittisuuden (kuinka hyvin sanayhdistelmän merkitys vastaa sen komponenttien merkitysten kombinaatiota) ja jähmeyttä leksikaalisen korvaustestin avulla. Vastaavat testit tehdään myös sanojen sisäisen rakenteen huomioonottavan fastText-algoritmin avulla. Työssä on myös luotu Gutenberg-korpuksen perusteella pienehkö luokiteltu lausejoukko, jota lajitellaan neuroverkkopohjaisen luokittelijan avulla. Tämä lisäksi työssä tunnustellaan eri ominaisuuksien kuten sijamuodon vaikutusta idiomin merkitykseen. Mittausmenetelmien tulokset ovat yleisesti ottaen varsin kirjavia. fastText-algoritmin suorituskyky on yleisesti ottaen hieman parempi kuin perusmenetelmän; sen lisäksi sanaupotusten laatu on parempi. Leksikaalinen korvaustesti antaa parhaimmat tulokset, kun vain lähin naapuri otetaan huomioon. Sijamuodon todettiin olevan varsin tärkeä idiomin merkityksen määrittämiseen. Mittauksien heikot tulokset voivat johtua monesta tekijästä, kuten siitä, että idiomien semanttisen läpinäkyvyyden aste voi vaihdella. Sanaupotusmenetelmä ei myöskään normaalisti ota huomioon sitä, että myös sanayhdistelmillä voi olla useita merkityksiä (kirjaimellinen ja idiomaattinen/kuvaannollinen). Suomen kielen rikas morfologia asettaa menetelmälle myös ylimääräisiä haasteita. Tuloksena voidaan sanoa, että sanaupotusmenetelmä on jokseenkin hyödyllinen suomen kielen idiomien tutkimiseen. Testattujen mittausmenetelmien käyttökelpoisuus yksin käytettynä on rajallinen, mutta ne saattaisivat toimia paremmin osana laajempaa tutkimusmekanismia.
  • Sutinen, Marjo (2017)
    Tämä Pro gradu -tutkielma käsittelee monivalintamuotoisten aukkotehtävien automaattista generointia suomen kielen sanataivutuksen harjoittelua varten. Aukkotehtävät ovat suosittu formaatti kielen opiskelussa ja kielitaidon arvioinnissa. Koska ne ovat muodoltaan melko hyvin kontrolloituja, niiden laatimisen automatisointi on ollut useiden akateemisten ja kaupallisten projektien tavoitteena viimeisten parin vuosikymmenen ajan. Tehtävä on osoittautunut haasteelliseksi. Jos aukkotehtävä generoidaan yksinkertaisesti poistamalla lauseesta sana, ja antamalla sen täyttäminen opiskelijalle tehtäväksi, käy helposti niin, ettei tehtävä ole mielekäs: usein näin tuotettuun aukkoon sopii monta vaihtoehtoista sanaa tai rakennetta. Yksi suurimmista haasteista aukkotehtävien generoinnissa on siis niin sanottu “aukkojen luotettavuus”: sen varmistaminen, että aukkoon sopiva ja epäsopiva vastaus pystytään erottamaan toisistaan. Yksi tapa varmistaa tämä on rajoittaa mahdollisten vastausten joukkoa antamalla vastausvaihtoehtoja, joiden tiedetään olevan vääriä. Tällöin automaattisen generoinnin haasteeksi nousee vääräksi tiedettyjen vaihtoehtojen löytäminen. Väärät vaihtoehdot eivät kuitenkaan saa olla sitä liian ilmeisellä tavalla: oikean vaihtoehdon valitsemisen täytyy muodostaa mielekäs haaste opiskelijalle. Tutkielmani pääasiallinen tavoite on tutkia luotettavien ja potentiaalisesti haastavien monivalintamuotoisten aukkotehtävien generoimista suomen kielen sanataivutuksen opiskelua varten. Kokeellisessa osiossa testaamaani metodia on aiemmin sovellettu menestyksekkäästi verrattavaan tarkoitukseen englannin kielen prepositioiden kontekstissa. Metodissa etsitään suuresta tekstikorpuksesta sellaisia prepositioita, jotka esiintyvät usein yhden aukon kontekstisanan kollokaationa, mutteivat koskaan kahden kontekstisanan kollokaationa samaan aikaan. Tavoitteeni on osoittaa, että metodia voi soveltaa myös suomen kielen taivutustehtävien generoimiseen. Testaan myös erityyppisten korpusten käyttöä tehtävän suorittamisessa, nimittäin yhtäältä peräkkäisyyteen perustuvia n-grammeja ja toisaalta syntaktiseen dependenssirakenteeseen perustuvia n-grammeja. Kokeellisen työn lisäksi erittelen työssäni kattavasti erilaisia tapoja muodostaa taivutusaukkotehtäviä, ja esittelen keksimäni aukkotehtävämallin. Keskeisin löydökseni on, että kyseisellä metodilla pystyy lisäämään aukkotehtävien luotettavuutta merkittävästi: sellaisissa testitapauksissa, joissa käytetty data on muutaman yksinkertaisen kriteerin mukaisesti arvioituna riittävää, jopa 80 % alun perin epäluotettavista aukoista muuttuu luotettaviksi. Lopussa pohdin tehtävien haasteellisuuden evaluointia sekä riittämättömän datan kysymyksiä. Mitä jälkimmäiseen tulee, argumentoin, että vaikka esille tulleiden datan riittävyyteen liittyvien haasteiden ratkaiseminen parantaisi tuloksia nykyisestään, voi metodia pitää tarkoitukseen sopivana jo sellaisenaan.
  • Kajava, Kaisla (2018)
    Sentimenttianalyysi (sentiment analysis) on nopeasti kehittyvä kieliteknologian ala, jonka päämääränä on automaattisesti tunnistaa luonnollisella kielellä tuotetusta tekstistä subjektiivisia piirteitä. Tyypillisesti sentimenttianalyysissa luokitellaan tekstiä binäärisesti luokkiin ‘positiivinen’ tai ‘negatiivinen’. Moniluokkainen tunneskaala saadaan kuitenkin kasvattamalla mahdollisten sentimenttiluokkien määrää, jolloin mukaan otetaan hienojakoisempia tunteita kuten ‘vihainen’, ‘iloinen’ ja ‘surullinen’. Tekstiklassifikaatiossa käytetään usein ohjattuja koneoppimismenetelmiä. Tämä edellyttää riittävää opetusaineistoa, jonka avulla klassifikaatioalgoritmi voidaan opettaa tunnistamaan tekstistä haluttuja piirteitä. Koska sentimenttianalyysiin tarvittavat opetusaineistot ovat pääosin englanninkielisiä, muunkielisiä aineistoja tuotetaan kääntämällä alkuperäinen aineisto eri kielille. On kuitenkin tärkeää arvioida käännetyn aineiston käytettävyyttä koneoppimisalgoritmien opetuksessa. Kun teksti käännetään kieleltä toiselle, tulee alkuperäisen sentimentti-informaation säilyä ennallaan, jotta tekstiä voidaan luotettavasti käyttää algoritmien opettamiseen. Mikäli sentimentti-informaatio säilyy hyvin käännetyssä tekstissä, kieltenvälisiä sentimenttiaineistoja voidaan koota siirto-oppimismenetelmillä (transfer learning) eli projisoimalla alkuperäiskielisten virkkeiden sentimenttiluokat käännetyille virkkeille. Tämä pro gradu -tutkimus arvioi, missä määrin luonnollisen kielen binäärinen ja moniluokkainen sentimentti-informaatio säilyy samana, kun teksti käännetään kieleltä toiselle. Tutkimusaineistona käytetään paralleeleja virkkeitä alkuperäiskielellä englanniksi sekä käännöksinä suomeksi, ranskaksi ja italiaksi. Sentimentti-informaation säilymistä tutkitaan annotoimalla ensin englanninkieliset virkkeet siten, että tuloksena on sekä binäärinen että moniluokkainen aineisto, jossa kullakin virkkeellä on yksi sentimenttiluokka. Tämän jälkeen kunkin käännetyn kielen paralleelit virkkeet annotoi kaksi erillistä annotoijaa, mistä saadaan vertailukohde alkuperäisille englanninkielille annotaatioille. Lisäksi tutkimus arvioi siirto-oppimismenetelmien hyödyllisyyttä tutkimalla, saavuttavatko koneoppimisalgoritmit samankaltaisia tuloksia käännetyillä aineistoilla, jotka on koottu projisoimalla alkuperäisten aineistojen annotaatiot käännetyille virkkeille, kuin alkuperäisillä englanninkielisillä aineistoilla. Sentimenttiklassifikaatiossa käytetään naiivi Bayes (naïve Bayes), maksimientropia (maximum entropy), monikerroksinen perseptroni (multilayer perceptron) ja tukivektorikone (support vector machine) -klassifikaattoreita. Tutkimustulokset osoittavat, että luonnollisen kielen tekstejä käännettäessä sentimentti-informaatio säilyy hyvin. Tämän perusteella voidaan päätellä, että kieltenvälinen siirto-oppiminen on tarpeeksi luotettava tapa opettaa sentimenttianalyysialgoritmeja. Klassifikaatiotulokset puolestaan osoittavat, että siirto-oppimismenetelmällä opetetut algoritmit saavuttavat luotettavia tuloksia binäärisessä klassifikaatiossa, kun taas vakaa moniluokkainen klassifikaatio vaatii suurempaa aineistoa.
  • Roivainen, Hege (2017)
    Kansalliskirjastojen metadataluettelot ovat hyviä informaatiolähteitä, sillä ne sisältävät tiedon lähes kaikesta tiettynä aikana ja tietyllä alueella julkaistusta aineistosta. Yleensä ne ovat kattavasti kuvailtuja, joten niitä voi käyttää kvantitatiivisen tutkimuksen lähteinä. Usein tutkimusta tehtäessä tutkimusaineisto kannattaa jakaa pienempiin osiin esimerkiksi genren perusteella. Monissa tapauksissa aineiston aukkoisuus kuitenkin vähentää aineiston käytettävyyttä. Tämä pro gradu -työ arvioi mahdollisuutta hyödyntää koneoppimista etsittäessä tutkimukselle relevantteja osajoukkoja kirjastoluetteloista. Esimerkkitapaukseksi valitsin English Short Title Cataloguen (ESTC) ja etsittäväksi osajoukoksi runokirjat. Runokirjojen genretiedon kuuluisi olla annotoitu, mutta todellisista kirjastoluetteloista tämä tieto usein puuttuu. Käytin random forest -algoritmiä perinteisillä tekijän tunnistuksessa ja genreluokittelussa käytetyillä erityyppisillä piirrevektoreilla sekä metadatakenttien arvoilla parhaan tuloksen saamiseksi. Koska kirjastoluettelot eivät sisällä kirjojen koko tekstiä, piirteiden valinta keskittyi otsikoissa käytettyihin sanoihin ja lingvistisiin ominaisuuksiin. Otsikot ovat yleensä lyhyitä ja sisältävät hyvin vähän informaatiota, minkä vuoksi yhdistin piirrevektoreiden parhaiten toimivat piirteet yhteen ja tein lopullisen haun niillä. Tutkimuksen päätulos oli varmistus siitä, että otsikoiden käyttö piirteiden muodostamisessa on käyttökelpoinen strategia. Tutkimus avaa mahdollisuuksia määrittää osajoukkoja tulevaisuudessa koneoppimisen keinoin ja lisätä kirjastoluetteloiden hyödyntämistä kvantitatiivisessa tutkimuksessa.
  • Melasuo, Elina (2020)
    Pro gradu -tutkielma käsittelee sähköpostin luokittelua. Lähtökohtana on tarve luokitella sähköposteja ohjatun koneoppimisen keinoin niin, että organisaation kirjaamoon tulevat sähköpostit voitaisiin välittää hoidettavaksi oikealle henkilölle organisaatiossa. Tutkielmassa esitellään tekstin luokittelun keinoja, haasteita ja käytäntöjä. Erilaisia tekstin esikäsittelytapoja ja sähköpostin erityispiirteitä kuvaillaan. Tutkielman testiaineisto koostuu tutkijan omista työsähköposteista. Sähköpostien pääkieli on suomi, vaikka englanninkielisiä osia löytyy työn luonteesta johtuen. Aineiston määrä on suhteellisen pieni (1518 sähköpostia) ja epätasapainossa eri henkilöiden, luokkien, kesken. Tutkimuksessa selvitetään, kuinka hyviä luokittelutuloksia saa tämän tyyppisellä aineistolla. Sähköpostiaineiston ollessa kyseessä tutkielmassa selvitetään myös tietosuojaa, luottamuksellisen tiedon käsittelyä ja esitellään aineistoon suoritettuja anonymisointikeinoja. Suomi on voimakkaasti taipuva kieli, ja lemmatisointia käytetään sanamuotojen normalisointimenetelmänä. Luokittelussa sovelletaan Multinomial Naïve Bayes -mallia, joka on generatiivinen todennäköisyysmalli. Piirreirrotusmenetelminä käytetään sanamäärävektoreita ja sanojen frekvenssien painokerroinvektoreita. Suorituskykymittareina käytetään tarkkuutta ja F1-arvoa. Luokittelutulosten parantamiskeinona käytetään hyperparametrien optimointia. Opetus- ja kehitysaineistoon verrattuna tutkimuksen tulokset testiaineiston kanssa ovat tilastollisesti katsottuna heikot. Johtopäätöksenä todetaan, että tutkielmassa käytetty sähköpostien määrä oli liian vähäinen, jotta luokittelija olisi osannut oppia harvinaisemmista luokista. Tutkielman perusteella korostetaan tarpeellisten järjestelmien asentamista, aineiston käsittelyprosessien toteuttamista ja tietosuoja-asioihin perehtymistä jo suunnittelussa ja aineiston keräysvaiheessa. Sähköpostiaineiston suurempaa määrää sekä luokitteluprosessissa käytettävien opetus-, kehitys- ja testiaineistojoukkojen sisältämien sähköpostien samankaltaisuutta suositellaan. Tutkielma voi toimia pohjana ja suunnannäyttäjänä suomenkielisten sähköpostien luokittelun jatkokehityksessä.
  • Nieminen, Tommi (2018)
    Konekäännösten laadun arviointiin on kehitetty erilaisia menetelmiä 1950-luvulta lähtien. Aluksi laadunarviointimenetelmät olivat lähes yksinomaan manuaalisia, eli ne perustuivat kohdekielen osaajien subjektiivisiin arvioihin konekäännöksen laadusta. 1990-luvulla otettiin käyttöön ensimmäiset automaattiset arviointimenetelmät. Pitkäkestoisesta ja laajasta tutkimuksesta huolimatta sekä manuaaliset että automaattiset arviointimenetelmät ovat edelleen epäluotettavia. Manuaalisten menetelmien ongelmana on se, että eri arvioijien tekemät arviot eivät ole johdonmukaisia. Automaattiset menetelmät taas perustuvat yleensä konekäännöksen vertaamiseen ihmiskääntäjän tekemään yksittäiseen vertailukäännökseen. Lähes jokaiselle lähdelauseelle on olemassa suuri määrä mahdollisia käännöksiä, joten automaattiset menetelmät arvioivat hyvin usein käännökset väärin. Tässä tutkielmassa kuvataan uudenlainen automaattinen menetelmä konekäännösten laadun arviointia varten. Menetelmän testiaineisto koostuu englanninkielisistä lähdelauseista, joista jokaiselle on käytettävissä erittäin laaja joukko suomenkielisiä vertailukäännöksiä. Testiaineisto perustuu manuaalisesti laadittuihin monikielisiin kielioppeihin, jotka ovat eräänlaisia semanttisia malleja, joilla on erilaisia ilmentymiä lähde- ja kohdekielessä. Lähdekielen ilmentymät muodostavat lähdelauseiden joukon ja kohdekielen ilmentymät vertailulauseiden joukon. Semanttiset mallit sisältävät semanttisia muuttujia, jotka lisäävät vaihtelevuutta testiaineistoon. Lähdelauseiden konekäännöksiä verrataan vertailukäännöksiin käyttämällä äärellistilaisia menetelmiä, jotka mahdollistavat konekäännöstä eniten muistuttavan vertailukäännöksen tehokkaan etsimisen. Äärellistilaisten siirtymien avulla voidaan myös seurata, millaisia muutoksia konekäännökseen on tehtävä, jotta sen voi muuttaa sitä eniten muistuttavaksi vertailulauseeksi. Tämä mahdollistaa yksityiskohtaisten virheanalyysien laatimisen, joiden avulla voidaan analysoida konekäännösjärjestelmien vahvuuksia ja heikkouksia. Tutkielman menetelmää arvioidaan kääntämällä testiaineisto kahdeksalla erilaisella konekäännösjärjestelmällä, jotka perustuvat erilaisiin konekäännösmenetelmiin. Konekäännökset käsitellään sen jälkeen menetelmällä. Menetelmän toimivuutta arvioidaan vertaamalla sen tuottamaa virheanalyysia kahden arvioijan tekemiin manuaalisiin virheannotaatioihin sekä testaamalla, pystyykö menetelmä erottamaan ihmiskääntäjien käännökset konekäännöksistä luotettavasti. Menetelmän arviointi osoittaa, että se on riittävän luotettava antamaan yksityiskohtaisia tietoja konekäännösjärjestelmien ominaisuuksista. Menetelmän tulokset ovat myös yhdenmukaisia julkaistujen konekäännöksen virheanalyysia käsittelevien artikkelien tulosten kanssa. Menetelmä siis soveltuu ongelmien automaattiseen havaitsemiseen konekäännösjärjestelmien kehittämisen aikana, mikä on sen pääasiallinen käyttötarkoitus.
  • Ciarlanti, Alberto (2016)
    This work goes through the study of deception in psychology, forensic sciences and language technology, focusing specifically to the techniques used in language technology to predict deception. Using a corpus of thruthful and deceptive hotel reviews, this work shows a Naïve-Bayes classifier which achieves a 90.4% accuracy rate. This Thesis shows that even though since 1998 text classifier are based on Support Vector Machines, with the corpus used and the features applied to such corpus, my Naïve-Bayes classifier achieves better results than any of the possible SVM counterparts. By studying the categorizer produced and noticing which features are most relevant, I show it is easily possible writing a deceptive review, that the machine classifier labels as truthful. The use of the Regressing Imagery Dictionary as psycholinguistic part of the classifier proved to be as effective as the more expensive and closed source option known as the Linguistic Inquiry and Word Count (LIWC). Also this is the first Thesis in the General Linguistics Department to use the new open source Natural Language Processing library spaCy (https://spacy.io/).
  • Kauppinen, Pekka (2016)
    Tekstintunnistus (eng. optical character recognition, OCR) on nykyään laajalle levinnyt painettujen ja konekirjoitettujen tekstien koneellinen digitointimenetelmä. Kansalliskirjasto on vienyt historiallisen sanoma- ja aikakauslehtiaineistonsa digitaaliseen muotoon juuri optista hahmontunnistusta käyttäen, ja tuloksena syntynyt suomenkielinen korpus, käsittää yli kolme miljardia sanetta. Digitointiin käytetyn OCR-sovelluksen tekemien virheiden vuoksi suuri etenkin vanhat fraktuuratyyppisiä kirjaisimia käyttävät julkaisut ovat digitoidussa muodossaan kuitenkin pitkälti käyttökelvottomia. Tämä pro gradu -tutkielma esittelee uudentyyppisen OCR-virheiden korjausmenetelmän, joka perustuu äärellistilaisena transduktorina toteutettuihin, rinnakkain sovellettaviin painollisiin korvaussääntöihin sekä kielimalliin. Työn tarkoituksena on selvittää, onko kyseistä menetelmää käyttämällä mahdollista vähentää digitoidussa tekstissä esiintyvien virheiden määrää. Korvaussäännöstön rakentamiseen käytetään digitoidusta sanomalehdistä sekä näiden käsin korjatuista versioista saatuja merkkijonopareja. OCR-sovelluksen tuottamat merkkijonot kohdistetaan korjattussa aineistossa esiintyvien sanojen kanssa, ja näin saaduista sanapareista eristetään merkkitason vastaavuudet. Näistä merkkipareista muodostetaan n-grammeja, joiden pohjalta puolestaan muodostetaan painotettuja ehdollisia korvaussääntöjä. Suureksi käyvien säännöstöjen kokoa voidaan pienentää yhdistämällä päällekkäisiä sääntöjä yleisemmiksi säännöiksi sekä karsimalla itseään toistavia sääntöjä. Työssä pyritään myös koostamaan kielimalli, jonka avulla syötteeksi annettujen sanojen korjaamisen tarvettä sekä sääntöjen tuottamien korjausehdotusten oikeellisuutta voidaan arvioida. Kielimallin tulisi olla melko kattava otos varhaisnykysuomen (1820–1890) sanamuodoista. Hyväksi ratkaisuksi osoittautui malli, jonka pohjana käytetään sekä nykysuomen morfologista jäsenninä OMorFia sekä itse ansalliskirjaston korpuksesta löytyviä sanamuotoja. Menelmä tuottaa kauttaaltaan melko positiivisia tuloksia, ja parhaimmillaan OCR tekemien virheellisten sanamuotojen määrää pystytään vähentämään yli 44 %:lla. Tulokset olivat lupaavia silloinkin, kun kielimallia ei käytetty. Tämä viittaisi siihen, että menetelmä soveltuu siis käytettäväksi silloinkin, kun kohdekielelle ei ole olemassa sopivaa kielimallia.
  • Mikusová, Nina (2020)
    The goal of this thesis is to investigate methods that could help with harvesting neologisms and more specifically anglicisms (i.e. English-sourced borrowings) in Finnish language. The work is partially motivated by the Global Anglicism Database project to gather anglicisms from various languages, which can serve both as an anglicism dictionary and researchers as a source of information for studying language contact and borrowing either in depth for a specific language or cross-linguistically. A systematic way of harvesting anglicisms in current Finnish language from a suitable corpus is devised. The research examines what kinds of data sources suitable for this goal are available, and what would be the criteria for a useful data source; how to use a data source like that to prepare a good list of anglicisms candidates so that there would be as little irrelevant material as possible but so that no anglicisms would not be lost in the process, and how could the candidates be scored so that the more probable anglicisms would appear closer to the top of a candidate list. Several of Language Bank's Finnish language monolingual corpora are considered. The most important criteria are identified to be the size and genre of the corpus and its annotation. The criteria are explored from the description of corpora on Language Bank's website and available literature and by hands-on examination of the data. Other important measures of corpus suitability are the amount of unannotated foreign language material, amount of noise, and potential anglicism proportion in the corpora. This information is gained via meticulous exploration of random samples of the corpora neologism candidate lists and evaluation on previously gained anglicism set. A combination of two corpora with good coverage of known anglicisms and relatively low amount of noise is chosen as the dataset for the next phase of the anglicism identification process. Anglicism candidate lists are prepared by a process of removing tokens irrelevant for anglicism harvesting. That includes an identifiable part of foreign language material in the corpus, formally recognizable noise, known lemmas of the words that were present in Finnish language around the time just before the major influx of English borrowings to Finnish language started, and their inflected forms. Several methods of scoring candidates are devised that would assign better scores to tokens with higher probability to be an anglicism. The score is based on tokens' frequency in the corpus and relative frequency of the character-level n-grams made out of tokens in representative purely English and purely Finnish corpora. The tokens in the candidate list are scored and ordered, and the resulting list is evaluated based on the ranking of a set of previously identified anglicisms. The method is proved to be somewhat effective; the resulting average ranking of known anglicisms is better than it would be in a randomly sorted candidate list.
  • Aulamo, Mikko (2019)
    Automaattinen kieliopin tarkistus on hyödyllinen työkalu henkilöille, jotka kirjoittavat julkaistavia tekstejä. Kieliopintarkistimista on myös hyötyä kielenoppijoille. Suomen kielelle tehdyt käytetyimmät tarkistimet ovat sääntöpohjaisia, minkä vuoksi ne kattavat vain pienen osan kielioppivirheistä, ja sääntöjoukon laajentaminen vaati paljon käsintehtävää työtä. Tilastollisilla menetelmillä voidaan löytää suurempi määrä eri virheitä ilman käsinlaadittavia sääntöjä. Eräs helposti toteutettavissa oleva tilastollinen tapa on kerätä esimerkkijoukko kieliopillisia n-grammeja, ja verrata, löytyykö tarkistettavan lauseen kaikki n-grammit esimerkkijoukosta. Suomen kielessä on paljon taivutusmuotoja, ja uusia sanoja pystytään myös luomaan käyttämällä johtimia. Jos n-grammien yksikköinä käytetään saneita, esimerkkijoukon tulee olla käsittämättömän suuri, jotta se voi kuvata Suomen kieliopin kattavasti. Tämä pro gradu -työ esittää kieliopintarkistusmetodin, joka on helppo toteuttaa, koska siinä käytetään n-grammeja yllä mainitulla tavalla, mutta n-grammien yksikköinä käytetään part-of-speech (POS) -informaatiota saneiden sijaan, jolloin esimerkkijoukon n-grammit on mahdollista kerätä, ja niiden määrä pysyy tarpeeksi pienenä käsiteltäväksi. N-grammit ja niiden esiintymäkertojen lukumäärät kerätään suomenkielisestä morfologisesti annotoidusta FinnTreeBank -korpuksesta. Kieliopintarkistin arvioidaan 200 eri koeasetelmassa, jotka eroavat toisistaan viidellä eri tavalla. Puolet tarkistimista koulutetaan pienellä käsinannotoidulla korpuksella ja puolet suurella automaattisesti annotoidulla korpuksella. Puolet tarkistimista käyttää lauserajamerkintöjä n-grammeissaan ja puolet ei. Puolissa asetelmissa valitaan yksi lauserakenteen tulkinta tarkistettavaksi, ja puolissa tarkistetaan kaikki mahdolliset rakennetulkinnat. Jokainen tarkistimista käyttää myös yhtä viidestä esiintymäkertojen raja-arvoista, joka n-grammien tulee ylittää, jotta ne hyväksytään kieliopillisiksi. Lisäksi jokainen tarkistimista käyttää yhtä viidestä POS n-grammityypistä, joista jokainen sisältää eri yhdistelmän POS-informaatiota. Kieliopintarkistin arvioidaan konekäännösjärjestelmän tuottamilla kieliopillisesti virheellisillä lauseilla sekä niiden kieliopillisesti oikeilla vastineilla. Suurimmassa osassa koeasetelmia tarkistin merkitsee vain vähän virheitä ja on usein väärässä, tai tarkistin merkitsee lähes kaikki lauseet, myös kieliopilliset, virheellisiksi. Tarkkuuden kannalta parhaiten suoriutuneessa asetelmassa käytetään suurta korpusta, ei lauserajamerkintöjä, kaikki lauserakennetulkinnat tarkistavaa metodia, pientä esiintymäkertaraja-arvoa ja POS-informaatiota, jolla on vähiten mahdollisia esiintymämuotoja. Tässä asetelmassa tarkistin on noin 86% kerroista oikeassa merkitessään kielioppivirheitä, mutta toisaalta se löytää vain noin 27% testiaineiston virheistä. Toteutettu metodi ei siis sellaisenaan ole toimivia Suomen kieliopin tarkastamiseen, mutta metodia voisi parantaa lisäämällä siihen disambiguaatiokomponentin ja käyttämällä suurempaa koulutuskorpusta.
  • Malm, Karri (2010)
    Tämä tutkielma käsittelee World Wide Webin sisältämien verkkosivujen sisältöjen käyttöä korpusmaisesti kielitieteellisenä tutkimusaineistona. World Wide Web sisältää moninkertaisesti enemmän tekstiä kuin suurimmat olemassa olevat perinteiset tekstikorpukset, joten verkkosivuilta voi todennäköisesti löytää paljon esiintymiä sellaisista sanoista ja rakenteista, jotka ovat perinteisissä korpuksissa harvinaisia. Verkkosivuja voidaan käyttää aineistona kahdella eri tavalla: voidaan kerätä satunnainen otos verkkosivuista ja luoda itsenäinen korpus niiden sisällöistä, tai käyttää koko World Wide Webiä korpuksena verkkohakukoneiden kautta. Verkkosivuja on käytetty tutkimusaineistona monilla eri kielitieteen aloilla, kuten leksikograafisessa tutkimuksessa, syntaktisten rakenteiden tutkimuksessa, pedagogisena materiaalina ja vähemmistökielten tutkimuksessa. Verkkosivuilla on perinteisiin korpuksiin verrattuna useita haitallisia ominaisuuksia, jotka pitää ottaa huomioon, kun niitä käytetään aineistona. Kaikki sivut eivät sisällä kelvollista tekstiä, ja sivut ovat usein esimerkiksi HTML-muotoisia, jolloin ne pitää muuttaa helpommin käsiteltävissä olevaan muotoon. Verkkosivut sisältävät enemmän kielellisiä virheitä kuin perinteiset korpukset, ja niiden tekstityypit ja aihepiirit ovat runsaslukuisempia kuin perinteisten korpusten. Aineiston keräämiseen verkkosivuilta tarvitaan tehokkaita ohjelmatyökaluja. Näistä yleisimpiä ovat kaupalliset verkkohakukoneet, joiden kautta on mahdollista päästä nopeasti käsiksi suureen määrään erilaisia sivuja. Näiden lisäksi voidaan käyttää erityisesti kielitieteellisiin tarpeisiin kehitettyjä työkaluja. Tässä tutkielmassa esitellään ohjelmatyökalut WebCorp, WebAsCorpus.org, BootCaT ja Web as Corpus Toolkit, joiden avulla voi hakea aineistoa verkkosivuilta nimenomaan kielitieteellisiin tarkoituksiin.