Skip to main content
Login | Suomeksi | På svenska | In English

Suomenkielisten lehtiartikkelien luokittelu

Show full item record

Title: Suomenkielisten lehtiartikkelien luokittelu
Author(s): Silvonen, Mikko
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Language: Finnish
Acceptance year: 1998
Abstract:
Dokumenttien luokittelua eli tekstin aihepiirin automaattista tunnistusta on aikaisemmin sovellettu pääasiassa englanninkielisiin dokumentteihin. Tutkimuksen tarkoituksena oli mahdollistaa suomenkielisiä lehtiartikkeleita luokittelevan ohjelman kehittäminen. Tutkielma alkaa lyhyellä katsauksella aikaisempaan tutkimukseen. Pääaiheena on kolmen ohjattuun oppimiseen perustuvan luokittelualgoritmin (naiivin Bayesin luokittimen, tasapainotetun Winnow+:n ja assosiaatiosääntöjen) vertailu Helsingin Sanomien aineiston avulla. Dokumenttien esikäsittelyyn ja luokittelupiirteiden valintaan käytetään FINCG-nimistä suomen kielen jäsennysohjelmaa. Parhaiten toimivaksi vaihtoehdoksi osoittautui perusmuotoon palautettuja substantiiveja käyttävä naiivi Bayesin luokitin.
Keyword(s): dokumenttien luokittelu naiivi Bayesin luokitin Winnow assosiaatiosäännöt suomen kieli


Files in this item

Files Size Format View
suomenki.pdf 980.1Kb PDF
tiiviste.pdf 95.19Kb PDF

This item appears in the following Collection(s)

Show full item record