Browsing by Subject "jälkikorjaus"

Now showing items 1-1 of 1

OCR Post-Processing by Parallel Replace Rules Implemented as Weighted Finite-State Transducers

Kauppinen, Pekka (2016)

Tekstintunnistus (eng. optical character recognition, OCR) on nykyään laajalle levinnyt painettujen ja konekirjoitettujen tekstien koneellinen digitointimenetelmä. Kansalliskirjasto on vienyt historiallisen sanoma- ja aikakauslehtiaineistonsa digitaaliseen muotoon juuri optista hahmontunnistusta käyttäen, ja tuloksena syntynyt suomenkielinen korpus, käsittää yli kolme miljardia sanetta. Digitointiin käytetyn OCR-sovelluksen tekemien virheiden vuoksi suuri etenkin vanhat fraktuuratyyppisiä kirjaisimia käyttävät julkaisut ovat digitoidussa muodossaan kuitenkin pitkälti käyttökelvottomia. Tämä pro gradu -tutkielma esittelee uudentyyppisen OCR-virheiden korjausmenetelmän, joka perustuu äärellistilaisena transduktorina toteutettuihin, rinnakkain sovellettaviin painollisiin korvaussääntöihin sekä kielimalliin. Työn tarkoituksena on selvittää, onko kyseistä menetelmää käyttämällä mahdollista vähentää digitoidussa tekstissä esiintyvien virheiden määrää. Korvaussäännöstön rakentamiseen käytetään digitoidusta sanomalehdistä sekä näiden käsin korjatuista versioista saatuja merkkijonopareja. OCR-sovelluksen tuottamat merkkijonot kohdistetaan korjattussa aineistossa esiintyvien sanojen kanssa, ja näin saaduista sanapareista eristetään merkkitason vastaavuudet. Näistä merkkipareista muodostetaan n-grammeja, joiden pohjalta puolestaan muodostetaan painotettuja ehdollisia korvaussääntöjä. Suureksi käyvien säännöstöjen kokoa voidaan pienentää yhdistämällä päällekkäisiä sääntöjä yleisemmiksi säännöiksi sekä karsimalla itseään toistavia sääntöjä. Työssä pyritään myös koostamaan kielimalli, jonka avulla syötteeksi annettujen sanojen korjaamisen tarvettä sekä sääntöjen tuottamien korjausehdotusten oikeellisuutta voidaan arvioida. Kielimallin tulisi olla melko kattava otos varhaisnykysuomen (1820–1890) sanamuodoista. Hyväksi ratkaisuksi osoittautui malli, jonka pohjana käytetään sekä nykysuomen morfologista jäsenninä OMorFia sekä itse ansalliskirjaston korpuksesta löytyviä sanamuotoja. Menelmä tuottaa kauttaaltaan melko positiivisia tuloksia, ja parhaimmillaan OCR tekemien virheellisten sanamuotojen määrää pystytään vähentämään yli 44 %:lla. Tulokset olivat lupaavia silloinkin, kun kielimallia ei käytetty. Tämä viittaisi siihen, että menetelmä soveltuu siis käytettäväksi silloinkin, kun kohdekielelle ei ole olemassa sopivaa kielimallia.

Now showing items 1-1 of 1

Browsing by Subject "jälkikorjaus"

Yhteystiedot

HELSINGIN YLIOPISTO