Browsing by Subject "tekstintunnistus"

Now showing items 1-2 of 2

Näkövammaisten tietokoneavusteinen tiedon hankinta

Lahti, Lauri (Helsingin yliopistoUniversity of HelsinkiHelsingfors universitet, 2006)

The study examines various uses of computer technology in acquisition of information for visually impaired people. For this study 29 visually impaired persons took part in a survey about their experiences concerning acquisition of infomation and use of computers, especially with a screen magnification program, a speech synthesizer and a braille display. According to the responses, the evolution of computer technology offers an important possibility for visually impaired people to cope with everyday activities and interacting with the environment. Nevertheless, the functionality of assistive technology needs further development to become more usable and versatile. Since the challenges of independent observation of environment were emphasized in the survey, the study led into developing a portable text vision system called Tekstinäkö. Contrary to typical stand-alone applications, Tekstinäkö system was constructed by combining devices and programs that are readily available on consumer market. As the system operates, pictures are taken by a digital camera and instantly transmitted to a text recognition program in a laptop computer that talks out loud the text using a speech synthesizer. Visually impaired test users described that even unsure interpretations of the texts in the environment given by Tekstinäkö system are at least a welcome addition to complete perception of the environment. It became clear that even with a modest development work it is possible to bring new, useful and valuable methods to everyday life of disabled people. Unconventional production process of the system appeared to be efficient as well. Achieved results and the proposed working model offer one suggestion for giving enough attention to easily overlooked needs of the people with special abilities. ACM Computing Classification System (1998): K.4.2 Social Issues: Assistive technologies for persons with disabilities I.4.9 Image processing and computer vision: Applications
OCR Post-Processing by Parallel Replace Rules Implemented as Weighted Finite-State Transducers

Kauppinen, Pekka (2016)

Tekstintunnistus (eng. optical character recognition, OCR) on nykyään laajalle levinnyt painettujen ja konekirjoitettujen tekstien koneellinen digitointimenetelmä. Kansalliskirjasto on vienyt historiallisen sanoma- ja aikakauslehtiaineistonsa digitaaliseen muotoon juuri optista hahmontunnistusta käyttäen, ja tuloksena syntynyt suomenkielinen korpus, käsittää yli kolme miljardia sanetta. Digitointiin käytetyn OCR-sovelluksen tekemien virheiden vuoksi suuri etenkin vanhat fraktuuratyyppisiä kirjaisimia käyttävät julkaisut ovat digitoidussa muodossaan kuitenkin pitkälti käyttökelvottomia. Tämä pro gradu -tutkielma esittelee uudentyyppisen OCR-virheiden korjausmenetelmän, joka perustuu äärellistilaisena transduktorina toteutettuihin, rinnakkain sovellettaviin painollisiin korvaussääntöihin sekä kielimalliin. Työn tarkoituksena on selvittää, onko kyseistä menetelmää käyttämällä mahdollista vähentää digitoidussa tekstissä esiintyvien virheiden määrää. Korvaussäännöstön rakentamiseen käytetään digitoidusta sanomalehdistä sekä näiden käsin korjatuista versioista saatuja merkkijonopareja. OCR-sovelluksen tuottamat merkkijonot kohdistetaan korjattussa aineistossa esiintyvien sanojen kanssa, ja näin saaduista sanapareista eristetään merkkitason vastaavuudet. Näistä merkkipareista muodostetaan n-grammeja, joiden pohjalta puolestaan muodostetaan painotettuja ehdollisia korvaussääntöjä. Suureksi käyvien säännöstöjen kokoa voidaan pienentää yhdistämällä päällekkäisiä sääntöjä yleisemmiksi säännöiksi sekä karsimalla itseään toistavia sääntöjä. Työssä pyritään myös koostamaan kielimalli, jonka avulla syötteeksi annettujen sanojen korjaamisen tarvettä sekä sääntöjen tuottamien korjausehdotusten oikeellisuutta voidaan arvioida. Kielimallin tulisi olla melko kattava otos varhaisnykysuomen (1820–1890) sanamuodoista. Hyväksi ratkaisuksi osoittautui malli, jonka pohjana käytetään sekä nykysuomen morfologista jäsenninä OMorFia sekä itse ansalliskirjaston korpuksesta löytyviä sanamuotoja. Menelmä tuottaa kauttaaltaan melko positiivisia tuloksia, ja parhaimmillaan OCR tekemien virheellisten sanamuotojen määrää pystytään vähentämään yli 44 %:lla. Tulokset olivat lupaavia silloinkin, kun kielimallia ei käytetty. Tämä viittaisi siihen, että menetelmä soveltuu siis käytettäväksi silloinkin, kun kohdekielelle ei ole olemassa sopivaa kielimallia.

Now showing items 1-2 of 2

Browsing by Subject "tekstintunnistus"

Yhteystiedot

HELSINGIN YLIOPISTO