Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Author "Tuominen, Pasi"

Sort by: Order: Results:

  • Tuominen, Pasi (2015)
    Tietovarannoissa esiintyy monesti useita tietueita, jotka kuvaavat samaa objektia. Tässä tutkielmassa on vertailtu näiden tietueiden löytämiseen käytettäviä menetelmiä. Kokeet on suoritettu aineistolla, jossa on 6,4 miljoonaa bibliografista tietuetta. Menetelmien vertailussa käytettiin aineistossa olevien teosten nimekkeitä. Eri menetelmien kahta keskeistä piirrettä on mitattu: löydettyjen duplikaattien lukumäärää ja niiden suhdetta muodostettujen kandidaattien lukumäärään. Kahden menetelmän yhdistelmä osoittautui parhaaksi aineiston deduplikointiin. Järjestetyllä naapurustolla löytyi eniten varsinaisia duplikaatteja, mutta myös eniten irrelevantteja kandidaatteja. Suffiksitauluryhmittelyn avulla löytyi lisäksi joukko duplikaatteja joita muilla menetelmillä ei löytynyt. Yhdessä nämä kaksi menetelmää löysivät lähes kaikki duplikaatit mitä kaikki tutkielmassa verratut menetelmät löysivät. Levenshtein-etäisyyteen perustuvat virhesietoiset menetelmät osoittautuivat tehottomiksi nimekkeiden deduplikoinnissa.