dc.date.accessioned |
2015-05-25T11:30:28Z |
und |
dc.date.accessioned |
2017-10-24T12:23:58Z |
|
dc.date.available |
2015-05-25T11:30:28Z |
und |
dc.date.available |
2017-10-24T12:23:58Z |
|
dc.date.issued |
2015-05-25T11:30:28Z |
|
dc.identifier.uri |
http://radr.hulib.helsinki.fi/handle/10138.1/4734 |
und |
dc.identifier.uri |
http://hdl.handle.net/10138.1/4734 |
|
dc.title |
Bibliografisten tietueiden deduplikointi : kandidaattien valintamenetelmät |
fi |
ethesis.discipline |
Computer science |
en |
ethesis.discipline |
Tietojenkäsittelytiede |
fi |
ethesis.discipline |
Datavetenskap |
sv |
ethesis.discipline.URI |
http://data.hulib.helsinki.fi/id/1dcabbeb-f422-4eec-aaff-bb11d7501348 |
|
ethesis.department.URI |
http://data.hulib.helsinki.fi/id/225405e8-3362-4197-a7fd-6e7b79e52d14 |
|
ethesis.department |
Institutionen för datavetenskap |
sv |
ethesis.department |
Department of Computer Science |
en |
ethesis.department |
Tietojenkäsittelytieteen laitos |
fi |
ethesis.faculty |
Matematisk-naturvetenskapliga fakulteten |
sv |
ethesis.faculty |
Matemaattis-luonnontieteellinen tiedekunta |
fi |
ethesis.faculty |
Faculty of Science |
en |
ethesis.faculty.URI |
http://data.hulib.helsinki.fi/id/8d59209f-6614-4edd-9744-1ebdaf1d13ca |
|
ethesis.university.URI |
http://data.hulib.helsinki.fi/id/50ae46d8-7ba9-4821-877c-c994c78b0d97 |
|
ethesis.university |
Helsingfors universitet |
sv |
ethesis.university |
University of Helsinki |
en |
ethesis.university |
Helsingin yliopisto |
fi |
dct.creator |
Tuominen, Pasi |
|
dct.issued |
2015 |
|
dct.language.ISO639-2 |
fin |
|
dct.abstract |
Tietovarannoissa esiintyy monesti useita tietueita, jotka kuvaavat samaa objektia. Tässä tutkielmassa on vertailtu näiden tietueiden löytämiseen käytettäviä menetelmiä. Kokeet on suoritettu aineistolla, jossa on 6,4 miljoonaa bibliografista tietuetta. Menetelmien vertailussa käytettiin aineistossa olevien teosten nimekkeitä. Eri menetelmien kahta keskeistä piirrettä on mitattu: löydettyjen duplikaattien lukumäärää ja niiden suhdetta muodostettujen kandidaattien lukumäärään.
Kahden menetelmän yhdistelmä osoittautui parhaaksi aineiston deduplikointiin. Järjestetyllä naapurustolla löytyi eniten varsinaisia duplikaatteja, mutta myös eniten irrelevantteja kandidaatteja. Suffiksitauluryhmittelyn avulla löytyi lisäksi joukko duplikaatteja joita muilla menetelmillä ei löytynyt. Yhdessä nämä kaksi menetelmää löysivät lähes kaikki duplikaatit mitä kaikki tutkielmassa verratut menetelmät löysivät. Levenshtein-etäisyyteen perustuvat virhesietoiset menetelmät osoittautuivat tehottomiksi nimekkeiden deduplikoinnissa. |
fi |
dct.language |
fi |
|
ethesis.language.URI |
http://data.hulib.helsinki.fi/id/languages/fin |
|
ethesis.language |
Finnish |
en |
ethesis.language |
suomi |
fi |
ethesis.language |
finska |
sv |
ethesis.thesistype |
pro gradu-avhandlingar |
sv |
ethesis.thesistype |
pro gradu -tutkielmat |
fi |
ethesis.thesistype |
master's thesis |
en |
ethesis.thesistype.URI |
http://data.hulib.helsinki.fi/id/thesistypes/mastersthesis |
|
dct.identifier.urn |
URN:NBN:fi-fe2017112252215 |
|
dc.type.dcmitype |
Text |
|