Bibliografisten tietueiden deduplikointi : kandidaattien valintamenetelmät

Bibliografisten tietueiden deduplikointi : kandidaattien valintamenetelmät

dc.date.accessioned	2015-05-25T11:30:28Z	und
dc.date.accessioned	2017-10-24T12:23:58Z
dc.date.available	2015-05-25T11:30:28Z	und
dc.date.available	2017-10-24T12:23:58Z
dc.date.issued	2015-05-25T11:30:28Z
dc.identifier.uri	http://radr.hulib.helsinki.fi/handle/10138.1/4734	und
dc.identifier.uri	http://hdl.handle.net/10138.1/4734
dc.title	Bibliografisten tietueiden deduplikointi : kandidaattien valintamenetelmät	fi
ethesis.discipline	Computer science	en
ethesis.discipline	Tietojenkäsittelytiede	fi
ethesis.discipline	Datavetenskap	sv
ethesis.discipline.URI	http://data.hulib.helsinki.fi/id/1dcabbeb-f422-4eec-aaff-bb11d7501348
ethesis.department.URI	http://data.hulib.helsinki.fi/id/225405e8-3362-4197-a7fd-6e7b79e52d14
ethesis.department	Institutionen för datavetenskap	sv
ethesis.department	Department of Computer Science	en
ethesis.department	Tietojenkäsittelytieteen laitos	fi
ethesis.faculty	Matematisk-naturvetenskapliga fakulteten	sv
ethesis.faculty	Matemaattis-luonnontieteellinen tiedekunta	fi
ethesis.faculty	Faculty of Science	en
ethesis.faculty.URI	http://data.hulib.helsinki.fi/id/8d59209f-6614-4edd-9744-1ebdaf1d13ca
ethesis.university.URI	http://data.hulib.helsinki.fi/id/50ae46d8-7ba9-4821-877c-c994c78b0d97
ethesis.university	Helsingfors universitet	sv
ethesis.university	University of Helsinki	en
ethesis.university	Helsingin yliopisto	fi
dct.creator	Tuominen, Pasi
dct.issued	2015
dct.language.ISO639-2	fin
dct.abstract	Tietovarannoissa esiintyy monesti useita tietueita, jotka kuvaavat samaa objektia. Tässä tutkielmassa on vertailtu näiden tietueiden löytämiseen käytettäviä menetelmiä. Kokeet on suoritettu aineistolla, jossa on 6,4 miljoonaa bibliografista tietuetta. Menetelmien vertailussa käytettiin aineistossa olevien teosten nimekkeitä. Eri menetelmien kahta keskeistä piirrettä on mitattu: löydettyjen duplikaattien lukumäärää ja niiden suhdetta muodostettujen kandidaattien lukumäärään. Kahden menetelmän yhdistelmä osoittautui parhaaksi aineiston deduplikointiin. Järjestetyllä naapurustolla löytyi eniten varsinaisia duplikaatteja, mutta myös eniten irrelevantteja kandidaatteja. Suffiksitauluryhmittelyn avulla löytyi lisäksi joukko duplikaatteja joita muilla menetelmillä ei löytynyt. Yhdessä nämä kaksi menetelmää löysivät lähes kaikki duplikaatit mitä kaikki tutkielmassa verratut menetelmät löysivät. Levenshtein-etäisyyteen perustuvat virhesietoiset menetelmät osoittautuivat tehottomiksi nimekkeiden deduplikoinnissa.	fi
dct.language	fi
ethesis.language.URI	http://data.hulib.helsinki.fi/id/languages/fin
ethesis.language	Finnish	en
ethesis.language	suomi	fi
ethesis.language	finska	sv
ethesis.thesistype	pro gradu-avhandlingar	sv
ethesis.thesistype	pro gradu -tutkielmat	fi
ethesis.thesistype	master's thesis	en
ethesis.thesistype.URI	http://data.hulib.helsinki.fi/id/thesistypes/mastersthesis
dct.identifier.urn	URN:NBN:fi-fe2017112252215
dc.type.dcmitype	Text

Files in this item

Files	Size	Format	View
gradu-2015-02-19.pdf	494.2Kb	PDF

This item appears in the following Collection(s)

Faculty of Science [4254]

Show simple item record

Bibliografisten tietueiden deduplikointi : kandidaattien valintamenetelmät

Files in this item

This item appears in the following Collection(s)

Yhteystiedot

HELSINGIN YLIOPISTO