Skip to main content
Login | Suomeksi | På svenska | In English

Tekstitietokantojen hakemistot

Show simple item record

dc.date.accessioned 2012-11-01T08:47:32Z und
dc.date.accessioned 2017-10-24T12:23:48Z
dc.date.available 2012-11-01T08:47:32Z und
dc.date.available 2017-10-24T12:23:48Z
dc.date.issued 2012-11-01T08:47:32Z
dc.identifier.uri http://radr.hulib.helsinki.fi/handle/10138.1/2092 und
dc.identifier.uri http://hdl.handle.net/10138.1/2092
dc.title Tekstitietokantojen hakemistot fi
ethesis.discipline Computer science en
ethesis.discipline Tietojenkäsittelytiede fi
ethesis.discipline Datavetenskap sv
ethesis.discipline.URI http://data.hulib.helsinki.fi/id/1dcabbeb-f422-4eec-aaff-bb11d7501348
ethesis.department.URI http://data.hulib.helsinki.fi/id/225405e8-3362-4197-a7fd-6e7b79e52d14
ethesis.department Institutionen för datavetenskap sv
ethesis.department Department of Computer Science en
ethesis.department Tietojenkäsittelytieteen laitos fi
ethesis.faculty Matematisk-naturvetenskapliga fakulteten sv
ethesis.faculty Matemaattis-luonnontieteellinen tiedekunta fi
ethesis.faculty Faculty of Science en
ethesis.faculty.URI http://data.hulib.helsinki.fi/id/8d59209f-6614-4edd-9744-1ebdaf1d13ca
ethesis.university.URI http://data.hulib.helsinki.fi/id/50ae46d8-7ba9-4821-877c-c994c78b0d97
ethesis.university Helsingfors universitet sv
ethesis.university University of Helsinki en
ethesis.university Helsingin yliopisto fi
dct.creator Himanen, Niko
dct.issued 2012
dct.language.ISO639-2 fin
dct.abstract Tekstitietokannan hakemisto tarjoaa nopean pääsyn dokumentteihin. Mitä suuremmaksi tekstitietokanta kasvaa, sitä vaikeampi käyttäjän on löytää etsimiään dokumentteja ilman hakemistoa. Tekstitietokantojen hakemistojen tietorakenteena käytetään yleisesti käänteishakemistoa. Käänteishakemistorakenne sopii hyvin avainsanojen tallentamiseen ja etsimiseen. Käänteishakemisto muodostuu sanastosta ja ilmentymälistoista. Sanastoon tallennetaan kaikki dokumenteissa esiintyvät yksikäsitteiset sanat ja ilmentymälistoihin sanan esiintymät dokumenteissa. Ilmentymälistoihin voidaan tallentaa lisäksi tarkempia sanan esiintymistietoja, kuten sanan sijainti ja lukumäärä dokumenteissa. Käänteishakemistoa voidaan pakata eri tavoin. Pakkausmenetelmät jakautuvat sanaston ja ilmentymälistojen pakkauksen menetelmiin. Sanastoa voidaan pakata poistamalla täytesanat. Täytesanat ovat sanoja, jotka esiintyvät dokumenteissa useasti, mutta eivät sisällä tärkeää merkitystä. Ilmentymälistoja pakataan numerosarjojen esittämisen tiivistämismenetelmillä, joita ovat esimerkiksi unaarinen koodaus ja Golomb-koodaus. Hakemisto voi olla staattinen tai dynaaminen. Suurin ero hakemistotyyppien välillä on, että dynaamista hakemistoa voidaan päivittää sen perustamisen jälkeen. Staattinen hakemisto perustetaan aina uudelleen, kun on tarve lisätä tai poistaa dokumentteja. Dynaamisessa hakemistossa dokumenttien lisäyksen ja poiston voi suorittaa hakemiston palvellessa hakukyselyitä. Hakemistoon kohdistettavat hakukyselyt voivat koostua yhdestä tai useammasta sanasta tai sanayhdistelmistä. Hakukyselyn suorittamisen kestoon vaikuttavat monet tekijät kuten hakukyselyn monimutkaisuus. Hakukyselyyn vastaamista voidaan tehostaa tallentamalla valmiita hakukyselyiden vastauksia hakukoneen välimuistiin. Hakukyselyn suoritus voidaan myös katkaista ennen kuin kaikki dokumentit ovat käsitelty käyttäen apuna heuristiikkoja. Tässä Pro gradu -tutkielmassa esitetään omia testejä käänteishakemiston kokoon ja nopeuteen vaikuttavien ominaisuuksien selvittämiseksi. Testien tulokset esitetään tutkielmassa ja niitä verrataan kirjallisuudessa esiintyneisiin tuloksiin. Hakemiston pakkauksella ja hakemistoon tallennettavan sisällön määrällä on testien mukaan vaikutusta hakemiston kokoon ja nopeuteen. fi
dct.language fi
ethesis.language.URI http://data.hulib.helsinki.fi/id/languages/fin
ethesis.language Finnish en
ethesis.language suomi fi
ethesis.language finska sv
ethesis.thesistype pro gradu-avhandlingar sv
ethesis.thesistype pro gradu -tutkielmat fi
ethesis.thesistype master's thesis en
ethesis.thesistype.URI http://data.hulib.helsinki.fi/id/thesistypes/mastersthesis
dct.identifier.urn URN:NBN:fi-fe2017112251062
dc.type.dcmitype Text

Files in this item

Files Size Format View
graduNikoHimanen.pdf 1.179Mb PDF

This item appears in the following Collection(s)

Show simple item record