Skip to main content
Login | Suomeksi | På svenska | In English

Tekstitietokantojen hakemistot

Show full item record

Title: Tekstitietokantojen hakemistot
Author(s): Himanen, Niko
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Discipline: Computer science
Language: Finnish
Acceptance year: 2012
Abstract:
Tekstitietokannan hakemisto tarjoaa nopean pääsyn dokumentteihin. Mitä suuremmaksi tekstitietokanta kasvaa, sitä vaikeampi käyttäjän on löytää etsimiään dokumentteja ilman hakemistoa. Tekstitietokantojen hakemistojen tietorakenteena käytetään yleisesti käänteishakemistoa. Käänteishakemistorakenne sopii hyvin avainsanojen tallentamiseen ja etsimiseen. Käänteishakemisto muodostuu sanastosta ja ilmentymälistoista. Sanastoon tallennetaan kaikki dokumenteissa esiintyvät yksikäsitteiset sanat ja ilmentymälistoihin sanan esiintymät dokumenteissa. Ilmentymälistoihin voidaan tallentaa lisäksi tarkempia sanan esiintymistietoja, kuten sanan sijainti ja lukumäärä dokumenteissa. Käänteishakemistoa voidaan pakata eri tavoin. Pakkausmenetelmät jakautuvat sanaston ja ilmentymälistojen pakkauksen menetelmiin. Sanastoa voidaan pakata poistamalla täytesanat. Täytesanat ovat sanoja, jotka esiintyvät dokumenteissa useasti, mutta eivät sisällä tärkeää merkitystä. Ilmentymälistoja pakataan numerosarjojen esittämisen tiivistämismenetelmillä, joita ovat esimerkiksi unaarinen koodaus ja Golomb-koodaus. Hakemisto voi olla staattinen tai dynaaminen. Suurin ero hakemistotyyppien välillä on, että dynaamista hakemistoa voidaan päivittää sen perustamisen jälkeen. Staattinen hakemisto perustetaan aina uudelleen, kun on tarve lisätä tai poistaa dokumentteja. Dynaamisessa hakemistossa dokumenttien lisäyksen ja poiston voi suorittaa hakemiston palvellessa hakukyselyitä. Hakemistoon kohdistettavat hakukyselyt voivat koostua yhdestä tai useammasta sanasta tai sanayhdistelmistä. Hakukyselyn suorittamisen kestoon vaikuttavat monet tekijät kuten hakukyselyn monimutkaisuus. Hakukyselyyn vastaamista voidaan tehostaa tallentamalla valmiita hakukyselyiden vastauksia hakukoneen välimuistiin. Hakukyselyn suoritus voidaan myös katkaista ennen kuin kaikki dokumentit ovat käsitelty käyttäen apuna heuristiikkoja. Tässä Pro gradu -tutkielmassa esitetään omia testejä käänteishakemiston kokoon ja nopeuteen vaikuttavien ominaisuuksien selvittämiseksi. Testien tulokset esitetään tutkielmassa ja niitä verrataan kirjallisuudessa esiintyneisiin tuloksiin. Hakemiston pakkauksella ja hakemistoon tallennettavan sisällön määrällä on testien mukaan vaikutusta hakemiston kokoon ja nopeuteen.


Files in this item

Files Size Format View
graduNikoHimanen.pdf 1.179Mb PDF

This item appears in the following Collection(s)

Show full item record