Tekstitietokannan hakemisto tarjoaa nopean pääsyn dokumentteihin. Mitä suuremmaksi tekstitietokanta kasvaa, sitä vaikeampi käyttäjän on löytää etsimiään dokumentteja ilman hakemistoa. Tekstitietokantojen hakemistojen tietorakenteena käytetään yleisesti käänteishakemistoa.
Käänteishakemistorakenne sopii hyvin avainsanojen tallentamiseen ja etsimiseen. Käänteishakemisto muodostuu sanastosta ja ilmentymälistoista. Sanastoon tallennetaan kaikki dokumenteissa esiintyvät yksikäsitteiset sanat ja ilmentymälistoihin sanan esiintymät dokumenteissa. Ilmentymälistoihin voidaan tallentaa lisäksi tarkempia sanan esiintymistietoja, kuten sanan sijainti ja lukumäärä dokumenteissa.
Käänteishakemistoa voidaan pakata eri tavoin. Pakkausmenetelmät jakautuvat sanaston ja ilmentymälistojen pakkauksen menetelmiin. Sanastoa voidaan pakata poistamalla täytesanat. Täytesanat ovat sanoja, jotka esiintyvät dokumenteissa useasti, mutta eivät sisällä tärkeää merkitystä. Ilmentymälistoja pakataan numerosarjojen esittämisen tiivistämismenetelmillä, joita ovat esimerkiksi unaarinen koodaus ja Golomb-koodaus.
Hakemisto voi olla staattinen tai dynaaminen. Suurin ero hakemistotyyppien välillä on, että dynaamista hakemistoa voidaan päivittää sen perustamisen jälkeen. Staattinen hakemisto perustetaan aina uudelleen, kun on tarve lisätä tai poistaa dokumentteja. Dynaamisessa hakemistossa dokumenttien lisäyksen ja poiston voi suorittaa hakemiston palvellessa hakukyselyitä.
Hakemistoon kohdistettavat hakukyselyt voivat koostua yhdestä tai useammasta sanasta tai sanayhdistelmistä. Hakukyselyn suorittamisen kestoon vaikuttavat monet tekijät kuten hakukyselyn monimutkaisuus. Hakukyselyyn vastaamista voidaan tehostaa tallentamalla valmiita hakukyselyiden vastauksia hakukoneen välimuistiin. Hakukyselyn suoritus voidaan myös katkaista ennen kuin kaikki dokumentit ovat käsitelty käyttäen apuna heuristiikkoja.
Tässä Pro gradu -tutkielmassa esitetään omia testejä käänteishakemiston kokoon ja nopeuteen vaikuttavien ominaisuuksien selvittämiseksi. Testien tulokset esitetään tutkielmassa ja niitä verrataan kirjallisuudessa esiintyneisiin tuloksiin. Hakemiston pakkauksella ja hakemistoon tallennettavan sisällön määrällä on testien mukaan vaikutusta hakemiston kokoon ja nopeuteen.