|
University of Helsinki, Helsinki 2006 Indexing Heterogeneous XML for Full-Text SearchMiro LehtonenDoctoral dissertation, November 2006. XML on yleistynyt tekstidokumenttien formaattina monessa ympäristössä. Erityisesti konsernitason dokumenttienhallinta perustuu juuri XML:ään, mutta myös kotikoneilla ja WWW-ympäristössä XML on yleinen tallennusmuoto sekä tekstille että datalle. Dokumenttien määrän voimakas kasva korostaa indeksointi- ja hakumenetelmien tärkeyttä, koska dokumenttien sisältämä tietomäärä ei ole hallittavissa ilman tiedonhakujärjestelmää. Keskitymme siis XML-muodossa tallennetun sisällön indeksointiin tekstihakua varten. Dokumenttiformaattina XML ei mitenkään rajoita itse tallennetun sisällön laatua, vaan XML-dokumenteista löytää kaikkea mahdollista tietokoneiden raakadatasta kaunokirjalliseen proosaan. Siksi on tärkeää tunnistaa sisällön laatu ennen sen indeksointia. Yksi menetelmä datan erottamiseen tekstistä on XML-dokumenttien sisäisen rakenteen analysointi: data vaatii tiukasti säännöllisen ja määrämuotoisen rakenteen, kun taas tekstidokumenttien XML-rakenteessa on paljon vaihtelua. Kun datan jättää indeksoimatta, saavutetaan n. 5-6% pienempi indeksi sekä tarkemmat hakutulokset. XML-dokumenteilla on myös muita ominaisuuksia, joita ei aikaisemmin ole hyödynnetty tekstin indeksointimenetelmissä. Sisältö, jota kirjoittaja haluaa korostaa esim. toisella kirjasintyypillä, on erikseen merkitty XML-koodiin. Korostettu sisältö on siten helppo paikallistaa. Antamalla sille enemmän painoarvoa indeksissä kuin korostamattomalle sisällölle, saadaan hakutuloksia ohjattua parempaan suuntaan. Sama vaikutus on otsikkojen, kuvatekstien ja viitteiden analysoinnilla ja painotuksella. Alustavien testitulosten mukaan esitetyt indeksointimenetelmät auttavat relevantin tiedon löytämisessä XML-dokumenteista. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. © University of Helsinki 2006 Last updated 27.10.2006 |