Skip to main content
Login | Suomeksi | På svenska | In English

Hajautetun tietovaraston kyselynoptimointi

Show full item record

Title: Hajautetun tietovaraston kyselynoptimointi
Author(s): Hirvonen, Anna
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Discipline: Computer science
Language: Finnish
Acceptance year: 2014
Abstract:
Suurten tietomäärien käsittely peräkkäisessä tietovarastossa on tehotonta, minkä seurauksena käyttäjän kyselyiden vasteajat ovat kohtuuttoman pitkät. Viime vuosina markkinoille on ilmestynyt joukko massiivisesti rinnakkaisia tietovarastoja, joissa kysely käsitellään rinnakkain useassa pisteessä. Hajautetuissa tietovarastoissa tiedon määrän lisääntyessä kyselyiden vasteaikojen tulisi pysyä ennallaan lisäämällä pisteiden määrää. Kyselynoptimoinnin tavoitteena on lyhentää kyselyiden vasteaikoja. Täten hajautetun tietovaraston kyselynoptimoinnissa optimoidaan kyselynkäsittelyn lisäksi tietovaraston skaalautuvuutta. Kyselynoptimoinnissa minimoidaan leyoperaatioiden ja kommunikoinnin määrää. Hajautetussa tietovarastossa kyselyn käsittely on optimaalista, kun pisteet käsittelevät kyselyn relaatioiden erillisiä paloja täysin itsenäisesti. Tällöin kyselyn käsittelyssä ei esiinny kommunikoinnin eikä laskennan toistoa. Käytännössä monimutkaisten kyselyiden käsittely vaatii kuitenkin tiedon hajauttamista uudelleen kyselynkäsittelyn aikana useaan kertaan. Kommunikoinnin ja laskennan toistoa voidaan vähentää optimoimalla tietovaraston hajautuskaavioita ja kyselynkäsittelyn algoritmeja. Tietoanalyyseissa tietovarasto mallinnetaan usein tietokuutiona, jonka koosteista materialisoidaan osa kyselynkäsittelyn nopeuttamiseksi. Materialisoituvat näkymät ja hakemistot luodaan tiettyjen kyselyiden käsittelyä varten, minkä takia ne tukevat heikosti ad-hoc-kyselyitä. Materialisoituvat näkymät vaativat myös paljon tallennustilaa ja ne kallistavat huomattavasti tietovaraston päivitystä. Kaupallisissa massiivisesti rinnakkaisissa tietovarastoissa, kuten Redshiftissä ja Verticassa, tieto tallennetaankin sarakkeittain, mikä parantaa kyselynkäsittelyn suorituskykyä yleisesti. Kyseiset tietovarastot eivät käytä lainkaan materialisoituvia näkymiä. Tässä tutkielmassa tarkastellaan kyselynoptimoinnin menetelmiä hajautettuihin tietovarastoihin, jotka on toteutettu yksityislevyjärjestelminä. Akateemisista tutkimuksista ja kaupallisista järjestelmistä päätellen hajautetun relaatiopohjaisen tietovaraston suorituskyvyn kannalta tärkeimpiä optimoinnin kohteita ovat tiedon hajauttaminen ja rinnakkainen kyselynkäsittely. Täten tutkielmani pääpaino on tiedon hajauttamisen ja rinnakkaisen kyselynkäsittelyn optimoinnissa. Tietovaraston kyselyiden yleisimmistä operaatioista käsitellään liitokset ja ryhmittely. Tosiaikaisen tiedonjalostuksen menetelmistä tarkastellaan kuutiointioperaation ja tietokuution rinnakkaista laskentaa.


Files in this item

Files Size Format View
annaHirvonen.pdf 860.1Kb PDF

This item appears in the following Collection(s)

Show full item record