Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Author "Tahvanainen, Matti"

Sort by: Order: Results:

  • Tahvanainen, Matti (2018)
    Yritysten päätöksenteko pohjautuu liiketoimintaa kuvaavaan aineistoon. Tätä aineistoa kerätään merkittäviä määriä ja se voi olla hajautettuna useaan eri järjestelmään, jotka eivät välttämättä ole yhteensopivia. Aineistoa voidaan kerätä tietovarastoihin (engl. data warehouse). Tietovarastot ovat suunniteltu säilömään valtavia määriä dataa, sekä muodostamaan automaattisesti erilaisia päätöksentekoa auttavia laskentoja, esimerkiksi automaattisia tuotteiden myyntiennusteita. Kun aineisto on kirjoitettu tietovarastoon, on mahdollista, että tietovarastoa käyttävä yritys näkee koko heidän liiketoimintaa kuvaavan aineiston ensimmäistä kertaa yhdessä järjestelmässä. Tämän aineiston tarkistus ja läpikäynti on tietovarastohankkeiden aikaavievin prosessi. Aineiston tarkistamis- ja läpikäymisprosessia kutsutaan usein datan validoinniksi (engl. data validation). Tutkielma tehdään yritykselle, jonka päätuote on tietovarasto. Tutkielmassa toteutetaan datan validointia nopeuttava työkalu, joka etsii erilaisten validointisääntöjen avulla virheitä tietovarastoa käyttävän tahon liiketoimintaa kuvaavasta datasta. Datavirheellä tarkoitetaan esimerkiksi kirjoitusvirhettä tuotekoodissa. Työkalun kehitys aloitetaan tutustumalla aiheeseen liittyvään tutkimukseen, sekä keräämällä tietoa datan validointiin liittyvistä säännöistä ja käytänteistä case-yrityksessä työskenteleviltä asiantuntijoilta. Työkalun vaatimusmäärittely muodostetaan asiantuntijahaastattelujen, sekä löydetyn aineiston pohjalta. Työkalun pääasiallisena tarkoituksena on nopeuttaa tietovarastohankkeissa tapahtuvaa datan validointia. Nopeuttaminen tapahtuu automatisoimalla jokaisessa hankkeessa tapahtuvia datan validointiin liittyviä vaiheita tai sääntöjä. Tutkielmassa tehtiin useita datan laatuun liittyviä havaintoja. Yritykset ja muut tahot keräävät huomattavasti dataa mallintaakseen omaa toimintaansa, jotta he pystyvät tekemään dataan perustuvia päätöksiä. Datan laatua on vaikeaa seurata, koska sitä kertyy lyhyessä ajassa merkittäviä määriä. Aiemmat tutkimukset osoittavat yritysten ja muiden tahojen menettävän huomattavia rahasummia datan heikon laadun seurauksena [31, 9]. Tämän tutkielman tulokset tukevat aiempia tutkimuksia. Tässä tutkielmassa kehitetty työkalu on löytänyt kaikista asiakkaille tehdyistä tietovarastoasennuksista datavirheitä tai -puutteita. Muut havainnot liittyvät ongelman ratkaisun teknisiin haasteisiin. Aiempaa aiheeseen liittyvää tutkimusta on jo vuosikymmenten takaa [18, 24], mutta varsinaista kattavaa automaattista ratkaisua ongelmaan ei ole. Kaupallisia datan laatua korjaavia ohjelmia on kymmeniä ellei satoja. Jokainen ohjelma lähestyy ongelmaa hieman eri tavalla. Tekninen yhteensopivuus tietovaraston, sekä irrallisen kaupallisen laadunvalvontaohjelman kanssa on vaikeaa muodostaa, sillä tietovarastot ovat usein suunniteltuja ratkaisemaan jotain rajattua ongelmaa. Erilaisia datan laatuun liittyviä sääntöjä on tuhansia ja suuri osa säännöistä on sidottuja datan sisältöön, joka tekee automatisoinnista haastavaa. Tämä tutkielma osoittaa datan laadun olevan merkittävä ongelma tietovarastohankkeissa. Tutkielmassa muodostettiin määrittely, jonka pohjalta toteutettiin käytännön työkalu, joka etsii datavirheitä tietovarastosta. Toteutettu määrittely ja työkalu todettiin toimivaksi case-yrityksen tarpeisiin. ACM Computing Classification System (CCS): Information systems → Information storage systems Information systems → Information systems applications Software and its engineering→ Software creation and management