Browsing by Subject "koneoppiminen"

Now showing items 21-31 of 31

New methods to interpret reasons for insolvency : comparing classical logistic regression with machine learning algorithms

Saada, Adam (2018)

Logistic regression has been the most common credit scoring model for several decades. The purpose of a credit scoring model is to distinguish good applicants from bad applicants so that the consumer credit can be lent to a person who is likely to repay it. In Finland, households' indebtedness has increased while wage development has stagnated. In addition to mortgage, indebtedness has increased because of the rising number of consumer credit loans. Consumer credit is usually unsecured loans, which are provided by several financial institutions quickly and flexible. Consumer credit is considered to be one of the major causes of default. Systematic risks are still being avoided for now, but the increased number of customers and the fierce competition in the sector can bring new risks that should be anticipated, as insolvent customers are making losses to financial institutions. Developing and deploying new credit scoring models is one of the best ways to hedge against default risks. The prediction accuracy and performance of tree-based credit scoring models have been studied. In many cases, tree-based algorithms have performed better than traditional statistical models such as the earlier mentioned logistic regression. In this master's thesis classical logistic regression is compared to these tree-based algorithms. The most well-known tree-based algorithms have been chosen, which are random forest, discrete Adaboost, real Adaboost, LogitBoost, Gentle Adaboost and Gradient Boosting. These methods use the tree algorithm as the base learner but differ in their iterative processes. The data that has been gathered from a Finnish medium-sized financial company, consists of customer's personal information and their payment behavior of sales finance. It is important to compare how different models predict insolvency in the light of different test statistics. In this thesis, the best-performing models are logistic regression and the Gradient Boosting algorithm. From my research's point of view, it is recommended to develop a credit scoring model based on the Gradient Boosting algorithm. This algorithm discloses different explanatory variables compared to logistic regression. These variables can explain better the causes of insolvency. The results are robust and plausible, because the different tests give similar conclusions.
Puhelinlaitteen käyttöiän mallintaminen ja ennustaminen Satunnainen metsä -algoritmilla

Kämäräinen, Emma (2018)

Tässä työssä aiheena oleva mobiilipuhelimien käyttöiän mallintaminen ja ennustaminen on osa teleoperaattori DNA Oyj:n laitemallia. Laitemalliin kuuluu asiakkaan seuraavan puhelinlaitteen ostoajanhetken, hinnan ja valmistajan ennustaminen. Ostoajanhetken arviointi on olennainen tieto yrityksille, jotka myyvät mobiililaitteita, sillä sen avulla voidaan ajoittaa laitesuositteluja sekä tehdä asiakkaalle ajankohtaisia toimenpiteitä. Käyttöiän mallintamista varten haettiin aineisto DNA Oyj:n tietokannasta, jota jatkojalostettiin mallinnukseen sopivaksi. Aineistoa kertyy koko ajan lisää, jonka takia mallinnuksessa käytetty aineisto muuttuu jopa päivittäin. Laitemallia ajetaan DNA Oyj:n tuotantoympäristössä ja sen tulokset ovat operatiivisessa käytössä. Tutkielmani alussa esittelen mallinnuksessa käytettävän satunnainen metsä-algoritmin, joka on päätöspuiden kokoelmaan perustuva menetelmä. Ensin kerron hieman algoritmin historiasta ja sen teoreettisesta taustasta. Algoritmin toiminnan ymmärtämiseksi esittelen myös muita koneoppimisen menetelmiä, jotka ovat oleellinen osa algoritmia. Satunnainen metsä- menetelmässä on monia hyviä ominaisuuksia, joita täsmennän teoriaosuuden yhteydessä. Menetelmän suorituksen yhteydessä voidaan esimerkiksi laskea selittäville muuttujille niiden tärkeys mallinnuksessa. Algoritmin teorian esittelyn jälkeen määrittelen vielä muutamia metriikoita, joita käytän mallinnusvaiheessa tulosten analysoinnissa ja validoinnissa. Seuraavaksi kuvailen työssä käytetyn aineiston. Aineiston hakuja tehtiin kaksi, joista toinen on mallin koulutusaineistoa varten ja toinen on aineisto, jolle lopulliset ennusteet muodostetaan. Aineistoissa on paljon muuttujia, joten esittelen ne kahdessa osassa. Ensin kerron laitteeseen liittyvät ominaisuudet ja sen jälkeen asiakkaaseen liittyvät tiedot. Laitteiden ostopäivätiedoista saatiin selville mallinnuksen selitettävä muuttuja, puhelimen käyttöaika, joka luokiteltiin kolmen kuukauden tarkkuudella. Ostopäivän lisäksi puhelinlaitteesta on tiedossa monenlaisia teknisiä ominaisuuksia, muun muassa laitteen käyttöjärjestelmä sekä 4G- kyvykkyys. Asiakkaan tiedoista mallinnuksessa käytettiin demografisia tietoja, kuten sukupuolta ja ikää. Lisäksi hyödynnettiin asiakkaan ilmoittaman osoitetiedon perustella määriteltyä laajakaistasaatavuutta ja mobiilidatan käyttöön liittyviä muuttujia. Aineiston esittelyn jälkeen kerron varsinaisesta mallinnuksesta. Mallinnuksen yhteydessä tutkin eri parametrien vaikutusta ennustetuloksiin. Optimaalisten parametrien avulla luotiin luokkaennusteet mobiililaitteiden käyttöiälle. Eräs satunnainen metsä- algoritmin ominaisuus liittyy siihen, että menetelmän suorituksen yhteydessä pystytään arvioimaan sen tuottamia tuloksia aineistolle, jota menetelmä ei ole käyttänyt kyseisellä suorituskerralla mallin rakentamiseen. Arviointiin käytettiin luokittelumenetelmiin sopivia metriikoita, joiden perusteella algoritmi ennustaa onnistuneesti suuren osan aineistosta. Parametrien määrittämisen ja mallin kouluttamisen jälkeen muodostettiin luokat ennusteaineistolle. Lopullisten ennusteiden paikkansapitävyyttä ei voida arvioida, ennen kuin asiakas ostaa uuden puhelimen. Joissakin tapauksissa vaihtoon voi mennä useampi vuosi. Päätän opinnäytetyöni arvioimalla menetelmän toimivuutta ja pohtimalla laitevaihdon taustalla olevia muuttujia. Vaikka työssä oli käytössä rikas aineisto, puhelinvaihdon luultavasti yleisintä syytä eli laitteen vikatilannetta ei ollut saatavilla työn tekohetkellä. Laitevaihdon syihin perustuvan aineiston lisääminen parantaisi mallinnuksen tuloksia entisestään. Lopussa pohdin myös tuotannossa ajettavan, päivittäin muuttuvan mallinnuksen haasteita. Eräs mallinnuksen tuloksiin vaikuttava tekijä on muuttumattomat parametrit, jotka aineiston muuttuessa eivät välttämättä tuota enää parhaita ennustetuloksia. Laitemallia aiotaan kehittää entistä paremmaksi DNA Oyj:llä.
Puiden kuolleisuuden seuraaminen monivuotisten kaukokartoitusaineistojen avulla

Kinnunen, Aleksi (2021)

Trees face an increasing variety of health threats. The overall effects of climate change on trees and forests are difficult to predict. As a result of the warming climate, the growing season is lengthening, improving the growth of the trees, but at the same time drought and insect damages may become more common and the risk of storm damage increases. There are many benefits to monitoring tree mortality. It can be used to assess the health status of forests, productivity, carbon sequestration and the ecological impacts of dead trees on forest ecosystems. Causes leading to tree death can include biological, climatic or human related factors. Monitoring can increase understanding of the causes of death and potentially help to protect forests better. Tree-related mortality is a spatially and temporally irregular process that is difficult to monitor using traditional inventory methods. Remote sensing makes it possible to map and monitor tree mortality more effectively. The purpose of this thesis was to find out how remote sensing data can be utilized in monitoring tree mortality. The aim was to find out how tree mortality has varied regionally and quantitatively in the Central Park of Helsinki and how accurately dead trees can be identified from aerial imagery. The study period was 2005–2019, during which orthophotos of seven different years were examined. Reference data of 14 212 trees were collected from the aerial time series covering a 15-year period by visual image interpretation. The data included healthy, weakened and dead trees. Heatmap time series were created from the locations of weakened and dead trees to examine quantitative and regional variability in mortality. The average temperatures over the years as well as the rainfall were compared with the dead tree numbers and the correlations between the observations were examined. The collected reference data was also utilized in health status classifications, which were implemented using semi-automatic machine learning methods. The object of the classifications was to identify healthy, weakened and dead trees as well as possible from each other. The canopies of individual trees were delimited by canopy segments obtained from laser scanning data. From the pixels contained in the delimited canopies, image features describing individual trees were calculated. Considerable changes in tree mortality were observed. The number of dead trees at the beginning of the study period increased significantly from year 2005 to year 2009. An exceptionally dry summer in 2006 was identified as a possible reason. In the following years, the situation remained moderate, but in quantitative and regional terms, mortality was at its highest in 2017. Overall, there was an upward trend in mortality during the study period, and average annual temperatures were found correlating strongly with the number of dead trees (r=0.73). The classification accuracies of tree health status varied annually between 89–96%. The seven-year average accuracy was 93.6% with a kappa value of 0.88. The most important features in the classification were the features calculated from the blue channel, such as the maximum value of the channel (B_max), the difference between the maximum and minimum of the channel (B_range) and the skewness of the distribution (B_skew). The results of the thesis showed that tree mortality can be monitored using remote sensing data. Clear changes in the number of dead trees were observed using the time series and possible causes were identified. By identifying the causes behind rising mortality, the effects of climate change can also be better understood. Tree health status classification accuracies were at a good level and dead trees can be mapped from aerial imagery by semi-automatic methods. Based on the thesis, it can be rightly stated that changes in tree mortality can be observed with aerial imagery time series. In addition, the semi-automatic identification of dead trees from aerial imagery can be said to be accurate enough for large-scale use.
Puiden kuolleisuuden seuraaminen monivuotisten kaukokartoitusaineistojen avulla

Kinnunen, Aleksi (2021)

Trees face an increasing variety of health threats. The overall effects of climate change on trees and forests are difficult to predict. As a result of the warming climate, the growing season is lengthening, improving the growth of the trees, but at the same time drought and insect damages may become more common and the risk of storm damage increases. There are many benefits to monitoring tree mortality. It can be used to assess the health status of forests, productivity, carbon sequestration and the ecological impacts of dead trees on forest ecosystems. Causes leading to tree death can include biological, climatic or human related factors. Monitoring can increase understanding of the causes of death and potentially help to protect forests better. Tree-related mortality is a spatially and temporally irregular process that is difficult to monitor using traditional inventory methods. Remote sensing makes it possible to map and monitor tree mortality more effectively. The purpose of this thesis was to find out how remote sensing data can be utilized in monitoring tree mortality. The aim was to find out how tree mortality has varied regionally and quantitatively in the Central Park of Helsinki and how accurately dead trees can be identified from aerial imagery. The study period was 2005–2019, during which orthophotos of seven different years were examined. Reference data of 14 212 trees were collected from the aerial time series covering a 15-year period by visual image interpretation. The data included healthy, weakened and dead trees. Heatmap time series were created from the locations of weakened and dead trees to examine quantitative and regional variability in mortality. The average temperatures over the years as well as the rainfall were compared with the dead tree numbers and the correlations between the observations were examined. The collected reference data was also utilized in health status classifications, which were implemented using semi-automatic machine learning methods. The object of the classifications was to identify healthy, weakened and dead trees as well as possible from each other. The canopies of individual trees were delimited by canopy segments obtained from laser scanning data. From the pixels contained in the delimited canopies, image features describing individual trees were calculated. Considerable changes in tree mortality were observed. The number of dead trees at the beginning of the study period increased significantly from year 2005 to year 2009. An exceptionally dry summer in 2006 was identified as a possible reason. In the following years, the situation remained moderate, but in quantitative and regional terms, mortality was at its highest in 2017. Overall, there was an upward trend in mortality during the study period, and average annual temperatures were found correlating strongly with the number of dead trees (r=0.73). The classification accuracies of tree health status varied annually between 89–96%. The seven-year average accuracy was 93.6% with a kappa value of 0.88. The most important features in the classification were the features calculated from the blue channel, such as the maximum value of the channel (B_max), the difference between the maximum and minimum of the channel (B_range) and the skewness of the distribution (B_skew). The results of the thesis showed that tree mortality can be monitored using remote sensing data. Clear changes in the number of dead trees were observed using the time series and possible causes were identified. By identifying the causes behind rising mortality, the effects of climate change can also be better understood. Tree health status classification accuracies were at a good level and dead trees can be mapped from aerial imagery by semi-automatic methods. Based on the thesis, it can be rightly stated that changes in tree mortality can be observed with aerial imagery time series. In addition, the semi-automatic identification of dead trees from aerial imagery can be said to be accurate enough for large-scale use.
Syrjivyyden tunnistettavuus luonnollisia henkilöitä koskevan algoritmisen päätöksenteon yhteydessä

Lehtioksa, Jere (2022)

Tutkielmassa analysoin algoritmisen päätöksenteon mahdollisesti sisältävän piilevän syrjivyyden tunnistamisen haasteita päätöksenteon kohteena olevan henkilön näkökulmasta tarkasteltuna. Tutkielmassa arvioin sitä, millä tavoin algoritmisessa päätöksenteossa hyödynnettävissä koneoppimiseen perustuvissa tekoälyjärjestelmissä voi ilmetä syrjivyyttä. Tutkimuksen keskeinen kysymys on se, onko läpinäkyvyyden ja avoimuuden kautta ylipäänsä mahdollista luoda riittävä ymmärrys syrjivyydestä päätöksenteon kohteena olevalle henkilölle, jotta tämän olisi mahdollista reagoida asiaan. Tutkielmassa käytetään useita eri oikeustieteellisessä tutkimuksessa sovellettavia metodologioita, joista keskeisin on tietosuojaoikeuden ja hallinto-oikeuden osa-alueiden systematisointiin perustuva lainopillinen menetelmä. Tutkielma sisältää myös analyyttisen oikeustieteen menetelmän mukaista tutkimusta. Tutkielma sisältää elementtejä myös oikeus- ja yhteiskuntatieteellisestä tutkimuksesta, sillä tutkielmassa analysoidaan oikeutta sen yhteiskunnallisessa kontekstissa. Tutkielman olennainen havainto on se, että algoritmisen päätöksenteon syrjivyys voi saada alkunsa eri tavoin päätöksenteossa: kyseeseen saattaa tulla yhteiskunnassa vallitsevien epäkohtien tahaton hyödyntäminen tekoälyjärjestelmissä tai tarkoituksellinen toiminta, jossa päätöksenteossa hyödynnetään sellaisia valintoja, jotka johtavat syrjintään. Tästä seuraa, että syrjivyyden tunnistamista tulee lähestyä tapauskohtaisesti. Ongelmallisemmaksi muodostuu korrelaatiosuhteisiin perustuvan päätöksenteon luoma niin sanottu piilevä syrjintä, jota ei käytännössä ole mahdollista tunnistaa järjestelmän mustan laatikon sisältä. Tällöin hallinnon algoritmisen päätöksenteon syrjivyyden tunnistamista koskevan keskustelun osalta erityishuomion tulisi kiinnittyä tällaisten päätöksentekojärjestelmien riskien asianmukaiseen hallintaan.
Syrjivyyden tunnistettavuus luonnollisia henkilöitä koskevan algoritmisen päätöksenteon yhteydessä

Lehtioksa, Jere (2022)

Tutkielmassa analysoin algoritmisen päätöksenteon mahdollisesti sisältävän piilevän syrjivyyden tunnistamisen haasteita päätöksenteon kohteena olevan henkilön näkökulmasta tarkasteltuna. Tutkielmassa arvioin sitä, millä tavoin algoritmisessa päätöksenteossa hyödynnettävissä koneoppimiseen perustuvissa tekoälyjärjestelmissä voi ilmetä syrjivyyttä. Tutkimuksen keskeinen kysymys on se, onko läpinäkyvyyden ja avoimuuden kautta ylipäänsä mahdollista luoda riittävä ymmärrys syrjivyydestä päätöksenteon kohteena olevalle henkilölle, jotta tämän olisi mahdollista reagoida asiaan. Tutkielmassa käytetään useita eri oikeustieteellisessä tutkimuksessa sovellettavia metodologioita, joista keskeisin on tietosuojaoikeuden ja hallinto-oikeuden osa-alueiden systematisointiin perustuva lainopillinen menetelmä. Tutkielma sisältää myös analyyttisen oikeustieteen menetelmän mukaista tutkimusta. Tutkielma sisältää elementtejä myös oikeus- ja yhteiskuntatieteellisestä tutkimuksesta, sillä tutkielmassa analysoidaan oikeutta sen yhteiskunnallisessa kontekstissa. Tutkielman olennainen havainto on se, että algoritmisen päätöksenteon syrjivyys voi saada alkunsa eri tavoin päätöksenteossa: kyseeseen saattaa tulla yhteiskunnassa vallitsevien epäkohtien tahaton hyödyntäminen tekoälyjärjestelmissä tai tarkoituksellinen toiminta, jossa päätöksenteossa hyödynnetään sellaisia valintoja, jotka johtavat syrjintään. Tästä seuraa, että syrjivyyden tunnistamista tulee lähestyä tapauskohtaisesti. Ongelmallisemmaksi muodostuu korrelaatiosuhteisiin perustuvan päätöksenteon luoma niin sanottu piilevä syrjintä, jota ei käytännössä ole mahdollista tunnistaa järjestelmän mustan laatikon sisältä. Tällöin hallinnon algoritmisen päätöksenteon syrjivyyden tunnistamista koskevan keskustelun osalta erityishuomion tulisi kiinnittyä tällaisten päätöksentekojärjestelmien riskien asianmukaiseen hallintaan.
Syyttömyysolettamasta ”syyllisyysolettamaan” ja epäilyksen kulttuuriin : potentiaalisia rikoksentekijöitä ennustavat predictive policing -algoritmit

Söderholm, Sofia (2020)

Tutkielma käsittelee rikollisuuden ennustamiseen kehitettyjä predictive policing -algoritmeja ja arvioi algoritmin ennustuksen perusteella potentiaaliseksi rikoksentekijäksi luokitellun henkilön asemaa Suomen voimassaolevan lainsäädännön valossa. Predictive policing -menetelmien voidaan katsoa olevan osa 2000-luvulla lisääntynyttä ihmisten valvontaa, jota perustellaan tarpeella torjua terrorismia ja vakavaa rikollisuutta. Koska tutkielma koskee hypoteettista tilannetta, on tutkimuksessa nojauduttu tähän ilmiöön liittyvään massavalvontaa koskevaan keskusteluun sekä matkustajarekisteritietojen käyttöä koskevaan lainsäädäntöön, jonka voi katsoa olevan osa tätä ilmiötä. Predictive policing -menetelmät ovat yksinkertaistaen poliisin käyttämiä tietokoneohjelmistoja, joiden algoritmit analysoivat valtavia datamassoja rikollisuutta koskevan ennustuksen tuottamiseksi. Predictive policing on tarkoitettu poliisin työkaluksi, jonka perusteella poliisi voi kohdentaa resurssejaan ennustuksen ehdottamalla tavalla. Predictive policing -menetelmiä on erilaisia, mutta yleensä käsitteellä viitataan tulevien rikosten tapahtumapaikkojen ja -aikojen tai potentiaalisten rikoksentekijöiden ennustamiseen. Potentiaalisella rikoksentekijällä tarkoitetaan henkilöä, joka algoritmin arvion mukaan todennäköisesti osallistuu rikolliseen toimintaan tulevaisuudessa. Predictive policing -menetelmät toimivat hyödyntämällä big dataa, tiedon louhintaa sekä koneoppivia algoritmeja. Niihin on liitetty algoritmisia järjestelmiä koskevia oikeusturvahuolia, jotka liittyvät predictive policing -algoritmien syrjivyyteen ja epätarkkuuteen, läpinäkymättömyyteen sekä teknologian aiheuttamaan automaatioharhaan. On olennaista muistaa, että predictive policing -menetelmien tuottamat ennustukset ovat todellisuudessa algoritmin tuottamia tilastollisia todennäköisyyksiä, jotka perustuvat menneisiin tapahtumiin. Tutkielma on metodiltaan lainopillinen ja lähestyy potentiaalisen rikoksentekijän asemaa kahden tutkimuskysymyksen kautta. Ensimmäisen tutkimuskysymyksen tarkoitus on selvittää potentiaalisen rikoksentekijän asema poliisin toimintaa koskevassa voimassaolevassa lainsäädännössä kysymällä: Voidaanko potentiaalista rikoksentekijää pitää rikoksesta epäiltynä poliisilain ja esitutkintalain systematiikassa? Tämän kysymyksen osalta tutkielma tarkastelee nykylainsäädännön systematiikan soveltuvuutta potentiaalisen rikoksentekijän asemaan, jossa tämä on määritelty jollain tavalla epäilyttäväksi, mutta havaintoa hänen tekemästään rikoksesta ei ole. Toinen tutkimuskysymys jatkaa potentiaalisen rikoksentekijän aseman arviointia tähän kohdistuvaa epäilyä koskevalla teemalla kysymällä: Vaarantaisiko predictive policing -menetelmien käyttö potentiaalisen rikoksentekijän syyttömyysolettaman? Perinteisesti syyttömyysolettaman on katsottu kuuluvan rikosprosessissa epäillyn oikeusturvatakeisiin ja se määrittää, kuinka epäiltyä ja syytettyä tulee kohdella rikosprosessissa. Toinen tutkimuskysymys kuitenkin perehtyy tämän oikeusturvatakeen soveltumiseen potentiaalisen rikoksentekijän asemaan ja mahdolliseen ulottuvuuteen ennen rikosprosessin alkamista. Tutkielman keskeinen havainto on, että Suomen nykyinen poliisilain ja esitutkintalain systematiikka, joka rakentuu epäillyn ja ei-epäillyn väliseen rajanvetoon, ei ole ajantasainen arvioitaessa potentiaalisen rikoksentekijän asemaa. Jotta potentiaalista rikoksentekijää voitaisiin pitää rikoksesta epäiltynä olisi ensin oltava vireillä esitutkinta, johon vasta sitten liitetään rikoksesta epäilty. Ottaen huomioon predictive policing -menetelmän luonteen poliisin työkaluna, koko menetelmän käyttö olisi turhaa, jos poliisi ei tekisi saamallaan ennustuksella mitään. Yhtäältä tämä voisi johtaa siihen, että poliisi pyrkisi paljastamaan potentiaalisen rikoksentekijän mahdollisesti tekemän rikoksen tai muuten kohdistaisi tarkennettua valvontaa tähän yksilöön odottaen mahdollisen rikoksen tapahtumista. Potentiaalinen rikoksentekijä joutuisi siten epämääräiseen asemaan, jossa hän ei olisi oikeutettu esitutkinnan oikeusturvatakeisiin, mutta saattaisi silti joutua poliisin toimien kohteeksi. Syyttömyysolettamaa koskevan arvioinnin osalta päädyttiin tutkielmassa samaan lopputulokseen. Syyttömyysolettama ei suojaa potentiaalista rikoksentekijää poliisin epäillyiltä ja niitä mahdollisesti seuraavilta toimilta, koska syyttömyysolettama ei ulotu aikaan ennen kuin poliisilla on havainto rikokseksi epäillystä teosta. Oikeuskirjallisuudessa on kuitenkin esitetty kannanottoja syyttömyysolettaman laajentumisesta poliisitoiminnan muutoksen myötä. Tutkielman lopuksi tuodaankin esille ehdotuksia lainsäädännön kehittämiseksi, mikäli Suomessa otettaisiin käyttöön potentiaalisia rikoksentekijöitä ennustavia predictive policing -algoritmeja.
Syyttömyysolettamasta ”syyllisyysolettamaan” ja epäilyksen kulttuuriin – potentiaalisia rikoksentekijöitä ennustavat predictive policing -algoritmit

Söderholm, Sofia (2020)

Tutkielma käsittelee rikollisuuden ennustamiseen kehitettyjä predictive policing -algoritmeja ja arvioi algoritmin ennustuksen perusteella potentiaaliseksi rikoksentekijäksi luokitellun henkilön asemaa Suomen voimassaolevan lainsäädännön valossa. Predictive policing -menetelmien voidaan katsoa olevan osa 2000-luvulla lisääntynyttä ihmisten valvontaa, jota perustellaan tarpeella torjua terrorismia ja vakavaa rikollisuutta. Koska tutkielma koskee hypoteettista tilannetta, on tutkimuksessa nojauduttu tähän ilmiöön liittyvään massavalvontaa koskevaan keskusteluun sekä matkustajarekisteritietojen käyttöä koskevaan lainsäädäntöön, jonka voi katsoa olevan osa tätä ilmiötä. Predictive policing -menetelmät ovat yksinkertaistaen poliisin käyttämiä tietokoneohjelmistoja, joiden algoritmit analysoivat valtavia datamassoja rikollisuutta koskevan ennustuksen tuottamiseksi. Predictive policing on tarkoitettu poliisin työkaluksi, jonka perusteella poliisi voi kohdentaa resurssejaan ennustuksen ehdottamalla tavalla. Predictive policing -menetelmiä on erilaisia, mutta yleensä käsitteellä viitataan tulevien rikosten tapahtumapaikkojen ja -aikojen tai potentiaalisten rikoksentekijöiden ennustamiseen. Potentiaalisella rikoksentekijällä tarkoitetaan henkilöä, joka algoritmin arvion mukaan todennäköisesti osallistuu rikolliseen toimintaan tulevaisuudessa. Predictive policing -menetelmät toimivat hyödyntämällä big dataa, tiedon louhintaa sekä koneoppivia algoritmeja. Niihin on liitetty algoritmisia järjestelmiä koskevia oikeusturvahuolia, jotka liittyvät predictive policing -algoritmien syrjivyyteen ja epätarkkuuteen, läpinäkymättömyyteen sekä teknologian aiheuttamaan automaatioharhaan. On olennaista muistaa, että predictive policing -menetelmien tuottamat ennustukset ovat todellisuudessa algoritmin tuottamia tilastollisia todennäköisyyksiä, jotka perustuvat menneisiin tapahtumiin. Tutkielma on metodiltaan lainopillinen ja lähestyy potentiaalisen rikoksentekijän asemaa kahden tutkimuskysymyksen kautta. Ensimmäisen tutkimuskysymyksen tarkoitus on selvittää potentiaalisen rikoksentekijän asema poliisin toimintaa koskevassa voimassaolevassa lainsäädännössä kysymällä: Voidaanko potentiaalista rikoksentekijää pitää rikoksesta epäiltynä poliisilain ja esitutkintalain systematiikassa? Tämän kysymyksen osalta tutkielma tarkastelee nykylainsäädännön systematiikan soveltuvuutta potentiaalisen rikoksentekijän asemaan, jossa tämä on määritelty jollain tavalla epäilyttäväksi, mutta havaintoa hänen tekemästään rikoksesta ei ole. Toinen tutkimuskysymys jatkaa potentiaalisen rikoksentekijän aseman arviointia tähän kohdistuvaa epäilyä koskevalla teemalla kysymällä: Vaarantaisiko predictive policing -menetelmien käyttö potentiaalisen rikoksentekijän syyttömyysolettaman? Perinteisesti syyttömyysolettaman on katsottu kuuluvan rikosprosessissa epäillyn oikeusturvatakeisiin ja se määrittää, kuinka epäiltyä ja syytettyä tulee kohdella rikosprosessissa. Toinen tutkimuskysymys kuitenkin perehtyy tämän oikeusturvatakeen soveltumiseen potentiaalisen rikoksentekijän asemaan ja mahdolliseen ulottuvuuteen ennen rikosprosessin alkamista. Tutkielman keskeinen havainto on, että Suomen nykyinen poliisilain ja esitutkintalain systematiikka, joka rakentuu epäillyn ja ei-epäillyn väliseen rajanvetoon, ei ole ajantasainen arvioitaessa potentiaalisen rikoksentekijän asemaa. Jotta potentiaalista rikoksentekijää voitaisiin pitää rikoksesta epäiltynä olisi ensin oltava vireillä esitutkinta, johon vasta sitten liitetään rikoksesta epäilty. Ottaen huomioon predictive policing -menetelmän luonteen poliisin työkaluna, koko menetelmän käyttö olisi turhaa, jos poliisi ei tekisi saamallaan ennustuksella mitään. Yhtäältä tämä voisi johtaa siihen, että poliisi pyrkisi paljastamaan potentiaalisen rikoksentekijän mahdollisesti tekemän rikoksen tai muuten kohdistaisi tarkennettua valvontaa tähän yksilöön odottaen mahdollisen rikoksen tapahtumista. Potentiaalinen rikoksentekijä joutuisi siten epämääräiseen asemaan, jossa hän ei olisi oikeutettu esitutkinnan oikeusturvatakeisiin, mutta saattaisi silti joutua poliisin toimien kohteeksi. Syyttömyysolettamaa koskevan arvioinnin osalta päädyttiin tutkielmassa samaan lopputulokseen. Syyttömyysolettama ei suojaa potentiaalista rikoksentekijää poliisin epäillyiltä ja niitä mahdollisesti seuraavilta toimilta, koska syyttömyysolettama ei ulotu aikaan ennen kuin poliisilla on havainto rikokseksi epäillystä teosta. Oikeuskirjallisuudessa on kuitenkin esitetty kannanottoja syyttömyysolettaman laajentumisesta poliisitoiminnan muutoksen myötä. Tutkielman lopuksi tuodaankin esille ehdotuksia lainsäädännön kehittämiseksi, mikäli Suomessa otettaisiin käyttöön potentiaalisia rikoksentekijöitä ennustavia predictive policing -algoritmeja.
Tekoälyn etiikka : eettinen kognitio, algoritmit ja syrjintä

Berg, Anton (2019)
Tekoälysovellukset teknisissä kommunikoinnin apuvälineissä : Käytettävyyden arviointi logopedisesta näkökulmasta

Virkkilä, Kristiina (2022)

Tavoitteet. Puhevammaiset henkilöt muodostavat heterogeenisen ryhmän ihmisiä, joilla on yksilöllisiä kykyjä ja tarpeita. Yksilöllisesti sopivaa apuvälinettä ei ole aina saatavilla vastaamaan kommunikoinnin tarpeita, ja apuvälineen käyttöön voi liittyä hitautta ja turhautumisen tunnetta. Tekoälyteknologian levittäytyminen terveydenhuollon palveluihin on ollut käynnissä jo useita vuosia, ja sen hyödyntämistä on tutkittu myös teknisissä kommunikoinnin apuvälineissä. Apuvälineiden kehitystyössä tarvitaan moniammatillista yhteistyötä, jotta apuvälineet voisivat onnistuneesti siirtyä kliiniseen käyttöön, näyttöön perustuvan toiminnan periaatteiden mukaisesti. Tämän tutkielman tarkoituksena oli tutkia, millaisia koneoppimista tai syväoppimista hyödyntäviä teknisiä kommunikoinnin apuvälineitä on tutkittu, ja miten näissä apuvälineissä huomioitiin käytettävyyden näkökulma. Lisäksi tutkittiin, millä tavalla moniammatillisuus ilmeni tutkimusta tehneissä tutkimusryhmissä. Menetelmät. Tutkielman menetelmänä käytettiin integroivaa kirjallisuuskatsausta, ja tiedonhaku suoritettiin Scopus ja OVID Medline -tietokannoissa. Hakutuloksien otsikossa, tiivistelmässä tai avainsanoissa esiintyi niin kommunikoinnin apuvälineisiin, tekoälyn osa-alueista koneoppimiseen ja syväoppimiseen, sekä apuvälineiden käytettävyyteen liittyviä hakutermejä. Tutkimusaineisto koostui viidestä vertaisarvioidusta artikkelista vuosilta 2019–2022, ja ne esittelivät kehitteillä olevia teknisiä kommunikoinnin apuvälineitä tai kokeellisessa vaiheessa olevia apuvälinekonsepteja. Tulokset ja johtopäätökset. Tutkielmassa tarkasteltiin viittä kokeellisessa vaiheessa olevaa teknistä kommunikoinnin apuvälinettä tai apuvälinekonseptia. Näissä apuvälineissä koneoppimista, syväoppimista tai siirto-oppimista hyödynnettiin tulkitsemaan apuvälineen käyttäjän tuottamaa syötettä kommunikointitarkoituksessa. Apuvälineiden käytettävyyttä arvioitiin kuuden käytettävyysperiaatteen näkökulmasta. Käytettävyys huomioitiin suurimmassa osassa tutkimuksia kohtalaisesti. Tutkittujen apuvälineiden taustalla oli yhtä tutkimusta lukuun ottamatta insinöörivetoinen tutkimusryhmä, jolloin moniammatillinen yhteistyö ei toteutunut. Jatkotutkimusaiheeksi tunnistettiin apuvälinetekniikan moniammatillisen kehitysyhteistyön mahdollistavien tekijöiden kartoittaminen, jotta kehittyvän teknologian tarjoamat mahdollisuudet voidaan saada yhä laajemmin apuvälinetekniikan käyttöön.
Tupakointitiedon kerääminen big datasta koneoppimisen avulla

Nordström, Jonas (2022)

Lähtökohdat Maailmalla on osoitettu, että koneoppiminen on oiva työkalu tiedonhakuun suurista aineistoista. Se voi vähentää inhimillistä työtaakkaa ja mahdollistaa suuren aineiston analysoinnin. Yhdistettynä luonnollisen kielen prosessoinnin (NLP) tekniikoihin voidaan hyödyntää strukturoimaton data potilasasiakirjoista. Halusimme tutkimuksessamme osoittaa koneoppimisen toimivuuden suomalaisessa aineistossa. Menetelmät Haimme leikkauspotilaiden tupakointilauseita potilasasiakirjoista tietyillä hakusanoilla HUS tietoaltaasta. Pieni otos lauseista luokiteltiin tupakointistatuksen mukaan koneoppimismallin opetukseen ja testaamiseen. Opetusdatan ja koneoppimisalgoritmin avulla rakennettiin luokittelija, joka luokitteli loput lauseet eri ryhmiin tupakointistatuksen mukaisesti. Tulokset Luokittelijan tarkkuudeksi saatiin 85.8 %. Etenkin tupakoimattomia pystyttiin mallin avulla poimimaan lauseista kiitettävällä tarkkuudella. Myös tupakoitsijoiden ja entisten tupakoitsijoiden F-arvot olivat hyvällä tasolla. Ryhmistä matalin F-arvo oli ei tiedossa oleva tupakointistatus -ryhmällä. Päätelmät Tulokset osoittavat, että koneoppimismalli soveltuu tiedonhakuun suuresta tekstiaineistosta. Sitä tullaan jatkossa käyttämään tutkimustyökaluna.

Now showing items 21-31 of 31

Browsing by Subject "koneoppiminen"

Yhteystiedot

HELSINGIN YLIOPISTO