top of page
Writer's pictureKarri Kylliö

Miten voin lähestyä dataani? – Datan käsittelyn metodologiat ylhäältä alas ja alhaalta ylös

Käsittelemätön data on epämääräinen ja sekava määrä erilaista tietoa. Kun siitä halutaan tutkia esimerkiksi liiketoiminnan kehittämisen vuoksi, on sitä käsiteltävä ja analysoitava. Dataa voidaan käsitellä monin tavoin, eri metodologioilla lähestymistavan ja tarpeen mukaan. Tässä blogissa esittelemme kaksi kriittistä käsittelymallia: alhaalta ylöspäin (bottom-up) ja ylhäältä alaspäin (top-down), niihin liittyvät metodologiat sekä miten olemme yhdistäneet ne palveluissamme ja miten hyödynnämme niiden parhaat puolet asiakkaidemme hyödyksi.


kuvio luokitellusta datasta
Käsittelemätöntä dataa on vaikea hahmottaa


ADOPT -palvelumme alkuvaiheessa hahmotetaan tavoitteet ja määritellään mittari. Kun strategian ja onnistumisen kannalta tärkeät ja merkittävät aihealueet sekä niiden muutosta kuvaavat mittarit on tunnistettu, aloitetaan tarvittavien datalähteiden määrittäminen. Tällöin huomioidaan myös datan oikeellisuus sekä sen laadulliset näkökulmat. Tämän metodin huonoin tulos on, että tiedämme mitä oleellisiin tavoitteisiin pääsemiseksi tulisi mitata. Tämä voi tarkoittaa mm. sitä, että havaitaan tietyn tavoitteen vaativan sellaista dataa, jota tällä hetkellä ei ole saatavissa, esimerkiksi siksi, ettei kyseistä tietoa kerry yrityksen nykyisistä laitteista tai järjestelmistä. Mikäli datan saatavuudesta tai laadusta ei ole varmuutta, voidaan tehdä ns. Proof Of Consept (POC), jolla vahvistetaan ja koeponnistetaan datan hyödynnettävyys tai siirtyä suoraan tuotantovaiheeseen. On myös oleellista huomata, että tässä kohdin tulee miettiä myös ns. ulkoisia datalähteitä, joiden avulla oma, hieman vajavainenkin, data voidaan täydentää. Näin aikaisemmin ”mahdottomaksi” mitattavaksi suureeksi luultu data, vaikkapa sään vaikutus omaan liiketoimintaan, voi olla merkittävä lisä omaan dataan.


Datan lähestymistapa -Ylhäältä alaspäin


Tässä tavassa lähtökohtana on yleinen teoria tai hypoteesi, joka testataan ja validoidaan (vahvistetaan) dataa hyödyntäen. Yllä olevan kuvauksen mukaisesti haemme asiakkaalle oleelliset vaikuttimet hänen tarpeeseensa. On tärkeää huomioida, että vaikuttimet ovat erilaisia monesta eri tekijän takia. Esimerkiksi organisoitumisen malli voi vaikuttaa tärkeimpiin mittareihin tai strategisten tavoitteiden tuloksiin, joten on tärkeää määrittää tämä vaihe hyvin. Myös eri hypoteesit voivat vaihdella eri organisaatioissa, joskin ”busineksen lainalaisuudet” ovat samalla alalla hyvin samantapaiset, lähestymiskulma vain on uniikki.

Ylhäältä alas -lähestymistavan metodologiat ovat ohjattu oppiminen, asiantuntijajärjestelmät ja tiedonlouhinta. Keskitymme prosesseissa pääsääntöisesti tiedonlouhinnan näkökulmaan ja hyödynnämme tuloksia myöhemmin ohjatussa oppimisessa.

Lähestymistavat lyhyesti: Ohjatussa oppimisessa malleja koulutetaan etukäteen luokitellulla datalla ja niiden suorituskykyä arvioidaan testidatalla. Asiantuntijajärjestelmässä tietyn alan asiantuntijoiden tietämys muutetaan sääntöpohjaiseksi järjestelmäksi, joka voi tehdä päätöksiä ja antaa suosituksia. Tiedonlouhinnassa datan analysoinnin ja jalostamisen tavoitteena on löytää tiettyjä malleja, jotka tukevat tai kumoavat hypoteeseja.


Ylhäältä alaspäin – edut ja haitat


Lähestymistapa keskittyy teorian tai hypoteesin testaamiseen ja se voi johtaa vahvempiin ja luotettavampiin tuloksiin. Lähestymistapa hyödyntää asiantuntijatietoa ja alan ymmärrystä, mikä voi parantaa mallin relevanssia sekä käytännöllisyyttä. Koska mallit perustuvat ennakkoon määriteltyihin oletuksiin, voi lähestymistapa auttaa välttämään ylisovittumista.

Lähestymistavan heikkouksia ovat mm. sen jäykkyys ja rajoittavuus, mikä voi estää uusien ja ennalta-arvaamattomien yhteyksien löytämiseen. Se voi myös johtaa vahvistusharhoihin, sillä mallit perustuvat asiantuntijoiden tietämykseen, joka voi olla virheellistä tai vanhentunutta, joskin se on kyseisen organisaation paras tietämys. Malli on usein myös riippuvainen laadukkaasta ja luotettavasta opetus- ja testidatasta, näitä voi olla vaikea saada.



Datan lähestymistapa - Alhaalta ylöspäin


Tässä lähestymistavassa dataa käsitellään keräämällä se ensin raakadatana. Tämän jälkeen data analysoidaan ja siitä rakennetaan tietomalleja yksityiskohtiin perustuen. Tätä menetelmää käytetään usein mm. koneoppimisessa ja tilastotieteessä.

Lähestymistavan metodologiat ovat koneoppiminen, klusterointi ja aikasarja-analyysi. Koneoppimisessa luodaan ennustavia malleja datapisteiden avulla. Mallit mahdollistavat uusien havaintojen ennustamisen. Klusteroinnissa ryhmitellään yhteen samankaltaiset datapisteet, näiden avulla voidaan löytää piileviä rakenteita ja yhteyksiä. Aikasarja-analyysissa analysoidaan aikasarjadataa ja ennustetaan trendejä, kausivaihteluita sekä muita säännönmukaisuuksia.


Alhaalta ylöspäin – edut ja haitat


Alhaalta ylöspäin -lähestymistapa mahdollistaa yksityiskohtaisten tietomallien luomisen ja kehittämisen. Tämä voi johtaa tarkempiin ennusteisiin ja parempaan ymmärrykseen datan rakenteesta. Lähestymistapa voi auttaa tunnistamaan uusia, ennalta näkemättömiä kuvioita ja yhteyksiä datassa. Nämä voivat johtaa uusiin oivalluksiin ja innovaatioihin. Alhaalta ylös -lähestymistapa on myös joustava ja skaalautuva, eli se voi käsitellä suuria tietomääriä ja siten soveltua monenlaisiin tehtäviin.

Lähestymistavan heikkoutena voidaan pitää sitä, että se voi viedä paljon aikaa ja vaatii paljon laskentaresursseja, sitä enemmän, mikä isompaa tietomäärää käsitellään. Tämä lähestymistapa on usein altis ylisovittumiselle, eli malli voi toimia hyvin testi-/opetusdatan kanssa, mutta se ei välttämättä sovi uusiin ja ennalta tuntemattomien havaintojen yleistämiseen. Lähestymistavassa on riski, että järjestelmä löytää merkityksettömiä tai harhaanjohtavia yhteyksiä ja nämä voivat johtaa virheellisiin johtopäätöksiin ja päätöksentekoon.


Yhteenveto

Molemmilla esitetyillä lähestymistavoilla on omat etunsa ja haittansa. Oikean tavan valinta riippuu asiakkaan projektin tavoitteista ja vaatimuksista. Alhaalta ylöspäin -lähestymistapa keskittyy yksityiskohtaisten tietomallien luomiseen raakadatan pohjalta ja ylhäältä alaspäin -lähestymistapa perustuu teorioiden ja hypoteesien testaamiseen datan avulla.

Kun tarkoituksen on löytää uusia yhteyksiä ja kuvioita datassa, on alhaalta ylöspäin -tapa todennäköisesti toimivampi, joskin se voi olla aikaa vievää ja vaatia runsaasti resursseja. Kun halutaan saada vahvempia ja luotettavampi tuloksia testaamalla teorioita ja hypoteeseja, on ylhäältä alas -tapa oikea valinta, vaikkakin tämä tapa voi olla jäykkä ja rajoittaa uusien oivallusten syntymistä.

Lähestymistavat eivät ole toisiaan poissulkevia, vaan usein ne voidaan yhdistää parhaan mahdollisen tuloksen saavuttamiseksi, esimerkiksi yhdistämällä koneoppimista asiantuntijajärjestelmän kanssa. Toteutamme tällaista metodien yhdistämistä ADOPT -palvelussamme. Oikea lähestymistapa tai niiden yhdistelmä riippuu käsillä olevasta projektista tai ongelmasta, erilaisiin tapauksiin erilaiset yhdistelmät aina tarpeen mukaan. Olemme yhdistäneet nämä toiminnot ratkaisussamme. Tästä syystä ratkomme asiakkaillemme tärkeitä hypoteeseja ja valjastamme datan niihin tarkoituksiin. Prosessissa on myös huomioitu modulaarinen lähestyminen, jolloin kaikkea ei tarvitse tehdä kerralla, vaan hallitusti tarpeiden ja budjetin rajoitusten puitteissa.

Mitä tämä voisi tarkoittaa teidän tapauksessanne? Ole yhteydessä!

26 katselukertaa
bottom of page