Katsaus data-analytiikan perusluonteeseen

Oskari Miettinen Analytiikka, Asiakasanalytiikka, Avarea, Edistyksellinen analytiikka, Mallintaminen, Matemaattinen optimointi

Yhdessä Linnunrata-galaksimme jättiläismäisistä tähtienvälisen aineen keskittymistä – Orionin molekyylipilvikompleksissa – on meneillään jotain hyvin jännittävää. Orionin kaasu- ja pölypilvien uumeniin on painovoiman ja kaasuvirtausten herkeämättömän työn tuloksena muodostunut tihentymiä, joista osa on jo luhistunut oman painonsa alla niin sanotuiksi prototähdiksi. Näistä tähtiaihioista voi ajan saatossa syntyä meille tutun Auringon kaltaisia tähtiä. Uusia tähtiä synnyttävien pilviytimien kaasun ja pölyn seos jäähtyy lähettämällä sähkömagneettisen säteilyn hiukkasia eli fotoneita ympäröivään avaruuteen. Matkattuaan noin 1400 vuotta halki avaruuden, osa noista fotoneista saavuttaa Maan, ja osuu Espanjan Pico Veletassa sijaitsevan suuren radioteleskoopin antenniin, jota olen paikan päällä operoimassa. Havaintoaikahakemuksemme tuli hyväksytyksi ja saimme kovan kilpailun alla olevaa arvokasta teleskooppiaikaa. Jatko-opiskelijana minut lähetettiin tekemään kyseiset havainnot. Pari päivää kestäneiden havaintojen päätyttyä kopioin kerätyn havaintodatan DVD-levyille, pakkaan kimpsuni ja suuntaan takaisin kohti koti-Suomea ja Helsingin yliopiston tähtitieteen laitosta. Aloitan datan redusoinnilla, joka käsittää muun muassa datan puhdistamista, muokkausta, erilaisten kalibraatioiden tekemistä, sekä signaali/kohina -suhteen parantamista. Lopulta saan datan sellaiseen muotoon, että sillä voidaan tehdä tiedettä. Yllä mainitut fotonit, jotka lähtivät Orionista 1400 vuotta sitten, toivat mukanaan informaatiota tutkittujen tähtien syntyalueiden fysikaalisista ominaisuuksista ja kemiallisista olosuhteista. Data-analytiikkaa ja fysiikan lakeja soveltaen laskemme sellaisia asioita kuin tähtialkioiden massa, tiheys, lämpötila ja kaasun nopeushajonta – kaikki hyvin oleellisia parametreja tähtien syntyprosessin ymmärtämisen kannalta. Kun analyysin tulokset ja niiden visuaalinen esitys erilaisilla kuvaajilla ovat valmiina, alamme tulkita omia tuloksiamme ja vertailla niitä muiden tutkimusryhmien saamien tulosten kanssa. Tämä kaikki kasataan yhteen ja onnistutaan julkaisemaan alan johtaviin kuuluvassa kansainvälisessä vertaisarvioidussa lehdessä. Osallistun myös alan konferensseihin, joissa käyn esittelemässä uusia tuloksiamme ja vaihtamassa ajatuksia kollegojen kanssa. Opimme taas hieman uutta siitä, miten tähdet syntyvät ja miten tämä oikea todellinen maailma ihan oikeasti toimii.

Yllä oli minun, ex-tähtitieteilijän kuvaus siitä, miten data-analytiikkaa hyödynnetään erilaisten asioiden ja ilmiöiden tutkimisessa, aina datan keruusta lopputuloksiin asti. Mutta miten on data-analytiikan laita taivaallisia ilmiöitä arkisemmissa asioissa?

Mikä ihmeen data-analytiikka?

Mielestäni silloin tällöin on hyvä palata perusasioiden äärelle. Data-analytiikka ei ole tästä poikkeus, vaan paremminkin erinomainen esimerkki. Käsi ylös, kuinka moni osaisi lyhyesti selittää mitä sanat “data” ja “data-analytiikka” oikeastaan tarkoittavat? Joskus saatetaan ajatella, että data itsessään on yhtä kuin tieto. Jälkimmäinen on kuitenkin jotain paljon enemmän – hyvin perusteltu tosi uskomus, kuten tietoteoreetikko sanoisi. Asiaa voi hahmottaa niin, että data kantaa mukanaan informaatiota jostain asiasta tai ilmiöstä, ja kyseinen informaatio voidaan jalostaa tiedoksi, joka voi lopulta päätyä vaikkapa oppikirjojen sivuille asti. Sitä, miten datan ja informaation välisestä symbioosista sitten tuotetaan tuota tietoa, voidaan kutsua data-analytiikaksi.

 Data-analytiikkaa harjoitetaan hyvin monilla eri aloilla, joskin hyvin eri mittakaavoissa ja eri merkityksissä. Koska itselläni on melko pitkä tausta tähtitieteen tutkijana ennen siirtymistäni analyytikoksi Avarealle, uskallan väittää, että kovat luonnontieteet, kuten fysiikka, ovat mitä parhain esikuva data-analytiikasta ja sen eri sovelluksista. Toisaalta dataa, ja nimenomaan sen analysointia, on alettu valjastamaan hyötykäyttöön myös yritysmaailmassa, eritoten päätöksenteon tukipilarina. Itse asiassa, oman kokemukseni mukaan sellaiset muotikäsitteet kuten big data ja koneoppiminen, jotka eivät kuulu data-analytiikan alkeiden piiriin, tuntuvat tulevan eteen erityisesti yritysten datan hyödyntämiseen liittyvässä keskustelussa.

Data-analytiikkaprosessin eri vaiheet

Jos yritämme hahmottaa data-analytiikkaprosessin tyypillisiä vaiheita, alussa ei ollut suota, kuokkaa, eikä edes Jussia, vaan jokin kysymys (tai kysymyksiä) johon haluamme vastauksen, tai ongelma johon haluamme ratkaisun. Tämä kysymyksen alkuasettelu avaa ovet seuraaviin kysymyksiin: mitä dataa tarvitaan, ja mistä sitä saadaan?

Kuten varmasti moni muukin, olen joutunut useammin kuin kerran toteamaan, että suunnitellun analyysin onnistuminen edellyttää riittävän paljon riittävän hyvää dataa. Se, mitä riittävän paljolla ja riittävän hyvällä tarkoitetaan, on täysin tapauskohtaista. Esimerkiksi joissain tähtitieteen tutkimusprojekteissani on ollut tilanne, missä yksikin datapiste, joka sekin on voinut olla pelkkä tylsältä kalskahtava yläraja jollekin suureelle, on mahdollistanut tutkimuksen alla olevan kohteen syvemmän analyysin. Oman kokemukseni pohjalta voin myös allekirjoittaa sen, että datan keräystä kannattaa suunnitella huolella etukäteen, ettei myöhemmin analyysiä tehdessä huomaa, että sitä ja sitäkin dataa olisi tarvittu työn loppuun saattamiseksi. Tilannetta voi verrata vaikkapa talon rakentamiseen, missä pohjapiirustus on aika tärkeässä roolissa. Toisaalta vaikkapa yrityksen sisäisten datalähteiden (esim. tietokannat) lisäksi voi joskus olla mahdollista hyödyntää ulkoisiakin datalähteitä, jolloin analytiikkaprojekti voi saada aivan uusia ulottuvuuksia – ehkä sellaisia, jotka osoittautuvat arvokkaiksi yrityksen liiketoiminnan kannalta.

Valitettava tosiasia on, että tarkasteltava data on usein [lue: ‘aina’] epätäydellistä. Data-aineistoissa, joiden kanssa olen itse ollut tekemisissä, on ollut esimerkiksi puuttuvia arvoja tai jotenkin korruptoituneita arvoja. Syitä huonoon dataan voi olla monia, kuten laiskasti täytetty kyselylomake tai viallisen mittalaitteen aiheuttamat systemaattiset virheet. Lisäksi eri datat voivat olla eri formaatissa, joka voi vaikeuttaa aineistojen yhdistämistä. Niin tai näin, huonolla datalla on kaikki mahdollisuudet aiheuttaa analyytikolle harmaita hiuksia. Datan putsaus ja muokkaaminen ovatkin itse asiassa data-analytiikan keskeisimpiä työvaiheita. Hommassa on myös oltava huolellinen ja rehellinen, sillä esimerkiksi tuntemattomat arvot voivat myös olla hyödyllisiä ja kertoa omaa viestiänsä tutkittavasta asiasta tai ilmiöstä. Itse olen esimerkiksi joutunut miettimään miksi tutkimani kaukainen galaksi on hävinnyt näkyvistä jollain tietyllä havaintotaajuudella. Voisin myös alkaa ihmetellä, jos kyselytutkimuksen johonkin tiettyyn kysymykseen olisi toistuvasti jätetty vastaamatta. Mielestäni perusidea on kuitenkin sama, oltiin sitten tieteellisen, teknisen, tai liiketoiminnallisen kysymyksen äärellä: datasta halutaan suodattaa se oleellinen informaatio, eli kaivaa signaali kohinan seasta. Tässä yhteydessä haluaisin kuitenkin muistuttaa vanhasta sanonnasta “toisen roska voi olla toisen aarre”, koska se mikä on jonkin analyysiprojektin roskadataa, voi hyvinkin olla haluttua tavaraa jossain toisessa asiayhteydessä. Toinen mielenkiintoinen asia, jota ehkä data-analytiikan kohdalla tulee harvemmin mietittyä, mutta joka erityisesti tähtitieteessä on keskeistä, on ns. “cherry picking”. Jos keskitytään vain parasta A-luokkaa olevaan dataan, ja jätetään vähemmän hyvät aineistot tarkastelun ulkopuolelle, voi analytiikan lopputuloksissa olla suurtakin vinoumaa. Yleisesti ottaen dataotoksen valinta ei saisi systemaattisesti suosia jotain tiettyä lopputulosta. Jos hieman kärjistän, miltä esimerkiksi kuulostaisi teettää mielipidetutkimus siitä, kumpi on parempi, Microsoft vai Apple, ja suorittaa kysely Kalifornian Cupertinossa (missä myös Applen pääkonttori sijaitsee)?

Yksi hyvin tyypillinen data-analytiikan työvaihe, johon olen urallani tämän tästä törmännyt, on tilastollinen analyysi. Olen monesti ollut kiinnostunut siitä, miten jokin asia tai ilmiö käyttäytyy keskimäärin, ja luonnehtinut asiaa laskemalla sille erilaisia tilastollisia tunnuslukuja, kuten keskiarvo ja mediaani (vieläkö näiden määritelmät muistuvat mieleen?). Joskus tämä on myös ainoa järkevä lähestymistapa, sillä reaalimaailman ilmiöt lukemattomine muuttujineen voivat olla niin monimutkaisia, että vain karkeistettu tilastollinen tarkastelu on mahdollista. Tai kuten teoreettinen fyysikko voisi asian ilmaista, “oletetaan pyöreä lehmä”.

Muita tyypillisiä eteeni tulleita data-analyysin tehtäviä ovat aineistojen luokittelu ja ryhmittely, eri muuttujien välisten riippuvuuksien tutkiminen, sekä erilaiset optimointitehtävät. Jälkimmäiseen kategoriaan kuuluu esimerkiksi vanha kunnon kaupparatsun ongelma, eli mikä on lyhin mahdollinen reitti, jota pitkin voidaan kulkea haluttujen kohteiden kautta ja palata takaisin lähtöpisteeseen. Jos vaikka pitäisi kiertää vain kymmenen eri kohdetta, eri reittivaihtoehtoja olisi huikeat noin 3.6 miljoonaa kappaletta. Ei muuta kuin kokeilemaan!

Silloin tällöin olen myös joutunut mallintamaan havaittua tai mitattua dataa. Esimerkiksi yrityksen liiketoimintaa tarkasteltaessa voidaan tehdä ennustavaa mallinnusta, eli halutaan kvantitatiivisesti arvioida sitä, miten jokin asia tulee käyttäytymään (lähi-)tulevaisuudessa. Näissä jonkinlaisena nyrkkisääntönä voisi Occamin partaveitsi -periaatteen innoittamana pitää sitä, että mallin tulee olla mahdollisimman yksinkertainen, mutta silti mielekäs. Mieleeni juolahtaa myös brittiläisen tilastotieteilijä George Boxin lentävä lause, jonka mukaan “kaikki mallit ovat vääriä, mutta jotkut ovat hyödyllisiä”.

Kun data-analyysini, joskus kivisessäkin tiessä, pääsen siihen pisteeseen, että tulokset ovat valmiina, alan seuraavaksi miettiä tulosten esittämiseen liittyviä seikkoja. Erityisesti tulosten graafisen esittämisen eli visualisoinnin tärkeyttä ei voi olla liikaa korostamatta. Oli kyseessä sitten tieteellinen julkaisu, konferenssiesitelmä, tai raportointi johtoportaaseen, data-analyysin tulokset jäävät helposti merkityksettömiksi, jos niiden tuloksia ei onnistuta esittämään selkeästi ja oikeaoppisesti. Jälkimmäisellä viittaan asioihin kuin kuvaajan koordinaatiston valinta ja akselien skaalaus, en niinkään yhden oikean tuloksen esittämistavan olemassa oloon. Toisaalta tähän sisältyy myös asian vaikeus, sillä aina itselleni ei ole ollut suinkaan selvää, kuinka tulokset olisi hyvä esittää. Mielestäni yhtä ääripäätä edustaa mainonta, missä tuloksia esitetään tietoisesti sellaisessa muodossa, että katsojalle muodostuu haluttu mielikuva. Voidaan esimerkiksi esittää myytävään tuotteeseen liittyvät luvut diagrammin kirkkaan punaisilla pylväillä, ja laittaa kilpailevat tuotteet sopivasti vaalean harmaalla, tuskin taustasta erottuvalla värillä. Kumpaan katseesi kohdistuu ensin?

Kun analyysin tulokset ja niiden visualisoinnit ovat olleet käsillä, olen siirtynyt mielestäni kiinnostavimpaan vaiheeseen – tulosten tulkintaan. Tämä on tietysti kaiken luonnontieteen keskiössä, mutta luo mielenkiintoisia näköaloja myös muilla aloilla, kuten bisnesmaailmassa. Ihan ilman data-analytiikkaakin voidaan ihmetellä sitä, mitä esimerkiksi yritystoiminnassa tapahtui, kun homma meni pieleen. Data-analytiikka sen sijaan mahdollistaa luotettavan käsiksi pääsyn asioiden todellisiin syihin, ja voimme kääntää nokan kohti tulevaa, eli mitä yritystoiminnassa jatkossa tapahtuu. Tätä voi taas peilata siihen, mitä toivotaan tapahtuvan ja mitä toimenpiteitä vaaditaan, jotta toive toteutuisi. Data-analytiikka auttaa siis saavuttamaan oikean ymmärryksen ja voi johtaa uusiin oivalluksiin. Datan analysoimisesta voi tulla jopa bisneksen silmät, tai kynttilän valo sille joka pimeydessä vaeltaa. Hyvin usein tulosten tulkintavaiheessa olen joutunut palauttamaan mieleeni datan keräykseen liittyviä seikkoja. Erityisen tärkeää on mielestäni puntaroida sitä, “kärsiikö” käytetty data jonkinlaisista valintaefekteistä (vrt. yllä mainittu Microsoft vs. Apple -esimerkki). Nähtiinkö lopputuloksissa vain sitä mitä edes periaatteessa voitiin nähdä? Mitä missattiin? Tarkasteltaessa vain jäävuoren näkyvää osaa, ei ole yllätys, jos lopputuloksissa nähdään pelkkä huippu, pinnan alla olevan todellisuuden jäädessä pimentoon.

Data-analytiikka – se toimii!

Data-analytiikan tuloksilla voi olla yritykselle todella suurta merkitystä, eikä siihen välttämättä tarvitse liittyä mitään big dataa tai muita hienouksia. Tätä valaisee amerikkalaisen tähtitieteilijä Edwin Hubblen vuonna 1929 julkaisema tutkimus, jossa hän vertaili vain muutamalle kymmenelle galaksille mitattuja säteisnopeuksia niiden Maasta mitattuun etäisyyteen. Näiden suureiden väliltä löytyi positiivinen riippuvuus, jota Hubble mallinsi vetämällä nousevan suoran pistejoukon läpi. Ja voilà, tämän Hubblen lakina tunnetun tuloksen viestiä voi mielestäni pitää suhteellisen merkittävänä: maailmankaikkeus laajenee. Entä yritystoimintasi, laajeneeko se?

Kuten olen päässyt käytännössä toteamaan, tiedettä harjoitetaan sen vuoksi, että se toimii, ja ilman sitä meillä ei olisi oikeastaan mitään hajua yhtään mistään. Toden totta, tieteen mahdollistamat lentokoneet lentävät, lääkkeet pelastavat ihmishenkiä, ja tietokone, jolla kirjoitan näitä sanoja, on sekin yksinomaan tieteen ansiota. Toisin päin, jos tiede ei toimisi, kukaan ei välittäisi siitä pätkääkään, vaan se hylättäisiin kuin eilisen päivän lehti. Nämä samat seikat pätevät myös data-analytiikkaan.

Blogi-postauksetUutisia analytiikasta

Lue lisää osaamisestamme!Lue lisää palveluistamme!