Helposti kohti Big Dataa

Sakke Huhtala Analytiikka, Hadoop, SAS, Visual Analytics

Helppoja etenemispolkuja kohti Big Dataa on tarjolla useita, niin Microsoftilla, SAS:lla, IBM:llä kuin Amazonillakin. Tekisi mieli sanoa mikä näistä itseäni eniten viehättää, mutta kaikilla näillä on kuitenkin hyviä ominaisuuksia. Liiketoimintatarve ja kokonaisarkkitehtuuri ovat tekijöitä, jotka määrittelevät tapauskohtaisen valinnan.

Tällä kertaa päädyin kulkemaan yhtä polkua pitkin metsän läpi, sekä kirjoittamaan joistain oikopoluista ja esteistä joita voi ilmaantua matkan varrelle.

SAS:n pitkät perinteet tukea liiketoiminnan kehittämistä analytiikan ja teknologian avulla, ovat antaneet turvallisen selkänojan pitkäikäisten ratkaisujen valitsemiseen. Visual Analytics (VA) tarjoaa turvallisen polun kohti Big Dataa ja sen suomia mahdollisuuksia.

Visual Analytics – helposti kohti Big Dataa

VA:n taustalla pyörii analytic server, joka on suunniteltu hajautettuun muistinvaraiseen laskentaan. Testiemme perusteella alusta skaalautuu varsin lineaarisesti ja ympäristöä voi kasvattaa täyttämään minkä tahansa tarpeen mitä Suomesta löytyy. Testien yhteydessä tosin ilmeni, että 7.1 versiossa uutena ominaisuutena tullut pakkaustoiminto voisi toimia paremminkin. Normaalisti SAS:n isot pakatut tiedostot toimivat nopeammin levyltä luettuina kuin pakkaamattomat. Käytettäessä VA:n muistinvaraista taulua pakkaaminen kuitenkin hidasti oleellisesti taulun lukua. Ensimmäiseksi pakkaus puretaan ja sen jälkeen suoritetaan. Purkaminen vaatii sekä vapaata muistia että CPU:ta, joten vasteaika piteni oleellisesti. Muistinvaraisten taulujen osalta pakkauksen hyödyntäminen rajoittuukin tällä hetkellä lähinnä tiedon ‘historiointiin’ muistissa. Ja tokihan pakkausta voi hyödyntää HDFS:ssä.

Muistinvaraisen tiedonkäsittelyn lisäksi VA:n sisältää hadoop distributed file system (HDFS). Data hajautetaan hadoopin mukaisesti levyille. Lukeminen toimii nopeammin kun tieto on hajautettu useamman levyvarren päähän. Asennusoletuksena on tiedon tallennus kahteen kopioon, joka riittänee jo normaaliin hyvään palvelutasoon vikasietokyvyn osalta.

Muistinvaraista datan käsittelyä voidaan tehdä VA:n omilla visuaalisilla työvälineillä. Itse pidän enemmän kirjastoviitteiden ja proc:ien kanssa työskentelystä, mm. imstat on toimiva muistinvaraisen tiedon käsittelyyn.

Kaiken kaikkiaan VA:lla pystyy vähentämään hadoop syväosaamisen tarvetta, koska tarjolla on mm. visuaalinen käyttöliittymä hadoop dataan (suosituksena data loader for hadoop).

Tips and tricks

VA:n raportoinnin perustoiminnallisuudet riittävät pitkälle, mutta kun raja tulee vastaan, niin globaalit muuttujat vievät vielä monta askelta pidemmällä. Globaaleita muuttujia voidaan käyttää mikäli haluat valintalistan, jossa haku toimii sanan osalla tai haluat valita hierarkiasta ylätason mutta näyttää seuraavan tason.

Kumulatiivinen laskenta on mahdollista aikamuuttujalle. Mikäli haluat laskennan jollekin muulle, kannattaa dummy aikamuuttuja tehdä valmiiksi dataan.

Lopuksi mitä, kuka, koska – nyt myös missä

Tiedon visualisoinnissa pidän VA:n vahvuutena tiedon esitystä kartoilla. Toteutus on helppoa ja monipuolista. Pitkälle pääsee jo normaaleilla valikoilla ja liukusäätimillä. Mikäli creative common lisensointi soveltuu, niin OpenStreetMap kartat ovat laadukkaita ja tarkkoja. Valmiiksi geokoodattua avointa dataa löytyy jo kattavasti, tosin PK-seutupainotteisesti.

Kun karttojen perusmahdollisuudet on käytetty loppuun, joka tuskin tapahtuu kovin nopeasti, voi seuraavaksi askeleeksi ottaa verkosto-optimoinnin. Proc optnet optimoi lyhimmän/nopeimman/edullisimman reitin mökille kun matkalla pitää käydä ostamassa pelastusliivit, viinipullon, grillihiilet ja makkarat.

Hyvää Kesää toivottaa Avarea!

 

Blogi-postauksetUutisia analytiikastaLue lisää osaamisestamme!Lue lisää palveluistamme!