SAS Global Forum 2015 osa 2 – ETL on kuollut, eläköön tietojenkäsittely?

Jari Putula Pilvipalvelut

Tällä alalla ei aika käy pitkäksi. Joissain ammateissa tullaan ensin kisälleiksi ja sitten parhaat pikkuhiljaa mestareiksi pitkällisen koulutuksen ja käytännön tekemisen kautta. Niin myös tällä alalla. Mutta jos haluaa pysyä aallon harjalla uusien ismien, teknologioiden, substanssialueiden ja välineiden osaamisessa, tulee työntekemisen ohella todella jaksata seurata oman aihealueensa – ja sitä sivuavien osa-alueiden – uusia virtoja ja tuulia hyvinkin ahkerasti. Jos viettäisi vuoden autiolla saarella ilman internetyhteyttä, olisi se ennen kaikkea mukavaa vaihtelua (riippuen tietenkin saaren muista tarjoomista), mutta ammatillisesti haastavaa tuon vuoden jälkeen; mitä kaikkea kivaa olisikaan taas keksitty ja uusia termejä viljelty.

Tätä ei pidä ymmärtää siten että jo opittu olisi turhaa tai että se olisi edes vanhentunutta eikä siten että päätä ei pitäisi välillä kunnolla tuulettaa. Koko it –maailman konteksti laajenee ja monimutkaistuu koko ajan, mutta suurimman osan alalla työskentelevien perustekeminen muuttuu vain hyvin hitaasti. Vaikka esim. pilvipalveluiden ja Hadoop –pyrskäyksestä siinneiden oheisteknologioiden räjähdysmäinen laadullinen ja määrällinen kasvu vaikuttaa hämmentävältä – ja ne ovat jo muuttaneetkin pysyvästi tekemistä – eivät ne hävitä mihinkään perusammattilaisen osaamista tai arvoa. Toki oma kaupallinen arvo pitää pyrkiä säilyttämään markkinoilla ja siksi ei em. asiakokonaisuuksilta kannata silmiään ummistaa. Arkkitehdeiltä vaaditaan toki jo hyvääkin ymmärrystä uusimmista vaatimuksista ja mahdollisuuksista eikä siinä mielessä perinteisiä tietovarastoja, BI ja hybridialustoja voida enää rakentaa pelkästään esim. vaikkapa muutaman vuoden takaisen tietämyksen nojalla.

Innokkaimmat olivat Hadoop –teknologialiitännäisten raivotessa tietä yritysten järjestelmäarkkitehtuureihin jo julistamassa ETL –paradigman kuolleeksi. Data vain ladataan Hadoopin syövereihin ilman sen suurempia mussutuksia ja sitten sitä luetaan sieltä näppärästi hienoihin raportointimoduuleihin ja valmista tuli. Ei ihan niin. Kyllä edelleen tarvitaan tiedon siivoamista, eheyttä, tietomalleja, aggregointeja, liitostamista ja jopa tietovarastoja. Riippuen tietenkin täysin mitä ollaan tekemässä. Mutta totta on että uutta ajattelua vaaditaan myös ETL – tai data integraatio – ajatteluun. Siltä osa-alueelta tässä murrosvaiheessa (milloin ei ole murrosvaihetta?) odotankin uusia innovaatiota. ETL –termiä haastetaan usein – ja hyvä niin – mutta datan lukemisen, muokkaamisen, jalostamisen ja tallettamisen tarpeet eivät ole näillä näkymin häviämässä. Ne vain muuttavat muotoaan.

SAS Global Forumissa hainkin mielenkiinnolla miten Hadoop –hypetyksen jälkihöyryissä (nyt se ei ole enää hypetystä vaan lähenee mainstreamia) uusien välineiden ja arkkitehtuurien vallatessa vanhoja rakennelmia tullaan data integraatioon liittyvät tekemiset ratkaisemaan. Eikä tässä kuvassa pidä myöskään unohtaa pilvipalveluiden roolia (esim. AWS).

Poimin seminaarissa olleista esityksistä viisi tämän blogin teemoihin sopivaa kirjoitusta.

1. Introduction to SAS® Data Loader: The Power of Data Transformation in Hadoop

http://support.sas.com/resources/papers/proceedings15/SAS1845-2015.pdf

Jos Hadoopin alkuaikoina piti olla valmiina kirjoittamaan kompleksista Java –koodia saadakseen Map-Reduce konseptin oletustoiminnallisuutta muokattua, niin nyt vastaavia asioita tehdään jo graafisilla käyttöliittymillä ilman koodauksia.

2. Now That You Have Your Data in Hadoop, How Are You Staging Your Analytical Base Tables?

http://support.sas.com/resources/papers/proceedings15/SAS1866-2015.pdf

Teknisempi esitys kooditasolla (DS2) jossa käydään läpi miten transponointia voidaan tehdä Hadoopissa olevalle datalle ja denormalisoida se.

3. SAS® Data Management: Technology Options for Ensuring a Quality Journey Through the Data Management Process

http://support.sas.com/resources/papers/proceedings15/SAS1907-2015.pdf

Oli data talletettuna minne tahansa, siihen kohdistuu usein hyödynnettäessä yleensä korkeita laatuvaatimuksia. Missä kohtaa prosessia laatua pitäisi evaluoida ja miten; tässä esityksessä käydään läpi SASsin näkemys asiasta.

4. Hey! SAS® Federation Server Is Virtualizing ‘Big Data’!

http://support.sas.com/resources/papers/proceedings15/SAS1812-2015.pdf

‘Big dataan’, pilvipalveluihin ja moderniin tietoarkkitehtuuriin kuuluu tänä päivänä myös ymmärrys konseptista ‘federointi’ ja ’tiedon virtualisointi’. Tässä hyvä läpikäynti aihepiiristä.

5. The Advantages and Pitfalls of Implementing SAS® in an Amazon Web Services Cloud Instance

http://support.sas.com/resources/papers/proceedings15/2883-2015.pdf

Miksi asentaa SAS yrityksissä omaan ympäristöön kun sen voi helposti asentaa Amazonin palveluihin. Hyötyja ja haittoja löytyy kattavasti tästä esityksestä. Omakohtaisesti voin todeta että helpompaa ei juuri voisi olla, kunhan AWS palvelut on väännetty oikeisiin asentoihin. Eri asia on sitten mikä on tarkoituksenmukaista.

 

Blogi-postauksetUutisia analytiikastaLue lisää osaamisestamme!Lue lisää palveluistamme!