Ads 468x60px

sunnuntai 12. maaliskuuta 2017

Data-analytiikka ja tietoturva

Big data on noussut ilmiönä viimeisten vuosien aikana voimakkaasti. Huippu on jo ohi ja nyt alamme lunastamaan lukuisia lupauksia sekä odotuksia.
Big datalla tarkoitetaan erittäin suurten tietomassojen keräämistä eri lähteistä, näiden yhdistämistä ja käsittelyä. Datan lähteenä voivat olla erilaiset sovellukset ja järjestelmät, jotka tuottavat erityyppistä tietoa esimerkiksi lokitiedoista erilaiseen sensori- ja mittausdataan. Erilaiset lähteet tuottavat myös hyvin erilaista tietoa eikä perinteinen relaatiotietokantamalli ole enää paras vaihtoehto tämän tyyppisen tiedon käsittelemiseen. Perinteisessä relaatiotietokannassa tallennettavan datan luonne on erilaista verrattuna esimerkiksi sosiaalisessa mediassa syntyvään dataan, joka edellyttää tietokannalta toisenlaista skaalautuvuutta ja suorituskykyä.
Joukolla erilaisia datanmuokkaus ja analyysimenetelmiä voidaan sekä louhia että etsiä datasta keskinäisiä riippuvuuksia, joista voidaan muodostaa uutta sekä arvokasta tietoa. Esimerkiksi deskriptiivisen analytiikan (engl. descriptive analysis) tavoitteena on kuvata tiedon ominaisuuksia, kun taas diagnostiivisessa analytiikassa (engl. diagnostic analytics) pyritään ymmärtämään tapahtumien syitä ja käyttäytymistä, sekä yleisesti vastaamaan kysymykseen ”miksi jokin tapahtui”. Prediktiivinen analytiikka eli ennustava analytiikka (engl. predictive analytics) pyrkii ennustamaan tämän hetkisten ja historiaan perustuvien tietojen pohjalta jonkin tapahtuman jollakin todennäköisyydellä. Preskriptiivinen analytiikka (ohjaileva analytiikka, engl. prescriptive analytics) taas auttaa epävarmuudesta ja muuttuvista olosuhteista huolimatta päätöksenteossa esittämällä erilaisia vaihtoehtoja tavoitteiden saavuttamiksi.
Datamassat saattavat olla hyvin suuria ja erilaisia, minkä vuoksi niiden väliset riippuvuudet voivat olla hyvin monimutkaisia. Tätä varten on kehitetty erilaisia koneoppimismalleja, joissa kehittyneet algoritmit yrittävät löytää eri tietojen välisiä suhteita. Koneoppimismallit jakautuvat pääpiireittäin ohjattuun ja ohjaamattomaan oppimiseen sekä vahvistusoppimiseen.
Yksi big datan ja koneoppimisen soveltamisalue on luonnollisesti tietoturvallisuudessa, jossa kerätyn datamassan perusteella pyritään esimerkiksi tunnistamaan haittaohjelmia tehokkaammin tai luomaan parempia roskapostisuodattimia.
Tämän tyyppinen analytiikka poikkeaa jossain määrin edellä mainituista tyypeistä, sillä mikäli hyökkääjä saa mallin rakenteen selville, hän voi muokata ja mukauttaa hyökkäystään olemassa olevien mallien perusteella, jolloin menetelmät eivät enää tunnista hyökkäystä ja näin ollen eivät enää toimi halutusti.
Mukautettuja hyökkäyksiä varten on tutkittu erilaisia menetelmiä ja lähestymistapoja, jotka perustuvat peliteoriaan ja Stackelberg-peliin, joissa tarkastellaan päätöksentekoentiteettien välisiä vuorovaikutussuhteita. Tuolloin tarkastuksen kohteeksi valitaan tietty vastustajan hallittavissa oleva instanssi ja mitataan kyseiseen instanssiin tehtyjen muokkausten kustannukset (esim. datapaketti verkossa). Oikeiden muuttujien valinta onkin avainasemassa ja se saattaa olla usein jopa tärkeämpi kuin käytössä oleva analyysimalli. Lisäksi koneoppimismenetelmien (Random Forest, Support Vector Machine, Neural Networks, Deep Belief Networks) valinnassa täytyy ottaa huomioon uhan luonne, toimintaympäristö, vastustajan resurssit ja mahdollisesti koituvien haittojen vakavuus sekä laajuus.
Edellä mainittujen menetelmien käyttö on myös jossain määrin herättänyt kritiikkiä. Esimerkiksi verkon tunkeutumisen havainnoinnissa menetelmä saattaa johtaa suureen false positive (väärä positiivinen, haittaohjelma joka ei todellisuudessa ole haitallinen) havaintomääriin. Samoin "puhtaan" (attack-free) harjoitteludatan puute nähdään ongelmallisena. Tämän ei kuitenkaan pitäisi periaatteessa olla ongelma samalla kun datamäärät kasvavat.  Myös hyökkääjän kyvykkyys on tuotu esiin menetelmien kritisoinnissa. Hyökkääjä voi selvittää oppimiskriteerit ja näin pystyy manipuloimaan opetusdataa.

Big data on tehnyt tuloaan myös tietoturvamaailmaan ja tämä on yksi erittäin mielenkiintoinen soveltamisalue. Nähtäväksi jää, kuinka hyvin erilaisia laskentamalleja voidaan hyödyntää tietoturvan jatkuvassa kilpajuoksussa haittaohjelmien tai haittaliikenteen tunnistamisessa.


sunnuntai 5. maaliskuuta 2017

Lahden kisoista kiiltäviä mitaleita ja useita henkilörekistereitä

Suomalaiset ovat urheilukansaa, ja jokainen urheilija on meille sankari – etenkin sellainen urheilija kuin Iivo Niskanen, joka hiihti Lahdessa komeaan 15 kilometrin perinteisen hiihtotavan maailmanmestaruuteen. Tietosuoja-aiheita ei kuitenkaan sovi unohtaa edes urheiluhuumassa.

Tietosuojatiimimme juristit innostuivat Lahdessa käytävistä kisoista melkein yhtä paljon kuin Sports Advisory -toimialamme asiantuntijat, kun oivalsimme, kuinka suuria henkilötietomääriä tällaisissa urheilutapahtumissa käsitellään.

Asiakastyössä olemme usein todistaneet tilanteita, joissa asiakkaiden on hankalaa hahmottaa henkilötietojen käsittelyn asetelmien perusteita osana omaa toimintaansa. Jokseenkin yleinen, mutta virheellinen, käsitys koskien henkilörekistereitä on se, että henkilörekisterit muodostuisivat organisaation teknisten järjestelmien asettamien rajojen mukaisesti. Tosiasiassa kuitenkin yhden ja saman henkilörekisterin tietoja voi olla tallennettuna useille erilaisille alustoille. Joskus jo pelkän henkilörekisterin olemassaolon tunnistaminen on voinut olla asiakkaalle hankalaa.

Henkilötietolain mukaan henkilörekisterillä tarkoitetaan käyttötarkoituksensa vuoksi yhteenkuuluvista merkinnöistä muodostuvaa henkilötietoja sisältävää tietojoukkoa, jota käsitellään osin tai kokonaan automaattisen tietojenkäsittelyn avulla tai joka on järjestetty kortistoksi, luetteloksi tai muulla näihin verrattavalla tavalla siten, että tiettyä henkilöä koskevat tiedot voidaan löytää helposti ja kohtuuttomitta kustannuksitta.

EU:n yleisessä tietosuoja-asetuksessa, jota aletaan soveltaa 25.5.2018 alkaen, puhutaan henkilörekisterin sijaan ainoastaan rekisteristä. Sillä tarkoitetaan mitä tahansa jäsenneltyä henkilötietoja sisältävää tietojoukkoa, josta tiedot ovat saatavilla tietyin perustein, oli tietojoukko sitten keskitetty, hajautettu tai toiminnallisin tai maantieteellisin perustein jaettu. Perusajatus tietosuoja-asetuksessa ja henkilötietolaissa on sama: henkilötietorekisteri muodostuu käyttötarkoituksensa vuoksi yhteenkuuluvista tiedoista (ns. looginen kokonaisuus), joista luonnollinen henkilö on suoraan tai epäsuorasti tunnistettavissa.

Edellä esitetyn määritelmän valossa esimerkiksi Lahden urheilukisojen yhteydessä voisi muodostua käyttötarkoituksensa vuoksi yhteenkuuluvista henkilötiedoista seuraavia rekistereitä: ilmoittautuneet ja osallistuneet urheilijat, kilpailutulokset, tiedot urheilijoiden doping-testaukseen ja tuloksiin liittyen, tiedot taustajoukoista, kuten huoltajista ja valmentajista sekä tiedot liput hankkineista asiakkaista eli yleisöstä ja oheistapahtumien kävijöistä. Monelle saattaa tulla yllätyksenä se, että lähtökohtaisesti myös kisalähetysten tallenteista voi muodostua henkilörekisteri! Näin ollen esimerkiksi Iivo Niskanen on maailmanmestaruuteen hiihtäessään tallentunut paitsi historiankirjoihin, myös lukuisiin henkilörekistereihin.

Henkilörekisterillä on aina rekisterinpitäjä, jolla on velvollisuus järjestää henkilötietojen käsittely asianmukaisesti. Rekisterinpitäjä on vastuussa henkilötietojen käsittelystä. Rekisterinpitäjällä tulee olla tietojen käsittelemiselle käsittelyperuste. Lisäksi rekisterinpitäjän on huolehdittava rekisteröityjen oikeuksien toteutumisesta. Esimerkiksi Iivo Niskasella on oikeus muun muassa tarkistaa millaisia tietoja hänestä tällaisiin rekistereihin on tallennettu ja vaatia mahdollisesti virheellisiä tietoja oikaistavaksi tai määrätyin edellytyksin tiettyjä tietoja poistettavaksi. Tosin EU:n yleisen tietosuoja-asetuksen mukainen ”oikeus tulla unohdetuksi” tuskin ulottunee esimerkiksi urheilijoiden kisatuloksiin.

Rekisterinpitäjyyttä määritettäessä tulisi pohtia, mikä taho päättää henkilötietojen käsittelyn tarkoitukset ja keinot ja minkä tahon käyttöä varten henkilörekisteri perustetaan. Henkilörekisterillä voi olla myös useampi rekisterinpitäjä, joiden yhteisiin tarkoituksiin kyseinen henkilörekisteri on perustettu.

Esimerkiksi doping-testauksia tehdään yleensä ennen määrättyjä kisoja tai niiden aikana kyseisiä kisoja silmällä pitäen, mutta testeissä kärähtäneille urheilijoille langetettavat seuraamukset ulottuvat kyseisiä kisoja pidemmällekin. Mikä taho tai toimija päättää henkilötietojen käsittelyn tarkoituksista ja keinoista testausten ja testitulosten osalta? Onko rekisterinpitäjänä lajiliitto tai testausorganisaatio, yksittäinen kisajärjestäjä vai useampi taho yhdessä? Käytännössä lienee kuitenkin mahdotonta järjestää rekisteri siten, että kaikki potentiaaliset määrätyn lajin kilpailujärjestäjät ja muut intressitahot toimisivat yhdessä rekisterinpitäjinä. Olettaisimme, että esimerkiksi kilpailukieltorekisterinpitäjä olisi todennäköisesti lajiliitto, ja muut tahot käsittelisivät tällaisia tietoja henkilötietojen käsittelijöinä rekisterinpitäjän puolesta ja lukuun tai sitten asianmukaisen ja lailliseen luovutusperusteeseen perustuvan luovutuksen saaneina itsenäisinä rekisterinpitäjinä omiin käsittelytarkoituksiinsa.

Rekisterinpitäjällä on oikeus käsitellä keräämiään tietoja ainoastaan, jos käsittelylle on asianmukainen käsittelyperuste. Esimerkiksi doping-testauksessa olisi hyvä miettiä, kannattaako testitulosten käsittely toteuttaa rekisteröidyn suostumuksella, joka on periaatteessa yksi mahdollinen henkilötietojen käsittelyn oikeusperuste. Suostumuksen tulisi kuitenkin olla vapaaehtoinen ja peruutettavissa oleva tahdonilmaisu. Testaustilanteessa suostumuksen vapaaehtoisuuden osoittaminen voi olla ongelmallista, koska näytteen antaminen on usein edellytyksenä kilpailuun osallistumiselle. Lisäksi jos esimerkiksi kilpailukieltoja koskevia tietoja annettaisiin muille toimijoille henkilötietojen luovutuksena, rekisteröidyn suostumus tuskin kannattaa käsittelyperusteena, sillä tällöin kilpailija voisi peruuttaa alkuperäiselle rekisterinpitäjälle antamansa suostumuksen ja näin estää tietojensa luovuttamisen edelleen.

Tietosuoja ja henkilötietojen käsittelyä koskevat pohdinnat ulottavat siis vaikutuksensa kaikkialle – mukaan lukien urheiluun! Tietosuojaa ei pääse karkuun edes hiihtoladuilla, ja myös maailmanmestareilla on oikeus henkilötietojensa suojaan.

Charlotta Henriksson ja Emma Swahne

perjantai 3. maaliskuuta 2017

GDPR compliance is inevitable – some thoughts on how to handle it and benefit from it

Today’s blog post bends the old boundaries a bit and is a result of a collaboration between KPMG Finland and Software AG. Writers have extensive expertise in Enterprise Architecture, Security Architecture and Privacy Architecture.


As many of you already know, the new regulation regarding data protection (General Data Protection Regulation, GDPR) will be effective all across the European Union starting from May 2018. The regulation will have an impact to all organizations operating within the EU, and to organizations outside the EU that are providing services within EU.

Currently ongoing transition period gives organizations time to evaluate and adapt to the new regulation. Our recent experiences from the field show that many organizations are worried how to meet upcoming requirements. While a majority of companies have realized that additional investments are needed to comply with the regulation, quite many of them do not know how to approach upcoming changes.

Some major obstacles would be removed once organizations could answer questions such as “in which business process do we collect, process or delete personal data?” or “where do we store our data, for how long and what for?” Answering these kind of questions has been in the heart of Enterprise Architecture Management (EAM) since the beginning, using the old metaphor of city maps to classify an enterprise landscape, e.g. what are the supporting business functions, applications and data usage.

The details of the GDPR may be new to many, but Enterprise Architects have been modeling business and IT transformations for decades

Let’s take an illustrative example from the financial services sector and an organization that offers housing loans through personal banking unit and insurances through separate unit. All of these products require the collecting, processing and storing of personal data. Both of these are different contexts and the GDPR does not automatically allow service provider to utilize that data across units, unless an explicit consent from the data subject or some other legal ground for the processing exists. Due the regulation and business-related demands, service provider needs to consider at least these point of views:
  • In what context the personal data is captured and processed?
  • Who is a processor and who is a controller?
  • Who has access to this information and on what basis?
  • On what basis personal data is used and long it is stored?
The service provider needs to understand the dependencies between things such as sales channels, business processes, IT systems and the data that is processed by the different business units to able comply with regulation and to effectively carry out development initiatives.

Let’s then add to the complexity, as the financial services provider can have hundreds of products in their portfolio and even several of underlying IT systems. One can start imaging the complexity of the landscape where personal data is processed. In addition to comply with GDPR requirements, there are a high chances that some architectural elements are not fulfilling their business needs well enough, or even worse, there are overlapping solutions increasing complexity for nothing. Regardless of the industry, similar issues are prevailing.

Potential challenges with “the right to be forgotten”

Complying with “the right to be forgotten” will be challenging both technically and operationally. There are a lot of hype around the connected society (e.g. Internet of Things, IoT) and the enormous potential around smart buildings, smart cars, and interactive wearables etc. Possibilities are nearly endless within the interconnect world. However, IoT is built on an ecosystem consisting independent organizations, various partnerships, technologies and customers. That ecosystem in itself is definitely a challenging task to handle. In the wake of a stricter data protection regulation, it is certainly not getting any easier. For an example “the right to be forgotten” and the case of a so called smart car. Who do you turn to if you want to be forgotten? One option could be the car dealer, as they have a customer service function and that is where you have had a dialogue about the car. But, is it really the car dealer who is responsible for gathering the vehicle’s data? The other option could be to turn to the manufacturer. But does the manufacturer have capabilities to provide such an information and do they actually possess the data?

Once again it will be crucial to answer the common EAM questions such as “in which IT system do we process person data” and “where is that technology deployed”. So, while you now are more or less forced to analyze, describe and model your processes from GDPR perspective, why don’t you do it from the efficiency perspective as well, since you sure now have the funding for it now.

The benefits within Business and IT transformation

Before saying that EAM is the solution to overcome the hurdles in the GDPR roadmap we need to understand the environment in which businesses operates these days, especially from the digitalization perspective. Along with the mandatory compliance work, there are significant possibilities to utilize findings for other business development activities to speed up digitalization or other business transformation initiatives. In another hand, the digitalization initiatives demand a higher rate of change, a dedicated customer experience management and GRC practices that acknowledges digitalization.

The typical Enterprise Architecture function will have hard time relying on the old document-based modeling of the truth with snapshots of a given moment in time. Based on the experiences from various projects, documentation tends to be outdated after time passes. In another words, we need to re-think best practices to keep answering these questions and keeping the models (and whole portfolio) up to date. 

EAM should be responsible for integrating the various stakeholders of digitalization. It needs to set up a structured way for collaboration rather than the traditional approach where stakeholders work are isolated from each other. The integrated approach will allow you to understand not only the snapshots of your architecture but also the change perspective (ongoing and planned), business perspectives (financial and structural) and IT perspectives (externally and internally facing). Moreover, this will engage all necessary stakeholders, such as legal, finance and of course the business representatives.

Looking back at the points above, the concept of Enterprise Architecture Management cannot be sheered as a nice-to-have gimmick, but rather way of survival.


Peter Björklund, Business Architect, Software AG
Tuomo Kuusinen, Enterprise Architect, KPMG
Kristian Backman, Security and Privacy Architect, KPMG