Ads 468x60px

sunnuntai 12. maaliskuuta 2017

Data-analytiikka ja tietoturva

Big data on noussut ilmiönä viimeisten vuosien aikana voimakkaasti. Huippu on jo ohi ja nyt alamme lunastamaan lukuisia lupauksia sekä odotuksia.
Big datalla tarkoitetaan erittäin suurten tietomassojen keräämistä eri lähteistä, näiden yhdistämistä ja käsittelyä. Datan lähteenä voivat olla erilaiset sovellukset ja järjestelmät, jotka tuottavat erityyppistä tietoa esimerkiksi lokitiedoista erilaiseen sensori- ja mittausdataan. Erilaiset lähteet tuottavat myös hyvin erilaista tietoa eikä perinteinen relaatiotietokantamalli ole enää paras vaihtoehto tämän tyyppisen tiedon käsittelemiseen. Perinteisessä relaatiotietokannassa tallennettavan datan luonne on erilaista verrattuna esimerkiksi sosiaalisessa mediassa syntyvään dataan, joka edellyttää tietokannalta toisenlaista skaalautuvuutta ja suorituskykyä.
Joukolla erilaisia datanmuokkaus ja analyysimenetelmiä voidaan sekä louhia että etsiä datasta keskinäisiä riippuvuuksia, joista voidaan muodostaa uutta sekä arvokasta tietoa. Esimerkiksi deskriptiivisen analytiikan (engl. descriptive analysis) tavoitteena on kuvata tiedon ominaisuuksia, kun taas diagnostiivisessa analytiikassa (engl. diagnostic analytics) pyritään ymmärtämään tapahtumien syitä ja käyttäytymistä, sekä yleisesti vastaamaan kysymykseen ”miksi jokin tapahtui”. Prediktiivinen analytiikka eli ennustava analytiikka (engl. predictive analytics) pyrkii ennustamaan tämän hetkisten ja historiaan perustuvien tietojen pohjalta jonkin tapahtuman jollakin todennäköisyydellä. Preskriptiivinen analytiikka (ohjaileva analytiikka, engl. prescriptive analytics) taas auttaa epävarmuudesta ja muuttuvista olosuhteista huolimatta päätöksenteossa esittämällä erilaisia vaihtoehtoja tavoitteiden saavuttamiksi.
Datamassat saattavat olla hyvin suuria ja erilaisia, minkä vuoksi niiden väliset riippuvuudet voivat olla hyvin monimutkaisia. Tätä varten on kehitetty erilaisia koneoppimismalleja, joissa kehittyneet algoritmit yrittävät löytää eri tietojen välisiä suhteita. Koneoppimismallit jakautuvat pääpiireittäin ohjattuun ja ohjaamattomaan oppimiseen sekä vahvistusoppimiseen.
Yksi big datan ja koneoppimisen soveltamisalue on luonnollisesti tietoturvallisuudessa, jossa kerätyn datamassan perusteella pyritään esimerkiksi tunnistamaan haittaohjelmia tehokkaammin tai luomaan parempia roskapostisuodattimia.
Tämän tyyppinen analytiikka poikkeaa jossain määrin edellä mainituista tyypeistä, sillä mikäli hyökkääjä saa mallin rakenteen selville, hän voi muokata ja mukauttaa hyökkäystään olemassa olevien mallien perusteella, jolloin menetelmät eivät enää tunnista hyökkäystä ja näin ollen eivät enää toimi halutusti.
Mukautettuja hyökkäyksiä varten on tutkittu erilaisia menetelmiä ja lähestymistapoja, jotka perustuvat peliteoriaan ja Stackelberg-peliin, joissa tarkastellaan päätöksentekoentiteettien välisiä vuorovaikutussuhteita. Tuolloin tarkastuksen kohteeksi valitaan tietty vastustajan hallittavissa oleva instanssi ja mitataan kyseiseen instanssiin tehtyjen muokkausten kustannukset (esim. datapaketti verkossa). Oikeiden muuttujien valinta onkin avainasemassa ja se saattaa olla usein jopa tärkeämpi kuin käytössä oleva analyysimalli. Lisäksi koneoppimismenetelmien (Random Forest, Support Vector Machine, Neural Networks, Deep Belief Networks) valinnassa täytyy ottaa huomioon uhan luonne, toimintaympäristö, vastustajan resurssit ja mahdollisesti koituvien haittojen vakavuus sekä laajuus.
Edellä mainittujen menetelmien käyttö on myös jossain määrin herättänyt kritiikkiä. Esimerkiksi verkon tunkeutumisen havainnoinnissa menetelmä saattaa johtaa suureen false positive (väärä positiivinen, haittaohjelma joka ei todellisuudessa ole haitallinen) havaintomääriin. Samoin "puhtaan" (attack-free) harjoitteludatan puute nähdään ongelmallisena. Tämän ei kuitenkaan pitäisi periaatteessa olla ongelma samalla kun datamäärät kasvavat.  Myös hyökkääjän kyvykkyys on tuotu esiin menetelmien kritisoinnissa. Hyökkääjä voi selvittää oppimiskriteerit ja näin pystyy manipuloimaan opetusdataa.

Big data on tehnyt tuloaan myös tietoturvamaailmaan ja tämä on yksi erittäin mielenkiintoinen soveltamisalue. Nähtäväksi jää, kuinka hyvin erilaisia laskentamalleja voidaan hyödyntää tietoturvan jatkuvassa kilpajuoksussa haittaohjelmien tai haittaliikenteen tunnistamisessa.


Ei kommentteja:

Lähetä kommentti