Avoin ja synteettinen data: Uusia mahdollisuuksia teollisuudelle
Kolumni 03.12.2020
Latvia ja Suomi pyrkivät olemaan mestareita avoimen datan alalla. Latvia onkin johtaja tässä Itämeren alueella, kun taas Suomi menestyy Pohjoismaissa.
Kun julkinen sektori luo suuria määriä dataa kyselyistä, digitaalisista kartoista ja metsätalouteen liittyvistä tiedoista, ja tutkijat täydentävät niitä synteettisillä aineistoilla, odotetaan syntyvän uusia dataan perustuvia ratkaisuja ja liiketoimintamalleja. EY:n eurooppalaisen datan kypsyysraportin mukaan sekä Latvia että Suomi seuraavat EU:ssa nopeasti avoimen datan edistymistä ja ovat johtavia avoimen datan kerääjiä sekä paikallisissa että alueellisissa portaaleissa.
Vuonna 2016 Latvia teki julkisen sektorin ja ICT-sektorin välisen muistion pyrkimyksestään tulla dataan perustuvaksi kansakunnaksi. Avoin dataportaali aloitti toimintansa vuonna 2017, ja viime vuodesta lähtien Latvialla on ollut oma avoimen datan strategiansa. Latvia on lisäksi aktiivinen kumppani uusien eurooppalaisten direktiivien ideointiprosessissa, mikä tulee muuttaamaan asetelmaa muutaman vuoden kuluessa.
Mutta entä jos dataa ei ole saatavilla, eikä löydy tarpeeksi aineistoja vaikutuksen tekemiseksi? Joitakin ratkaisuja on kuitenkin olemassa.
Yksi niistä on synteettisen datan luominen – esimerkiksi kuvien luominen sellaisilla ohjelmistoilla kuten 3D-pelimoottorit. Synteettinen data on kuuma aihe syväoppimisessa eli keinoälyn osa-alueella, jolla on saatu aikaan vaikuttavia tuloksia viime vuosikymmenen aikana. Syvät neuroverkot (DNN) ilmentävät ihmistason suorituskykyä tai jopa ylittävät sen useissa tehtävissä, jotka aiemmin olivat liian haastavia tietokoneille: aina shakkipelistä miehittämättömien ajoneuvojen ajamiseen monimutkaisissa ympäristöissä. Nämä tulokset eivät kuitenkaan tule ilmaiseksi, vaan ne vaativat oppimiseen runsaasti dataa.
Tästä syystä syväoppimismarkkinoiden johtavat toimijat sekä sovellusalalla että tutkimuksessa ovat sellaisia suuryrityksiä, joilla on pääsy massadataan, kuten Google, Facebook, Amazon ja Baidu. Samasta syystä pienemmät yritykset joutuvat epäedulliseen asemaan, koska vaikka niiden tutkimus- ja kehitystyön asiantuntijat kykenisivätkin keksimään parempia algoritmeja, on todennäköistä, että online-jättiläisten, joilla on pääsy lähes rajattomiin datamääriin, DNN-mallit ovat silti parempia.
Tässä kohtaa synteettinen data astuu kuitenkin kuvaan. Sen sijaan että kerättäisiin datajoukko DNN-mallin kouluttamiseksi verkossa ja sitten sen ahkeraksi merkitsemiseksi, voidaan sellainen luoda. On huomattava, että synteettinen data eroaa luonnollisesta datasta: esimerkiksi kuvat näyttävät siten vähemmän aidoilta. Ongelman voi kuitenkin helposti ratkaista luomalla useita kuvia ja muokkaamalla niitä halutulla tavalla. Tätä lähestymistapaa tutkitaan parhaillaan Elektroniikan ja tietojenkäsittelytieteen instituutissa (Institute of Electronics and Computer Sciences, EDI), joka on Latvian arvostetuin tieteellinen organisaatio tekniikan ja tietojenkäsittelytieteen alalla.
Viimeisimmässä projektissa synteettisiä kuvia esineistä käytettiin algoritmien kouluttamiseen teollisuusrobottien varsien automatisointiin, mitkä nyt käyttävät kameroita satunnaisesti pinottujen esineiden havaitsemiseen, poimimiseen ja käsittelyyn. Vaikka kuvien ottaminen tällaisista esineistä ja pinoista ja niiden merkitseminen olisi pitkäveteistä ja aikaavievää, tutkijat välttivät sen tässä luomalla niitä.
Toista synteettisen datan sovellusta, muovijätteen tunnistamista ja lajittelua, kehitetään osana VIZTA (Vision, Identification, with Z-sensing Technology and key Applications) Horisontti 2020 -hanketta. Sen sijaan, että otettaisiin useita kuvia pulloista, otettiin vain muutamia kuvia, jonka jälkeen data-aineistoa täydennettiin synteettisillä kuvilla.
Synteettisiä tietoja käytetään myös itseajavien autojen suunnitteluun EU:n rahoittamassa PRYSTINE-hankkeessa (Programmable Systems for Intelligence in Automobiles). DNN-mallit ovat itseajavien autojen navigointijärjestelmän pääkomponentti ja niiden kouluttamiseen tarvitaan paljon huolellisesti merkittyjä kuvia katunäkymistä. Tällaisten kuvien hankkiminen ja merkitseminen on vaikeaa ja kallista, mutta niiden tuottaminen on paljon helpompaa. On odotettavissa, että itseajavien autojen DNN:ien kouluttaminen seka-aineistoilla (toisin sanoen sisältäen sekä aitoja että synteettisiä kuvia) tekee niistä tarkempia ja siten luotettavampia.
Voimme nähdä, että nopeat edistysaskeleet ovat mahdollisia, kun on selkeä visio ja päättäväisyys sekä usko siihen, että data on tärkeä mahdollistaja sekä startup-yrityksille että vakiintuneille yrityksille. Avoimen datan käyttö on hyvä väline julkisen ja yksityisen sektorin tehokkuuden ja laadun sekä dataan perustuvan päätöksenteon saavuttamiseksi.
Alise Barvika, Maksims Ivanovs & Roberts Kadikis
Latvian investointi- ja kehitysvirasto, Helsingin toimisto
Elektroniikan ja tietojenkäsittelytieteen instituutti, Latvia