Kaikki, mitä opin algoritmeista, olisi pitänyt kertoa jo peruskoulussa
Satu Helin
Palautin Columbian viimeisen kurssin lopputyöni runsas viikko sitten, kuusi päivää ennen valmistumista. Tämä oli viimeinen esimerkki amerikkalaisesta tehokkuudesta. Miksi ihmeessä kurssitöiden jättämisen ja valmistumisen väliin tarvittaisiin enemmän aikaa kuin yksi pitkä viikonloppu?
Juuri nyt minun pitäisi kaataa napaan tequilaa pitkään haaveilemallani roadtripillä syvässä etelässä. Sen sijaan tarkkailen lokkeja Tampereen Laukontorilla. Mutta valmistuminen tuntuu silti yllättävän hyvältä. Virallinen tittelini on nyt Master of Science in Data Journalism.
Sen kunniaksi haluan kertoa ensin, mitä opin datasta ja sitten, mitä opin journalismista koronakeväänä 2020.
Suuri osa datasta on filosofiaa ja yhteiskuntatiedettä, ei matematiikkaa
Datan käyttö perustuu aina pohjimmiltaan valintaan. Millaisia numeroita käytetään, miten rajataan, mitä jätetään pois ja miten luvut esitetään. Tietokoneen voi myös opettaa tekemään näitä valintoja. Ihmisen on vain annettava siihen tarkat, matemaattisiksi käännetyt ohjeet. Karvalakkikielellä kyse on silloin algoritmeista (anteeksi kaikki matemaatikot).
Jos algoritmeja ei voi opettaa lastentarhassa, joitain niistä olisi pitänyt kuulla ainakin lukiossa. Tai edes jossain. Uhosin jo viimeksi, että aion vielä kirjoittaa algoritmeista. Nämä asiat yritän itse pitää mielessä, kun seuraavan kerran pitää tehdä niihin liittyvä juttu.
- Vain yhden asian voi optimoida.
Jos turvallisuus on itse ajavan auton tärkein ominaisuus, auto voi olla mahdollisimman turvallinen vain sisällä istujalle tai ympäristölle, ei molemmille. Pitää tehdä päätös, ajaako auto yhtäkkiä tielle ilmestyneen jalankulkijan päälle vai puuta päin.
- Sama algoritmi ei voi sekä ennustaa että selittää, ainakaan hyvin.
Jos siis algoritmi ennustaa vaikkapa, mistä jutusta saattaisit tykätä, se ei kerro mitään siitä, miksi tykkäät joistakin jutuista. Saati siitä, mitkä jutut ovat hyviä. Jos algoritmi ennustaa, kuinka todennäköisesti lapsi pitää ottaa huostaan, se ei kerro, miksi. Se vain laskee seikkoja, joita algoritmin laatijat pitävät huostaanoton syinä. Pittsburghissa algoritmia käytetään sosiaalityöntekijöiden apuna huostaanottopäätöksissä. Muuttujina käytetään esimerkiksi lapsen synnyinolosuhteita, kuten polttiko äiti tupakkaa raskaana ollessaan sekä sitä, onko lapsen isä kuvioissa mukana, onko äiti nuori tai onko perhe ollut sosiaalitoimen asiakas. Algoritmia on arvosteltu muun muassa itseään toteuttavasta ennustamisesta.
Amazon taas käytti taannoin algoritmia avustamaan työhakemusten järjestelyssä. Algoritmi vertasi hakijoita työpaikan saaneisiin henkilöihin. Kävi ilmi, että tämä menettely syrji naisia (koska selvästi suurin osa aiemmin työpaikan saaneista oli miehiä). Samoin algoritmi jätti suosittelematta hakijoita, joiden yliopistojen nimessä oli sana ’women’.
Toisin sanoen kokeilu meni pieleen, koska selittäminen ja ennustaminen menivät sekaisin. Siitä että naisia on Amazonin työntekijöissä vähemmistö, ei voi päätellä sitä, että naista ei kannattaisi palkata firmaan töihin. Tarinan opetus: Stereotypiat ovat ihan tarpeeksi voimakkaita ilman teknisiä apuvälineitäkin. Jos algoritmeja käytetään niiden voimistamiseen, syntyy harvoin mitään uutta ja hyödyllistä.
- Vastuukysymykset ovat vaikeita.
Jos auto ajaa puuta päin, ja matkustaja vammautuu, onko vastuussa autofirma? Alihankkija, jolta auton ohjelmat on ostettu? Epäonnisen ohjelman kirjoittanut koodari? Entäpä, jos algoritmi on auttanut väärän tai epäreilun huostaanottopäätöksen tekemisessä? Tai jättänyt suosittelematta huostaanottoa, ja lapsi vammautuu tai jopa kuolee? Kuka varmistaa, että laajassa käytössä oleva algoritmi ei syrji vammaisia tai vaikkapa seksuaalivähemmistöjä. Ja jos syrjii, kenen velvollisuus on huomata ja korjata asia?
Tähän loppuun toim. huom. Algoritmi ei ole vihollinen eikä pääpahis. Mutta muillakin kuin matemaatikoilla ja koodareilla on oikeus ja velvollisuus kysyä niihin liittyviä kysymyksiä.
Kun arvioidaan journalismin laatua, vaikuttavuus on liian vähän käytetty mittari
Suomessa varsin yleinen näkemys on, että hyvä juttu löytää kyllä lukijansa. Pieteetillä tehty juttu lähetetään maailmalle. Sitten toivotaan, että jutun lukee joku, joka voi puuttua jutussa mainittuun epäkohtaan. Parhaassa tapauksessa hän ryhtyy toimiin.
Amerikassa ei uskota tuuriin. Kun esimerkiksi uutistoimisto Reutersin (Yhdysvalloissa toimiva) tutkiva yksikkö julkaisee jutun, se tekee aina samalla julkaisuun liittyvän toimintasuunnitelman. Jos on löydetty epäkohta, kuten saastuneella alueella sijaitseva koulu, kenellä on mahdollisuus vaikuttaa asian muuttamiseen? Reuters laatii listan sopivista virkamiehistä ja kansanedustajista ja kysyy heiltä pari päivää ennen jutun julkaisua, mitä nämä aikovat tehdä, jotta oppilaiden ei tarvitsisi käydä koulua saastuneessa ympäristössä. Lisäksi juttulinkki lähetetään sidosryhmille, joita artikkeli saattaisi kiinnostaa. Mahdollisten muutosten tekemistä seurataan tarvittaessa vaikka vuosia.
Kun New York Times pyytää juttunäytettä, se kehottaa ensimmäiseksi kertomaan, millainen vaikutus jutulla on ollut. Tämä pätee, oli kyse sitten pienen opiskelijalehden tai valtakunnallisen median artikkelista. Vaikuttavuus on hyvä mittari siksi, että se saa miettimään varsinkin tutkivan jutun asetelmaa alusta lähtien. Millainen vaikutus voi parhaimmillaan olla vaikkapa vuoden mittaisen tutkimuksen lopputuloksella? Jos mahdollinen vaikutus on hyvin pieni, mitkä muut syyt puoltavat jutun tekemistä?
Yhdysvalloissa vaikuttavuus myös käsitetään laajemmin kuin Suomessa. Mahdollinen ministeriero on toki vaikutus, mutta tärkeämpi on jutun mahdollinen vaikutus yhteiskuntaan ja median yleisöön. Yhdysvalloissa on vaikea keskustella median vastuusta. Jopa tappouhkausten poistamisen vaatiminen tulkitaan sananvapauden rajoittamiseksi, minkä jälkeen keskustelu tyrehtyy.
(Yhdysvalloissahan julkaisija ei ole vastuussa esimerkiksi verkkosivun kommenttien sisällöstä. Kommenteissa saa julkaista käytännössä millaista vihapuhetta tai haukkumista tahansa ilman, että sivun ylläpitäjä on vastuussa.)
Tällaisessa ympäristössä median vaikuttavuuden arvostaminen auttaa. Jos ei ajatellakaan, että kuka tahansa verkkojulkaisija on vastuussa sanomisistaan yhteiskunnalle, voidaan edes ajatella, että julkaisija on vastuussa yleisölleen. Siinä mielessä vaikkapa vloggarin vastuu on samanlainen kuin toimittajan. Vloggarilla on velvollisuus selittää omalle yleisölleen, miksi julkaisee sitä mitä julkaisee. Eikä sekään vielä riitä. Vloggarin tai kenen tahansa mediana toimivan pitäisi tehdä seuraajiensa elämästä jollakin tavoin parempaa.
Tämä ajatusmalli ei ehkä saa ketään lopettamaan törkyjulkaisun tekemistä. Mutta se voi saada ne, jotka puolustautuvat sanomalla ”teen pelkkää viihdettä” tai ”teen vain sitä, mitä yleisöni haluaa”, miettimään omaa vastuutaan laajemmin. Samoin se voi auttaa toimittajaa miettimään juttua myös hieman julkaisuvaihetta pidemmälle.
Epilogi
Opintojen päättäminen oli varsin erilaista kuin olin ennakkoon kuvitellut. Lopulta palasin Suomeen maalis-huhtikuun vaihteessa ja sairastin sen perään koronaviruksen, onneksi melko lievänä versiona. Opiskelukaverit hajaantuivat usealle aikavyöhykkeelle. Koodauskurssini pidettiin kello 0.30-04 Suomen aikaa kahdesti viikossa. Se oli sama kurssi, jonka lopputyön palautin viimeiseksi. Työ käsitteli koronavirukseen ja 5G:hen liittyviä salaliittoteorioita YouTubessa. Se oli samalla ehkä yksi mielenkiintoisimmista kurssitöistä.
Hankalinta etäopiskelussa ei ollutkaan itse opiskelu, vaan kaiken päättyminen kuin seinään. Kun viimeinen zoom-sessio loppui, opettaja sanoi heippa ja sulki kanavan. Tuijotin tyhjää ruutua ja tajusin, etten välttämättä näe kaikkia kurssikavereita enää ikinä. New Yorkista piti lopulta lähteä niin nopealla aikataululla, että juuri ketään ei ehtinyt edes hyvästellä. Sitä on vaikea antaa koronakeväälle anteeksi.
Toisaalta taas Columbian yliopisto oli poikkeuskeväänä toimittajalle (ja ihmisille) myös paras mahdollinen paikka. Mihin muualle olisi saatu ebolarokotteen kehittäneen tiimin jäsenet selittämään, miten rokotekehitys toimii? John Hopkins -yliopiston koronaseurannan tekijät kävijät kertomassa, mistä saivat datan ja mihin heidän mallinsa perustuvat, samoin Atlanticin Covid tracker projectin alkuunpanija ja Financial Timesin somesensaatioksi nousseen visualisoinnin tekijä. Tapasimme virologeja, tilastotieteilijöitä ja analyytikkoja. Pääsin jopa auttamaan Free Detroit -nimistä lehteä datapohjaisen koronaseurannan rakentamisessa (valitettavasti lukeminen vaatii VPN:n). Samalla Columbia kasasi pikapikaa seminaarin, joka on seurannut pandemian vaikutuksia journalismiin ja liiketoimintapuoleen viikko viikolta. Jälki on Yhdysvalloissa ollut hurjaa. mutta tieto ei ole pelkästään lisännyt tuskaa. Mahdollisuus kysyä jatkuvasti parhailta mahdollisilta asiantuntijoilta teki keväästä lopulta paljon helpomman kuin se olisi voinut olla.
Kirjoittajan aikaisemmat artikkelit
- Jäädä vai lähteä – New Yorkissa maailmanpolitiikka tulee nyt suoraan iholle - 20.03.2020
- New York - kaupunki, jossa kymmenet tuhannet nukkuvat kadulla, mutta jossa kukaan ei töni - 23.01.2020
- Ajattelu hoidetaan sitten omalla ajalla! - 06.11.2019
- “Stressaaminen kannattaa aina” ja muita neuvoja työpaikan löytämiseen - 19.09.2019
- Nämä kymmenen asiaa kertovat, että olen muuttunut hiukan newyorkilaiseksi – ja seuraavat viisi siitä, että en ole - 23.07.2019
- Uusia alkuja, vääriä ajoituksia – eli yhdysvaltalainen viesti journalistiopiskelijoille - 28.05.2019