| At line 43 added 39 lines |
|
| Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana |
| helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, |
| kuten sanontakin sanoo: "valhe, emävalhe, tilasto." |
|
| Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla |
| johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen |
| kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään |
| datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti |
| tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä |
| on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, |
| ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta |
| haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei |
| voida edes arvioida tätä vaikutusta. |
|
| Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, |
| koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan |
| arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta |
| että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto |
| on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi |
| on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon |
| dataan, on (vaikkakin tahatonta) harhaan johtamista. |
|
| Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on |
| yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta |
| ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään |
| tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut |
| arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin |
| hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten |
| hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi. |
|
| Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois |
| siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä |
| voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin |
| perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, |
| on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida |
| ekstrapolointi sekä siihen liittyvät riskit. |
|
| -- DonOlli |