| At line 3 changed one line |
| * [Paavon turnaustilastopulautin|http://www.ee.oulu.fi/~paavo/go/voittotilastot/voittotilastot.cgi] |
| * [Euroopan go-tietokannasta|http://www.europeangodatabase.eu/] löytyvät kaikkien eurooppalaisten pelaajien EGF-tulokset viimeiseltä kymmeneltä vuodelta |
| * [Paavon turnaustilastopulautin|http://pulautin.delic.iki.fi/voittotilastot.cgi] [Paavon pulauttimen suunnittelua]. |
| At line 8 added one line |
|
| At line 37 changed one line |
| Tällöin saadaan osa kohinasta suodatettua pois. |
| Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen |
| extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen, |
| vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien |
| parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso. |
| At line 45 added 39 lines |
|
| Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana |
| helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, |
| kuten sanontakin sanoo: "valhe, emävalhe, tilasto." |
|
| Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla |
| johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen |
| kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään |
| datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti |
| tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä |
| on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, |
| ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta |
| haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei |
| voida edes arvioida tätä vaikutusta. |
|
| Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, |
| koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan |
| arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta |
| että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto |
| on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi |
| on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon |
| dataan, on (vaikkakin tahatonta) harhaan johtamista. |
|
| Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on |
| yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta |
| ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään |
| tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut |
| arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin |
| hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten |
| hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi. |
|
| Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois |
| siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä |
| voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin |
| perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, |
| on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida |
| ekstrapolointi sekä siihen liittyvät riskit. |
|
| -- DonOlli |