Add new attachment

In order to upload a new attachment to this page, please use the following box to find the file, then click on “Upload”.

This page (revision-25) was last changed on 11-Feb-2008 13:16 by JaakkoSärelä  

This page was created on 05-Sep-2005 00:16 by 81.197.68.66

Only authorized users are allowed to rename pages.

Only authorized users are allowed to delete pages.

Difference between version and

At line 1 changed one line
TTgoK:n uusilta WWW-sivuilta löytyy luokittamista helpottava Java-appletti.
!Työkaluja luokittamisen tueksi
At line 3 changed one line
Katso [Luokituskuvaaja | http://www.students.tut.fi/~ttgok/rankprob.html]
* [Euroopan go-tietokannasta|http://www.europeangodatabase.eu/] löytyvät kaikkien eurooppalaisten pelaajien EGF-tulokset viimeiseltä kymmeneltä vuodelta
* [Paavon turnaustilastopulautin|http://pulautin.delic.iki.fi/voittotilastot.cgi] [Paavon pulauttimen suunnittelua].
* TTgoK:n WWW-sivuilta luokittamista helpottava [Luokituskuvaaja|http://www.students.tut.fi/~ttgok/rankprob.html] Java-appletti.
* TTgoK:n WWW-sivuilta [GoR-laskuri| http://www.students.tut.fi/~ttgok/gorcalc.html].
----
Kari TTgoK:n sivujen tarjonnasta: Ohjelmia (varsinkin GOR-laskuri) ei ole pahemmin testattu, joten teen microsoftit ja toivoisin, että käyttäjät testaavat ohjelmat ja valittavat sitten vaikka tänne sivulle.
----
Luokituskuvaaja antaa outoja jakaumia esimerkiksi rivillä
1k- 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1d+
kun käytetään asetusta "EGF:n tilastollinen voitto%".
Todennäköisyyskuoppa 5k kohdalla ei oikein vastaa tervettä järkeä.
-- [Lauri Paatero] 8.4.2005
Epäilen, että tuo "bugi" johtuu siitä, että käytin turnaustilaston voittoprosentteja aina neljän kiven erotukseen saakka, mutta
koska tilastoja ei ollut saatavilla suuremmista eroista, arvioin suuremmat vahvuuserot samoiksi kuin laskennallinen voittoprosentti.
Tämä aiheuttaa ohjelman käyttämiin voittoprosentteihin epäjatkuvuuskohdan juuri tuohon neljän/viiden kiven kohdalle (esimerkin tapauksessa 1k vs. 5k). Ongelman saisi pois siten, että ekstrapoloisi noita voittoprosentteja suuremmille taitoeroille jotenkin paremmin.
-- Kari
Sitä vähän rupesin epäilemään.
Pelkkä extrapolointi laitimmaisten pisteiden nojalla ei ole erityisen
terveellinen teko, koska tuolloin extrapoloidaan kohinaisen datan
eniten kohinaisita pisteistä.
Kyseisen datan sellaisenaan käyttö on sinänsä jo aika kyseenalainen ratkaisu,
koska data on aika kohinaista (osassa soluista on varsin vähän pelejä).
Prosessi helposti vahvistaa kohinaa.
Paremman tuloksen saisi, kun sovittaa (oletetun mallin mukaisen) funktion dataan.
Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen
extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen,
vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien
parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso.
-- Lauri
Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana
helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine,
kuten sanontakin sanoo: "valhe, emävalhe, tilasto."
Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla
johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen
kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään
datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti
tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä
on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen,
ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta
haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei
voida edes arvioida tätä vaikutusta.
Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista,
koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan
arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta
että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto
on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi
on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon
dataan, on (vaikkakin tahatonta) harhaan johtamista.
Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on
yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta
ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään
tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut
arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin
hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten
hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi.
Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois
siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä
voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin
perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä,
on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida
ekstrapolointi sekä siihen liittyvät riskit.
-- DonOlli
Version Date Modified Size Author Changes ... Change note
25 11-Feb-2008 13:16 5.054 kB JaakkoSärelä to previous Lauri sanoi, ettei suunnitelma toteudu
24 11-Feb-2008 13:01 5.112 kB LauriPaatero to previous | to last
23 28-Jun-2005 13:03 5.117 kB PaavoPietarila to previous | to last
22 05-Sep-2005 00:16 5.241 kB PaavoPietarila to previous | to last
21 05-Sep-2005 00:16 5.195 kB LauriPaatero to previous | to last
« This page (revision-25) was last changed on 11-Feb-2008 13:16 by JaakkoSärelä